R-ekosysteemi avoimelle julkishallinnon datalle ja laskennalliselle yhteiskuntatutkimukselle
TCWR-seminaari 7.3.2014 Turussa
Markus Kainu tohtorikoulutettava Sosiaalitieteden laitos, Turun yliopisto Aleksanteri-instituutti, Helsingin yliopisto
an important driver of the change sweeping the field is the enormous quantities of highly informative data inundating almost every area we study.
In the last half-century, the information base of social science research has primarily come from three sources: survey research, end-of-period government statistics, and one-off studies of particular people, places, or events.
In the next half-century, these sources will still be used and improved, but the number and diversity of other sources of information are increasing exponentially and are already many orders of magnitude more informative than ever before.
Tarve edistää yhteistyötä tietojenkäsittelytieteiden ja yhteiskuntatieteiden välillä, jonka myötä
Turku Center for Welfare Research was founded in 1997 in a cooperative effort by the three universities in Turku (Ã…bo). The Center is intended to more efficiently coordinate resources, both in teaching and research.
The rapidly emerging governmental and other open data streams provide novel opportunities for social sciences, data journalism, and citizen participation across the globe while computational tools to utilize these resources are lacking. A community-driven software ecosystem provides a scalable solution and a potential to revolutionize the field, taking advantage of the lessons learned in similar initiatives in other fields such as Bioconductor and rOpenSci.
rOpenGov on yhteisövetoinen ekosysteemi avoimen julkishallinnollisen datan ja laskennallisen yhteiskuntatutkimuksen R-paketeille.
Suomessa ja maailmalla nopeasti lisääntyvät hallinnollisen ja muun avoimen datan virrat ovat erityisen kiinnostavia yhteiskuntatieteiden, datajournaslimin ja kansalaisten osallistumisen näkökulmasta, mutta laskennalliset työkalut näiden datavirtojen hyödyntämiseen vielä ovat puutteellisia.
rOpenGov-projektissa kehitetään yhteisövetoista skaalautuvaa ohjelmistoekosysteemiä tavoitteena valjastaa avoimen laskennallisen analyysin ja uusien datalähteiden potentiaali yhteiskuntatieteiden käyttöön.
Projekti ottaa oppia biotieteiden menestyksekkäiden ekosysteemiprojektien kuten Bioconductor:in tai rOpenSci:n kokemuksista.
rOpenGov on yhteisöllinen projekti, joka rakentuu ydintiimistä, pakettien kehittäjistä ja pakettien käyttäjistä.
Käyttäjäyhteisö koostuu akateemisista tutkijoista, opiskelijoista, datajournalisteista, kansalaistieteilijöistä ja muista kiinnostuneista.
Ydintiimin palvelee kehittäjiä ja käyttäjiä ylläpitämällä infrastruktuuria, arvioimalla uusia paketteja ja laatimalla suosituksia pakettien toiminnalle. Ydintiimin jäsenillä on laskennallisten tai yhteiskuntatieteiden koulutus:
Pakettien kehittäjien projektit helpottavat erilaisten lasennalliselle yhteiskuntatutkimukselle relevanttien datalähteiden ohjelmoinnillista hyödyntämistä. Mm. seuraavat eri tieteenalojen tutkijat ovat aktiivisesti mukana omien pakettiensa ja koko projektin kehitystyössä:
Tilastolliset ja graafiset menetelmät. Projekti pyrkii tarjoamaan yhteiskuntatieteille relevantteja laskennallisia työkaluja R-kielen täydentämiseksi tältä osin. Erityisesti rOpenGov tarjoaa työkaluja uusien datalähteiden käyttöön.
Dokumentaatio. Projektissa uskotaan että korkealaatuinen dokumentaatio ei ole vain hyvä kehittämistrategia vaan myös ehdoton edellytys sille että uudet työkalut otetaan käyttöön. Jokainen rOpenGov-paketti sisältää vähintää yhden vignetin (ohjedokumentti R-projektissa), jossa esitellään tehtäväkältöisesti, läpinäkyvästi ja toistettavasti kuvaus paketin toiminnallisuudesta ja mahdollisuuksista. Pakettien ensisijaiset vignetit käännetään automaattisesti online-ohjeiksi rOpenGov:n verkkosivuille.
Skaalautuvuus. rOpenGov on jaettu ohjelmistoalusta joka mahdollistaa laajennettavien, skaalautuvien ja keskenään yhteensopivien ohjelmistojen ripeän kehittämisen. Yksittäinen tutkija ei kykene tuottamaan näin monipuolisia työkaluja kuin mitä on tarpellista uusien datalähteiden potentiaalin hyödyntämiseksi.
Avoin lähdekoodi. rOpenGov on ja tulee aina olemaan 100 % avoimen lähdekoodin projekti. Projektissa käytetään laajasti git:iä ja Github:ia versionhallintaan and yhteistyöhön. Kaikki paketit julkaistaan avoimen lähdekoodin lisensseillä, jotta käyttäjillä ja kehittäjillä olisi pääsy algoritmeihin sekä niiden sovelluksiin, ja että kansainvälinen tiedeyhteisö voi omistaa tutkimuksen tekemiseen vaadittavat ohjelmistot.
Toistettava tutkimus. Projektissa pyritään edistämään tutkimuksen toistettavuutta tarjoamalla työkaluja ja työvirtoja, jotka ovat helposti sovitettavissa erilaisiin tutkimuskysymyksiin erilaisissa tutkimusasetelmissa. Yhdenmukaisen käyttöliitymän äänestysdataan sekä taloudellisiin ja sosiaalisiin indikaattoreihin on yksi esimerkki tästä. Tämän kaltainen rakenne tekee analyyseistä suoraviivaisempia ja ymmärrettävämpi, kun dataa ei kerätä ja käsitellä erikseen jokaisella kertaa.
Avoin kehitystyö. Projektissa käyttäjiä rohkaistaan astumaan kehittäjien rooliin, joko kehittämällä rOpenGov-yhteensopivia paketteja tai pakettien dokumentaatiota. Lisäksi rOpenGov tarjoaa foorumin ryhmien ja projektien yhteistyölle, joilla on yhteisiä tavoitteita ohjelmistojen kehityksessä. Tällainen yhteistyö voi myös auttaa tutkijoita oppimaan lisää laskennallisten ja tilastollisten menetelmien yhteiskuntatieteellisista sovelluksia.
rOpenGov perustuu tilastolliseen R-ohjelmointikieleen.
R on korkean tason tulkattava ohjelmointikieli, jolla on helppo testata uusia laskennallisia menetelmiä.
Olioperusteinen rakenne mahdollistaa moninaisten ja kompleksisten yhteiskuntatieteellisten tutkimusongelmien mallintamisen ja ratkaisemisen.
Valtaosa projektin komponenteista jaetaan R-paketteina. Näin käyttäjillä on mahdollisuus käsitellä, analysoida ja raportoida datoja ja tutkimuksen tuloksia.
Projektiin ovat tervetulleita myös tukipalveluja ja metadataa tarjoavat paketit.
Yleisperiaate on että pakettien julkaisuversiot jaetaan CRAN-verkoston kautta ja kehitysversiot rOpenGov:n Github-organisaation kautta.
Projektin kieleksi on valittu R-kieli muuan muassa siksi että se tarjoaa:
R:n puolesta puhuu lisäksi kielen ympärillä vaikuttava vahva ekosysteemi ja käyttäjäyhteisö.
Lisäksi R on projektin tekijöille tutuin kieli ja sillä on vahvat näytöt samankaltaisista yhteisöllisistä projekteista muilta laskennallisten tieteiden aloilta.
Samalla projektissa pidetään tarkkaa silmällä muiden ohjelmointikielien ja niiden ekosysteemien kehitystä, kuten Python- ja Julia-kielten, ja kielipolitiikkaa voidaan tulevaisuudessa laventaa.
year | happened |
---|---|
2010 | Project starts |
2011 | Data journalism workshops |
Apps4Finland Data Opening Award | |
2012 | SHARE-konferenssi (Belgrade) |
Urban research seminar (Helsinki) | |
Collaboration with major Finnish media organizations (election data hackathon) | |
Sitra 14,000e funding for election data project | |
Open Legislative Data-conference (Paris) | |
Open Knowledge Festival (Helsinki) | |
Apps4Finland Data Opening Award (Data elections & Datawiki) | |
2013 | Open Knowledge Foundation; Open Science work group |
CRAN | |
Russia, US, Poland, Austria, OpenStreetMap packages join rOpenGov | |
Open Knowledge Roadshow (Turku, Finland) | |
Apps4Finland award (collaboration with Demos Helsinki think tank) | |
NIPS Machine Learning Open Source Software workshop (Lake Tahoe, US) | |
2014 | Political scientists rush in the project |
Active development of guidelines and technical documentation |
Rufus Pollock 4.3.2014 in Al Jazeera
Big Data smacks of the centralization fads we've seen in each computing era. The notion that there's more data than we can process - something which has - no doubt - always been true, year on year, since computing began - has been dressed up as the latest trend, complete with associated technology must-haves.
Meanwhile, a much more important story, the real revolution, is being overlooked: the mass democratisation of the means of access, storage, and processing of data. This story isn't about large organisations running parallel software on tens of thousands of servers, but about more people than ever being able to collaborate effectively around a distributed ecosystem of information, an ecosystem of Small Data.