rOpenGov

R-ekosysteemi avoimelle julkishallinnon datalle ja laskennalliselle yhteiskuntatutkimukselle

TCWR-seminaari
7.3.2014 Turussa

Markus Kainu
tohtorikoulutettava
Sosiaalitieteden laitos, Turun yliopisto
Aleksanteri-instituutti, Helsingin yliopisto

Mistä puhun

  1. Miksi?
  2. Mikä rOpenGov?
  3. Mitä rOpenGov:n avulla voi tehdä?
  4. Miten osallistua projektiin?

1. Miksi?

Muutos?

(Gary King (2014, p. 166), the director of the Institute for Quantitative Social Science at Harvard University)

an important driver of the change sweeping the field is the enormous quantities of highly informative data inundating almost every area we study.

In the last half-century, the information base of social science research has primarily come from three sources: survey research, end-of-period government statistics, and one-off studies of particular people, places, or events.

In the next half-century, these sources will still be used and improved, but the number and diversity of other sources of information are increasing exponentially and are already many orders of magnitude more informative than ever before.




  • internet
  • avoin lähdekoodi

Muutos!

1. Paradigmaattinen käänne yhteiskuntatieteissä

  • Suljettu data ja räätälöidyt työkalut =>
  • avoin data ja joustavat työkalut

2. Laskennallisten menetelmien kasvava merkitys

  • Uusia sovelluksia lainaamalla muiden tieteenalojen menetelmistä
    • sequence analysis (genomics) -> Social sequence analysis
    • networks analysis (computer science) -> Social network analysis
    • spatial inference (geography) -> Spatial econometrics




Yhteiskuntatieteissä on yhä enemmän samankaltaisia datarakenteita ja samankaltaisia analyyttisiä ongelmia kuin mitä muilla (laskennallisilla) tieteenaloilla

Uudet työkalut, uudet mahdollisuudet

Tarve edistää yhteistyötä tietojenkäsittelytieteiden ja yhteiskuntatieteiden välillä, jonka myötä

  • pääsy uusiin datalähteisiin ja datojen analysointi yksinkertaistuu
  • työvaiheiden dokumentointi paranee ja avautuu
  • läpinäkyvyys ja toistettavuus paranee (validiteetin ja reliabiliteetin näkökulma)
    • For quantitatively oriented manuscripts that utilize real or simulated data, authors are strongly encouraged to offer their data and code online to other researchers. (Sociological Science)
  • otetaan käyttöön uusia julkaisuformaatteja ja saadaan lisänäkyvyyttä tutkimukselle
  • laajempia vaikutuksia yhteiskuntaan, kuten päätöksentekoon, kansalaistieteeseen, datajournalismiin, opetukseen

2. Mikä rOpenGov?

TCWR

Turku Center for Welfare Research was founded in 1997 in a cooperative effort by the three universities in Turku (Ã…bo). The Center is intended to more efficiently coordinate resources, both in teaching and research.

rOpenGov

The rapidly emerging governmental and other open data streams provide novel opportunities for social sciences, data journalism, and citizen participation across the globe while computational tools to utilize these resources are lacking. A community-driven software ecosystem provides a scalable solution and a potential to revolutionize the field, taking advantage of the lessons learned in similar initiatives in other fields such as Bioconductor and rOpenSci.

rOpenGov

rOpenGov on yhteisövetoinen ekosysteemi avoimen julkishallinnollisen datan ja laskennallisen yhteiskuntatutkimuksen R-paketeille.

Suomessa ja maailmalla nopeasti lisääntyvät hallinnollisen ja muun avoimen datan virrat ovat erityisen kiinnostavia yhteiskuntatieteiden, datajournaslimin ja kansalaisten osallistumisen näkökulmasta, mutta laskennalliset työkalut näiden datavirtojen hyödyntämiseen vielä ovat puutteellisia.

rOpenGov-projektissa kehitetään yhteisövetoista skaalautuvaa ohjelmistoekosysteemiä tavoitteena valjastaa avoimen laskennallisen analyysin ja uusien datalähteiden potentiaali yhteiskuntatieteiden käyttöön.

Projekti ottaa oppia biotieteiden menestyksekkäiden ekosysteemiprojektien kuten Bioconductor:in tai rOpenSci:n kokemuksista.

rOpenGov-yhteisö

rOpenGov on yhteisöllinen projekti, joka rakentuu ydintiimistä, pakettien kehittäjistä ja pakettien käyttäjistä.

Käyttäjäyhteisö koostuu akateemisista tutkijoista, opiskelijoista, datajournalisteista, kansalaistieteilijöistä ja muista kiinnostuneista.

Ydintiimin palvelee kehittäjiä ja käyttäjiä ylläpitämällä infrastruktuuria, arvioimalla uusia paketteja ja laatimalla suosituksia pakettien toiminnalle. Ydintiimin jäsenillä on laskennallisten tai yhteiskuntatieteiden koulutus:

Projektin periaatteet ja tavoitteet 1

Tilastolliset ja graafiset menetelmät. Projekti pyrkii tarjoamaan yhteiskuntatieteille relevantteja laskennallisia työkaluja R-kielen täydentämiseksi tältä osin. Erityisesti rOpenGov tarjoaa työkaluja uusien datalähteiden käyttöön.

Dokumentaatio. Projektissa uskotaan että korkealaatuinen dokumentaatio ei ole vain hyvä kehittämistrategia vaan myös ehdoton edellytys sille että uudet työkalut otetaan käyttöön. Jokainen rOpenGov-paketti sisältää vähintää yhden vignetin (ohjedokumentti R-projektissa), jossa esitellään tehtäväkältöisesti, läpinäkyvästi ja toistettavasti kuvaus paketin toiminnallisuudesta ja mahdollisuuksista. Pakettien ensisijaiset vignetit käännetään automaattisesti online-ohjeiksi rOpenGov:n verkkosivuille.

Skaalautuvuus. rOpenGov on jaettu ohjelmistoalusta joka mahdollistaa laajennettavien, skaalautuvien ja keskenään yhteensopivien ohjelmistojen ripeän kehittämisen. Yksittäinen tutkija ei kykene tuottamaan näin monipuolisia työkaluja kuin mitä on tarpellista uusien datalähteiden potentiaalin hyödyntämiseksi.

Projektin periaatteet ja tavoitteet 2

Avoin lähdekoodi. rOpenGov on ja tulee aina olemaan 100 % avoimen lähdekoodin projekti. Projektissa käytetään laajasti git:iä ja Github:ia versionhallintaan and yhteistyöhön. Kaikki paketit julkaistaan avoimen lähdekoodin lisensseillä, jotta käyttäjillä ja kehittäjillä olisi pääsy algoritmeihin sekä niiden sovelluksiin, ja että kansainvälinen tiedeyhteisö voi omistaa tutkimuksen tekemiseen vaadittavat ohjelmistot.

Toistettava tutkimus. Projektissa pyritään edistämään tutkimuksen toistettavuutta tarjoamalla työkaluja ja työvirtoja, jotka ovat helposti sovitettavissa erilaisiin tutkimuskysymyksiin erilaisissa tutkimusasetelmissa. Yhdenmukaisen käyttöliitymän äänestysdataan sekä taloudellisiin ja sosiaalisiin indikaattoreihin on yksi esimerkki tästä. Tämän kaltainen rakenne tekee analyyseistä suoraviivaisempia ja ymmärrettävämpi, kun dataa ei kerätä ja käsitellä erikseen jokaisella kertaa.

Avoin kehitystyö. Projektissa käyttäjiä rohkaistaan astumaan kehittäjien rooliin, joko kehittämällä rOpenGov-yhteensopivia paketteja tai pakettien dokumentaatiota. Lisäksi rOpenGov tarjoaa foorumin ryhmien ja projektien yhteistyölle, joilla on yhteisiä tavoitteita ohjelmistojen kehityksessä. Tällainen yhteistyö voi myös auttaa tutkijoita oppimaan lisää laskennallisten ja tilastollisten menetelmien yhteiskuntatieteellisista sovelluksia.

Tavoitteet tiivistettynä

  1. Pääsy dataan
    • ohjelmoinnillinen pääsy datalähteisiin
    • läpinäkyvä ja valmiiksi tehty datojen prosessointi
    • datakatalogit
    • harmonisoidut datarakenteet
  2. Datan analysoiminen
    • räätälöytyjä analyysialgoritmejä yhteiskuntatieteelliseen dataan
    • analyysitapojen standardisoiminen

Kielipolitiikka 1

rOpenGov perustuu tilastolliseen R-ohjelmointikieleen.

R on korkean tason tulkattava ohjelmointikieli, jolla on helppo testata uusia laskennallisia menetelmiä.

Olioperusteinen rakenne mahdollistaa moninaisten ja kompleksisten yhteiskuntatieteellisten tutkimusongelmien mallintamisen ja ratkaisemisen.

Valtaosa projektin komponenteista jaetaan R-paketteina. Näin käyttäjillä on mahdollisuus käsitellä, analysoida ja raportoida datoja ja tutkimuksen tuloksia.

Projektiin ovat tervetulleita myös tukipalveluja ja metadataa tarjoavat paketit.

Yleisperiaate on että pakettien julkaisuversiot jaetaan CRAN-verkoston kautta ja kehitysversiot rOpenGov:n Github-organisaation kautta.

Kielipolitiikka

Projektin kieleksi on valittu R-kieli muuan muassa siksi että se tarjoaa:

  1. vakiintuneen järjestelmän ohjelmistojen paketoimiselle,
  2. monipuoliset mahdollisuudet automatisoituun dokumenttien luomiseen,
  3. verkossa olevan datan tehokkaaseen hyödyntämiseen sekä
  4. tuen moninaisten tilastollisten simulointien ja mallintamisten tekemiselle sekä
  5. tämänhetkistä huipputasoa edustavat graafiset graafiset ominaisuudet.

R:n puolesta puhuu lisäksi kielen ympärillä vaikuttava vahva ekosysteemi ja käyttäjäyhteisö.

Lisäksi R on projektin tekijöille tutuin kieli ja sillä on vahvat näytöt samankaltaisista yhteisöllisistä projekteista muilta laskennallisten tieteiden aloilta.

Samalla projektissa pidetään tarkkaa silmällä muiden ohjelmointikielien ja niiden ekosysteemien kehitystä, kuten Python- ja Julia-kielten, ja kielipolitiikkaa voidaan tulevaisuudessa laventaa.

Progress

year happened
2010 Project starts
2011 Data journalism workshops
Apps4Finland Data Opening Award
2012 SHARE-konferenssi (Belgrade)
Urban research seminar (Helsinki)
Collaboration with major Finnish media organizations (election data hackathon)
Sitra 14,000e funding for election data project
Open Legislative Data-conference (Paris)
Open Knowledge Festival (Helsinki)
Apps4Finland Data Opening Award (Data elections & Datawiki)
2013 Open Knowledge Foundation; Open Science work group
CRAN
Russia, US, Poland, Austria, OpenStreetMap packages join rOpenGov
Open Knowledge Roadshow (Turku, Finland)
Apps4Finland award (collaboration with Demos Helsinki think tank)
NIPS Machine Learning Open Source Software workshop (Lake Tahoe, US)
2014 Political scientists rush in the project
Active development of guidelines and technical documentation

3. Mitä rOpenGov:n avulla voi tehdä?

Avoin hallinnollinen data

Avoin tutkimusdata & laskennallinen yhteiskuntatutkimus

4. Miten osallistua projektiin?

Harkitse avointen analyysimenetelmien kuten R:n opettelemista!

Liity yhteisöön!

Muutos?

Rufus Pollock 4.3.2014 in Al Jazeera

Big Data smacks of the centralization fads we've seen in each computing era. The notion that there's more data than we can process - something which has - no doubt - always been true, year on year, since computing began - has been dressed up as the latest trend, complete with associated technology must-haves.

Meanwhile, a much more important story, the real revolution, is being overlooked: the mass democratisation of the means of access, storage, and processing of data. This story isn't about large organisations running parallel software on tens of thousands of servers, but about more people than ever being able to collaborate effectively around a distributed ecosystem of information, an ecosystem of Small Data.

Kysymyksiä & kommentteja!