futurice / symptomradar

Symptomradar (Oiretutka) crowdsources coronavirus symptoms from news media audience
MIT License
25 stars 2 forks source link

Create full open data dump #231

Open EsaMakinen opened 4 years ago

EsaMakinen commented 4 years ago

We should release the full open dataset and adhere to tietosuoja requirements, the main issues being:

Yksittäisen vastaajan kaikki vastaukset oireista, sisältäen oireiden keston päivinä Laitteella luotu satunnainen tunniste UUID salakirjoitettuna kuten Oiretutkan tietokannassa. Tämän avulla datasta voi tunnistaa ne vastaajat, jotka ovat vastanneet useana peräkkäisenä päivää. Tunnisteen avulla mikään taho ei voi päätellä vastaajan henkilöllisyyttä. Vastauksen päivämäärä ja kellonaika tunnin tarkkuudella Ikä kahtena luokkana (alle 50v, yli 50v) Sukupuoli kahtena luokkana (mies, nainen. Muu yhdistetään mies-luokkaan) Postinumeroalue. Jos postinumeroalueella asuu alle 500 henkeä, yhdistetään se kunnan väkiluvultaan suurimpaan postinumeroon. Datasta poistetaan seuraavat vastausrivit: ulkomailta tulleet vastaukset; ne vastaukset jossa on virheellinen postinumero

EsaMakinen commented 4 years ago

This spec is current.