HS-Datadesk / koronavirus-avoindata

HS julkaisee Suomen koronavirustartunnat avoimena datana.
https://www.hs.fi/aihe/koronavirus/
MIT License
100 stars 27 forks source link

Erot vanhan ja uuden datan välillä #60

Closed tnnmk closed 4 years ago

tnnmk commented 4 years ago

Tulisiko uutta (suoraan THL:ltä koottua) dataa pitää kauttaaltaan historiallisesti luotettavampana kuin vanhaa?

Alla olevassa kuvassa tapausten kumulatiivinen kokonaismäärä päivämäärän funktiona sairaanhoitopiireittäin sekä vanhan (v1) että uuden (v2) data mukaan. Vanha data näyttäisi olevan paikon edellä (merkitty punaisella). Onko tiedossa, mistä erot tähän suuntaan johtuvat? hs_data_cmp

quarian commented 4 years ago

Sori, voitko selventää vielä - sanot, että v1 olisi vanha, mutta sitten sanot että vanha olis kuvissa punaisella mutta legendissä lukee että punainen olis v2. Kumpi näistä on oikein? @tnnmk

tnnmk commented 4 years ago

Kuvan värivalinnat eivät ilmeisesti olleet kovin onnistuneet. "Punaisella merkinnällä" viittasin osassa kuvista kuvan alaossa oleviin punaisiin suorakaiteisiin. Legendi on ihan oikein. Siis:

quarian commented 4 years ago

No niin, nyt ymmärsin.

Sitten vastauksiin - noiden uuden ja vanhan datasetin erot johtuvat pääosin siitä, että kun itse keräsimme dataa, niin syötimme ne tietokantaamme ilmoituspäivän perusteella (ilmoitukset tulivat milloin mitäkin kanavia pitkin, joskus ilmoitettiin suurempi määrä tapauksia kerralla ja niin pois päin). Eli vanhaa datasetiiä voi ajatella koronasta ilmoittamisen historiana - ja siinä se on tarkka kyllä.

Uudessa rajapinnassa, joka lukee suoraan THL:n dataa, tartunnat merkitään testintekopäivän mukaan. Testien valmistumisesta ja kirjaamisesta johtuvien latenssien takia testin tekemisen jälkeen menee 2-4 päivää siihen, että tieto on päätynyt THL:n kantaan, jolloin se ilmestyy uuteen datasettiin.

Kohdissa, jossa vanha datasetti on uutta edellä on oletettavasti käynyt niin, että jokin taho (esimerkiksi sairaanhoitopiiri) on uutisoinut havainnoistaan, mutta niiden kirjaaminen THL:n tietokantaan on tapahtunut vasta myöhemmin (THL antoi ohjeen kirjata havaintoja rekisteriin jossain vaiheessa epidemiaa, joten tästäkin on voinut tulla eroja). Voi toki olla muitakin syitä - ihmiset tekivät datan keruuta ennen THL:n tietokannan hyödyntämistä (niin meillä kuin THL:ssäkin), joten jossain vaiheessa on saattanut käydä myös esimerkiksi kahdenkertaista kirjaamista.

TL;DR: molemmat datasetit ovat mielestäni luotettavia, mutta ne on kerätty eri metodologialla joten eivät sinällään ole suoraan vertailukelpoisia. Erot johtuvat metodologioiden erosta ja mitä luultavimmin jossain vaiheessa sattuneista ihmisten virheistä tai valinnoista.

Selvensikö tämä tilannetta?

tnnmk commented 4 years ago

Kiitos, kyllä selvensi. Jotain tämänkaltaista kuvittelinkin. Harmillisesti näyttää siis siltä, että THL:n viiveet ovat joissain tapauksissa olleet suuremmatkin kuin mainitsemasi 2-4 päivää (Länsi-Pohjalla ainakin 6 päivää ja Lapissa ainakin 5 päivää).

quarian commented 4 years ago

Parhaansa siellä tekevät - suljen tämän issuen nyt, viikonloppuja kaikille.