valstu / korona-info

Suomen koronavirus-tartuntatilanne
MIT License
67 stars 19 forks source link

Ennustuksen data ei ole kumulatiivista #9

Closed miikkajs closed 4 years ago

miikkajs commented 4 years ago

Ennustusmallin data ei ole kumulatiivista, vaikka siinä on käytetty tuota kumulatiivista dataa. Ne pitäisi laskea yhteen tai sitten muuttaa kuvaus.

valstu commented 4 years ago

Pystytkö tekee PR:n oon just hyppäämässä auton rattiin?

miikkajs commented 4 years ago

Äh, en ole kyllä ihan 100% varma.. Dataa on varmaan vaan liian vähän. Ehkä joku fiksumpi osaa sanoa 😄

valstu commented 4 years ago

Tehään niin et kommentoin ton ennusteen toistaseks pois ja tutkitaan vähän lisää. Mietin täs myös et mikä on oikea määrä dataa tohon ennusteen tekoon. Pitää selailla vähän Kagglesta referenssejä.

miikkajs commented 4 years ago

Kuitenkin puolet tuosta datasta on 1 sairastunutta. Ehkä jättäisin sen vielä noin.. Jos tota dataa pilkkoo, että laskee ainoastaan 10 edellistä päivää, niin osuu lähemmäksi totuutta.

valstu commented 4 years ago

Joo, samaa just mietin, jos ennusteen tekee esim. kahden viimisen viikon perustella ni ollaan aika lähellä nykytilanteesa.

miikkajs commented 4 years ago

Käytiin keskustelua tästä Talentedin Slackissa. Sieltä tuli tälläistä kommenttia:

Suvi 1 hour ago @miikka sen verran ehdin vilkaista, että pelkällä Suomen datalla ei vielä saa kunnollista ennustetta, sitä on liian vähän. Kehittäisin mallin jonkin muun maan datalla ja ennustaisin sillä mallilla Suomen tilannetta. Mallia saa lisäksi verifioitua siltä pätkällä, joka meillä on jo. Ite kokeilisin varmaan ensimmäisenä exponential smoothing -mallia, ks vaikka https://machinelearningmastery.com/exponential-smoothing-for-time-series-forecasting-in-python/ JavaScriptille taitaa olla vähän huonosti kirjastoja, esimerkki on Pythonilla. Yksinkertaisimman varmaan sais ihan vaan estimoimalla muiden maiden datalla jonkun eksponentiaalikäyrän ja sovittamalla se Suomen vastaavalle käyrälle. Tässä kannattanee mallintaa yhden henkilön sairastumistodennäköisyyttä, eli skaalata väkiluvulla.

Dataa löytyy mm. täältä https://github.com/CSSEGISandData/COVID-19

miikkajs commented 4 years ago

https://scipython.com/book/chapter-8-scipy/additional-examples/the-sir-epidemic-model/

valstu commented 4 years ago

Sellanen tuli mieleen et kun toi pyörii tuolla Now:ssa niin saadaan tohon myös helposti lisättyä python api endpointti. Testailin kanssa viikonloppuna pikasta ennustusmallia pythonilla https://colab.research.google.com/drive/1cnGUA4DZCDxrAp-IvO80VXC1oAE2pPsG

Tosta tais vastaavasta sais nopeen endpointin tarvittessa tehtyä.

valstu commented 4 years ago

https://scipython.com/book/chapter-8-scipy/additional-examples/the-sir-epidemic-model/

Tutustun myös tähän jossain vaiheessa tänään.

miikkajs commented 4 years ago

Tää kyl tulee menemään vaikeaksi, kun testaus kaikilta lopetettiin. Luvut tulee tippumaan, eikä aikaisemmista luvuista voida päätellä enää uusia.

valstu commented 4 years ago

Jep, sääli koska tää ois ollut hyvä varsin mielenkiintoinen feature.

miikkajs commented 4 years ago

Tän voi varmaan sulkea?

valstu commented 4 years ago

Palataan tähän kun dataa on enemmän 👍