robonomist / robonomistClient

https://robonomist.github.io/robonomistClient/
1 stars 0 forks source link

Tilastokeskuksen datojen päivitys #7

Closed jhuovari closed 2 years ago

jhuovari commented 2 years ago

Miten nopeasti Tilastokeskuksen päivitykset pitäisi tulla tietokantaan? Kaipailen teollisuustuotantoa Atribuuteissa "next-update")= POSIXct[1:1], format: "2022-01-10 10:00:00", mutta nehän päivittyvät 08:00. @itkonen

itkonen commented 2 years ago

Tuoreimpien datojen pitäisi tulla robonomistClientiin saataville suunnilleen välittömästi, kun ne tulevat näkyviin datalähteellä. Tilastokeskuksen datat tulevat käytännössä noin 1-2 minuuttia yli klo 8 näkyviin sisältölistaukseen, jolloin data server päivittää välimuistinsa.

Jos jostain syystä välimuisti ei mitätöidy oikein, sen voi ohittaa kokonaan pienellä kikalla: data("StatFin/teo/ttvi/statfin_ttvi_pxt_111i.px", hash = Sys.time()) Välimuistin tunnisteet riippuvat data-funktion argumenteista, joten välimuistihaku lyö aina hutia, kun argumentiksi antaa kellonajan.

Metadatojen kellonaikojen virhe korjataa nseuraavassa data serverin versiossa. Vikana oli se, ettei px-formaatti määritä aikavyöhykettä ja Tilastokeskus käyttää datassaan ei-UTC tietoa. Jatkossa oletamme datalähteen aikavyöhykkeen niin, että kellonajat näkyvät oikein kaikilla alustoilla.

jhuovari commented 2 years ago

Hain aamulla tietoja ptt_data_robo("StatFin/tym/tyti/kk/statfin_tyti_pxt_135z.px", hash = Sys.time()). Nyt kun teen saman haun ilman hash:a niin se antaa sen vanhan tiedon ilman joulukuun päivitystä. Jos haen saman taulun muulla tavalla (ptt_data_robo_l, data_get) tulee päivitetty data.

itkonen commented 2 years ago

Tässä näyttää käyneen niin, että Tilastokeskuksen sisällysluettelo on päivittynyt viipeellä ja palvelimen välimuisti luottaa siihen. Ennen kuin sisällysluettelo on päivittynyt itse data saattaa olla kuitenkin saatavilla, ja siihen pääsee käsiksi tuolla hash-kikalla. Muokkasin palvelinta niin, että se virkistää välimuistia tiuhemmin eli varmistaa herkemmin Tilastokeskuksen rajapinnasta, että tiedot ovat tuoreita. Kokeillaan, jos se riittäisi. Jos ei, niin kiristetään tahtia vielä lisää.