ondata / covid19italia

Creative Commons Attribution 4.0 International
206 stars 55 forks source link

Estrazione dati ISS #53

Closed Spazio2001 closed 4 years ago

Spazio2001 commented 4 years ago

Da oggi l'ISS pubblica i dati su inizio sintomi e data di prelievo tampone attraverso una dashboard e non più come PDF. Sarebbe possibile estrarli a ogni aggiornamento? Possono essere dati molto utili, in particolare se si vuole provare a calcolare R0/rt.

https://www.epicentro.iss.it/coronavirus/sars-cov-2-dashboard

aborruso commented 4 years ago

@Spazio2001 ottima segnalazione.

Ci guardiamo, grazie

aborruso commented 4 years ago

Ciao @Spazio2001 , si estraggono abbastanza facilmente. Sotto un esempio.

Ci lavorerò

data valore tipo
2020-05-20 41 casi
2020-05-21 30 casi
2020-05-22 42 casi
2020-05-23 14 casi
2020-05-24 28 casi
2020-05-25 76 casi
2020-05-26 199 casi
2020-05-27 231 casi
2020-05-28 175 casi
2020-05-29 175 casi
2020-05-30 142 casi
2020-05-31 46 casi
2020-06-01 193 casi
2020-06-02 41 casi
2020-06-03 153 casi
2020-06-04 147 casi
2020-06-05 191 casi
2020-06-06 101 casi
2020-06-07 64 casi
2020-06-08 174 casi
2020-06-09 172 casi
2020-06-10 143 casi
2020-06-11 196 casi
2020-06-12 168 casi
2020-06-13 77 casi
2020-06-14 71 casi
2020-06-15 146 casi
2020-06-16 104 casi
2020-06-17 96 casi
2020-06-18 76 casi
2020-06-19 88 casi
2020-06-20 29 casi
2020-06-21 12 casi
2020-06-22 6 casi

Aggiungo una nota per me

curl "https://www.epicentro.iss.it/coronavirus/dashboard/Dashboard_finale_30gg.html" | \
scrape -be '//div[@id="htmlwidget-69720a11b118d04d7300"]/following::script[1]' | \
xq -r '.html.body.script."#text"' | jq -r '.x.data[0].text[]' | \
mlr --n2m label data,valore,tipo
aborruso commented 4 years ago

@Spazio2001 i primi output https://github.com/ondata/covid19italia/tree/master/webservices/iss_epicentro/processing

Il readme è ancora da fare

opencovid-mr commented 4 years ago

New direct URL: https://www.epicentro.iss.it/coronavirus/dashboard/30gg.html https://www.epicentro.iss.it/coronavirus/dashboard/inizio.html

Spazio2001 commented 4 years ago

Ottimo lavoro (come sempre). Ma non si riesce a estrarre anche la curva dall'inizio (quella che parte da gennaio/febbraio)?

aborruso commented 4 years ago

Ottimo lavoro (come sempre). Ma non si riesce a estrarre anche la curva dall'inizio (quella che parte da gennaio/febbraio)?

Ecco una prima versione https://github.com/ondata/covid19italia/blob/master/webservices/iss_epicentro/processing/2020-06-26_curvaEpidemicaInizio.csv

Non ho fatto alcun test e/o verifica

pfnali commented 4 years ago

Sembra ci sia un problema con l'orario di schedulazione del job. I dati cumulativi del 27 giugno sono quelli del 26. Presumo che il job abbia girato nel pomeriggio (intorno alle 16?), ma ISS ha aggiornato i dati cumulativi del 27 nella tarda serata. E' possibile schedulare il job verso la mezzanotte in modo da tener conto degli eventuali ritardi dell'aggiornamento ISS? Comunque complimenti per l'ottimo lavoro, ho fatto qualche verifica sulle curve dall'inizio pubblicate il 25 e 26 e mi sembra tutto Ok. Se può servire, allego anche i dati della curva pubblicata il 24 che ho estratto manuamente. 2020-06-24_curvaEpidemicaInizio.zip

aborruso commented 4 years ago

Ciao @pfnali è un piacere vedere che segui i lavori in corso.

Abbiamo spostato il job a fine giornata.

Grazie per i dati, appena posso, vedo di metterli qui

pfnali commented 4 years ago

Le estrazioni del 16 luglio sono vuote.

aborruso commented 4 years ago

Ciao @pfnali e grazie.

Segui con attenzione questi dati: ci stai facendo qualcosa di interessante? Se sì, è sempre un piacere saperlo.

Grazie

pfnali commented 4 years ago

Per ora sto solo raccogliendo la serie storica. Il mio progetto si trova qui: https://github.com/pfnali/Covid-19. Non so se alla fine ne verrà fuori qualcosa, in ogni caso con i vostri dati state facendo un ottimo e utile servizio.

aborruso commented 4 years ago

Per ora sto solo raccogliendo la serie storica. Il mio progetto si trova qui: https://github.com/pfnali/Covid-19. Non so se alla fine ne verrà fuori qualcosa, in ogni caso con i vostri dati state facendo un ottimo e utile servizio.

@pfnali visto il README, interessante! Se leggo bene però non stai usando i dati di questo repo. Ho capito male?

Grazie

pfnali commented 4 years ago

Si è così, non li sto ancora utilizzano. Quando il progetto è partito i dati ISS non erano disponibili, poi intorno ad aprile/maggio ho cercato di estrarli manualmente dai pdf ma il margine di errore era troppo ampio. Ora spero con i dati più affidabili di questo repo di rivedere il modello con distribuzioni di probabilità più realistiche, che permettano di risalire all’indietro dalla curva epidemica a quella dei contagi. Una difficoltà è che anche questi dati – benché corrispondano fedelmente ai grafici - sono afflitti alla fonte da incertezze e ritardi, e inoltre l’ISS non li rende disponibili per la curva epidemica combinata (per data sintomi “o” data diagnosi laddove la prima non è nota), che meglio rappresenta l’andamento dell’epidemia. Vedremo gli sviluppi futuri, intanto qualcosa si potrà fare con i dati comunque utilissimi di questo repo.

Grazie

PF

Da: Andrea Borruso notifications@github.com Inviato: lunedì 20 luglio 2020 19:42 A: ondata/covid19italia covid19italia@noreply.github.com Cc: pfnali pfnali@alice.it; Mention mention@noreply.github.com Oggetto: Re: [ondata/covid19italia] Estrazione dati ISS (#53)

Per ora sto solo raccogliendo la serie storica. Il mio progetto si trova qui: https://github.com/pfnali/Covid-19. Non so se alla fine ne verrà fuori qualcosa, in ogni caso con i vostri dati state facendo un ottimo e utile servizio.

@pfnali https://github.com/pfnali visto il README, interessante! Se leggo bene però non stai usando i dati di questo repo. Ho capito male?

Grazie

— You are receiving this because you were mentioned. Reply to this email directly, view it on GitHub https://github.com/ondata/covid19italia/issues/53#issuecomment-661231600 , or unsubscribe https://github.com/notifications/unsubscribe-auth/AO4PFPYRXSLFL4JO3E7L3G3R4R6VDANCNFSM4OIB32YQ .