pcm-dpc / COVID-19

COVID-19 Italia - Monitoraggio situazione
Other
3.87k stars 2.25k forks source link

Errore Variazione tamponi-positivi per dpc-covid19-ita-regioni.csv #466

Closed leotuni closed 4 years ago

leotuni commented 4 years ago

Tipo di issue:

Riassunto

Ci sono tanti casi dove:

Nella tabella sotto metto la lista completa dei casi. La tabella comprende 4 colonne riprese dal file: la data, denominazione_regione , totale_positivi, tamponi 3 nuove colonne:

Ho aggiunto anche la row del giorno precedente per poter confermare i numeri. Le row dove nuovi_positivi_oggi<= nuovi_tamponi_oggi = False sono quelle con i dati sbagliati.

eg: nella seconda row, per l'abruzzo, i nuovi_positivi_oggi sono=6-5 della prima row=1, mentre nuovi_tamponi_oggi sono= 52-52=0 Index data denominazione_regione totale_positivi tamponi nuovi_positivi_oggi nuovi_tamponi_oggi nuovi_positivi_oggi<= nuovi_tamponi_oggi
147 2020-03-02T18:00:00 Abruzzo 5 52 0 0 True
168 2020-03-03T18:00:00 Abruzzo 6 52 1 0 False
210 2020-03-05T17:00:00 Abruzzo 8 96 1 11 True
231 2020-03-06T17:00:00 Abruzzo 9 96 1 0 False
358 2020-03-12T17:00:00 Basilicata 8 155 0 0 True
379 2020-03-13T17:00:00 Basilicata 10 155 2 0 False
463 2020-03-17T17:00:00 Basilicata 20 262 8 32 True
484 2020-03-18T17:00:00 Basilicata 27 262 7 0 False
255 2020-03-07T18:00:00 Calabria 4 113 0 14 True
276 2020-03-08T18:00:00 Calabria 9 113 5 0 False
46 2020-02-26T18:00:00 Campania 0 10 0 0 True
67 2020-02-27T18:00:00 Campania 3 10 3 0 False
109 2020-02-29T17:00:00 Campania 13 373 9 160 True
130 2020-03-01T17:00:00 Campania 17 373 4 0 False
214 2020-03-05T17:00:00 Campania 45 471 14 42 True
235 2020-03-06T17:00:00 Campania 57 471 12 0 False
277 2020-03-08T18:00:00 Campania 100 980 39 368 True
298 2020-03-09T18:00:00 Campania 119 980 19 0 False
152 2020-03-02T18:00:00 Emilia-Romagna 324 1973 47 178 True
173 2020-03-03T18:00:00 Emilia-Romagna 398 2012 74 39 False
698 2020-03-28T17:00:00 Emilia-Romagna 9964 52991 603 5193 True
719 2020-03-29T17:00:00 Emilia-Romagna 10535 52991 571 0 False
740 2020-03-30T17:00:00 Emilia-Romagna 10766 50990 231 -2001 False
237 2020-03-06T17:00:00 Friuli Venezia Giulia 28 577 7 180 True
258 2020-03-07T18:00:00 Friuli Venezia Giulia 39 577 11 0 False
405 2020-03-14T17:00:00 Friuli Venezia Giulia 271 3376 35 227 True
426 2020-03-15T17:00:00 Friuli Venezia Giulia 316 3407 45 31 False
468 2020-03-17T17:00:00 Friuli Venezia Giulia 347 4958 1 107 True
489 2020-03-18T17:00:00 Friuli Venezia Giulia 416 4958 69 0 False
510 2020-03-19T17:00:00 Friuli Venezia Giulia 522 4052 106 -906 False
280 2020-03-08T18:00:00 Lazio 81 1929 9 347 True
301 2020-03-09T18:00:00 Lazio 94 1929 13 0 False
322 2020-03-10T18:00:00 Lazio 99 3591 5 1662 True
343 2020-03-11T17:00:00 Lazio 125 3591 26 0 False
490 2020-03-18T17:00:00 Lazio 650 11145 100 1709 True
511 2020-03-19T17:00:00 Lazio 741 11145 91 0 False
532 2020-03-20T17:00:00 Lazio 912 13889 171 2744 True
553 2020-03-21T17:00:00 Lazio 1086 13889 174 0 False
595 2020-03-23T17:00:00 Lazio 1414 18371 142 526 True
616 2020-03-24T17:00:00 Lazio 1545 18371 131 0 False
92 2020-02-28T18:00:00 Liguria 19 112 0 34 True
113 2020-02-29T17:00:00 Liguria 38 121 19 9 False
155 2020-03-02T18:00:00 Liguria 18 121 -3 0 True
176 2020-03-03T18:00:00 Liguria 19 121 1 0 False
30 2020-02-25T18:00:00 Lombardia 231 3700 65 2237 True
51 2020-02-26T18:00:00 Lombardia 249 3208 18 -492 False
198 2020-03-04T17:00:00 Lombardia 1497 12138 171 2561 True
219 2020-03-05T17:00:00 Lombardia 1777 12354 280 216 False
73 2020-02-27T18:00:00 Marche 3 46 2 18 True
94 2020-02-28T18:00:00 Marche 6 47 3 1 False
451 2020-03-16T17:00:00 Marche 1185 3225 98 279 True
472 2020-03-17T17:00:00 Marche 1302 3225 117 0 False
158 2020-03-02T18:00:00 Molise 0 13 0 7 True
179 2020-03-03T18:00:00 Molise 3 13 3 0 False
515 2020-03-19T17:00:00 Molise 38 426 17 65 True
536 2020-03-20T17:00:00 Molise 39 426 1 0 False
2 2020-02-24T18:00:00 P.A. Bolzano 0 1 0 1 True
23 2020-02-25T18:00:00 P.A. Bolzano 1 1 1 0 False
233 2020-03-06T17:00:00 P.A. Bolzano 4 36 3 16 True
254 2020-03-07T18:00:00 P.A. Bolzano 9 36 5 0 False
296 2020-03-09T18:00:00 P.A. Bolzano 9 36 0 0 True
317 2020-03-10T18:00:00 P.A. Bolzano 38 36 29 0 False
164 2020-03-02T18:00:00 P.A. Trento 0 122 0 0 True
185 2020-03-03T18:00:00 P.A. Trento 4 122 4 0 False
206 2020-03-04T17:00:00 P.A. Trento 5 122 1 0 False
227 2020-03-05T17:00:00 P.A. Trento 7 122 2 0 False
248 2020-03-06T17:00:00 P.A. Trento 10 122 3 0 False
416 2020-03-14T17:00:00 P.A. Trento 199 1006 42 160 True
437 2020-03-15T17:00:00 P.A. Trento 367 1006 168 0 False
500 2020-03-18T17:00:00 P.A. Trento 436 2187 68 460 True
521 2020-03-19T17:00:00 P.A. Trento 491 2203 55 16 False
542 2020-03-20T17:00:00 P.A. Trento 600 2656 109 453 True
563 2020-03-21T17:00:00 P.A. Trento 720 2656 120 0 False
201 2020-03-04T17:00:00 Piemonte 82 543 26 85 True
222 2020-03-05T17:00:00 Piemonte 106 543 24 0 False
369 2020-03-12T17:00:00 Piemonte 554 2879 74 448 True
390 2020-03-13T17:00:00 Piemonte 794 3105 240 226 False
55 2020-02-26T18:00:00 Puglia 0 0 0 0 True
76 2020-02-27T18:00:00 Puglia 1 0 1 0 False
244 2020-03-06T17:00:00 Puglia 15 395 3 36 True
265 2020-03-07T18:00:00 Puglia 23 395 8 0 False
161 2020-03-02T18:00:00 Sardegna 0 29 0 0 True
182 2020-03-03T18:00:00 Sardegna 1 29 1 0 False
15 2020-02-24T18:00:00 Sicilia 0 5 0 5 True
36 2020-02-25T18:00:00 Sicilia 3 5 3 0 False
225 2020-03-05T17:00:00 Sicilia 16 367 0 0 True
246 2020-03-06T17:00:00 Sicilia 22 367 6 0 False
205 2020-03-04T17:00:00 Toscana 37 776 19 79 True
226 2020-03-05T17:00:00 Toscana 60 776 23 0 False
418 2020-03-14T17:00:00 Valle d'Aosta 41 231 14 42 True
439 2020-03-15T17:00:00 Valle d'Aosta 56 230 15 -1 False
293 2020-03-08T18:00:00 Veneto 623 15918 118 1489 True
314 2020-03-09T18:00:00 Veneto 694 15956 71 38 False

Attesa:

Attuale:

PaoloGriffo commented 4 years ago

Ciao Leotuni, condivido il tuo ragionamento e suggerisco: siamo sicuri che i nuovi positivi debbano essere dichiarati solo attraverso la positività ad un tampone ?

Ad esempio con le TC polmonari si arriva a risultati in tempi più brevi.

Qui si parla di TC polmonari e ML/AI: https://www.policlinicocampusbiomedico.it/news/polmonite-da-coronavirus-ricerca-con-tc-polmonare

Grazie, ciao.

leotuni commented 4 years ago

CIao Paolo, Se guardi nella colonna nuovi_tamponi_oggi, puoi notare che il numero di tamponi è particolarmente basso, 0, o negativo quando i tamponi sono inferiori ai positivi. Quindi penso sia più probabile che i dati dei tamponi non siano aggiornati correttamente no? Di sicuro quando sono negativi come in questo caso:

Index data denominazione_regione totale_positivi tamponi nuovi_positivi_oggi nuovi_tamponi_oggi nuovi_positivi_oggi<= nuovi_tamponi_oggi
30 2020-02-25T18:00:00 Lombardia 231 3700 65 2237 True
51 2020-02-26T18:00:00 Lombardia 249 3208 18 -492 False
PaoloGriffo commented 4 years ago

Ciao Leotuni,

la mia riflessione non era certamente risolutiva del problema, anzi complementare, forse. Resto del tuo stesso avviso e condivido come dall'inizio i tuoi dubbi in merito.

Qui si possono confrontare le diverse qualità di dati che le regioni caricano sui loro siti: https://www.infodata.ilsole24ore.com/2020/03/29/dati-coronavirus-regione-va-conto-suo-aiutateci-mappare-condivide-cosa-aggiornato/?utm_term=Autofeed&utm_medium=LISole24Ore&utm_source=LinkedIn#Echobox=1585517024

Grazie, ciao.

leotuni commented 4 years ago

Grazie per il link, certo che le regioni non caricano un file in csv è pazzesco. Non so se tu stai lavorando su questo repo, ma se è un problema con i dati delle regioni, e non di averli copiati male, è abbasta difficile corregerli

ciao, leo

MarcoGermani commented 4 years ago

Credo siano nel caos più totale e chi pubblica non ha responsabilità è chi ha organizzato e conduce la raccolta che è un incapace. Tale al presidente dell'INPS

ambr89 commented 4 years ago

Concordo nel dire che probabilmente ( quasi certamente sono nel caos più totale) e probabilmente ci sono parecchi errori.

L'errore in Emilia Romagna che il totale dei campioni il 30/03 non può essere minore del totale del 29/03 e guarda a caso quel -2001 è proprio l'ammanco per arrivare a numero del giorno prima.

2020-03-29T17:00:00 | Emilia-Romagna | 10535 | 52991 | 571 | 0 | False 2020-03-30T17:00:00 | Emilia-Romagna | 10766 | 50990 | 231 | -2001 | False

Insomma, problemi ne abbiamo. Ce ne faremo una ragione.

leotuni commented 4 years ago

@ambr89 la colonna "nuovi_tamponi_oggi"= -2001 l'ho creata io facendo 50990-52991 =-2001, per illustrare il problema. Non è nel dataset originale.

gpinnaan commented 4 years ago

Tra l'altro il numero di tamponi dovrebbe essere il numero di tamponi totali e non il numero di persone che hanno fatto il tampone. Quando ad esempio una persona viene dichiarata guarita é perché ha fatto 2 tamponi con esito negativo. Tale persona poi ha fatto anche il tampone nel passato con il quale é stata dichiarata positiva.

ambr89 commented 4 years ago

@gpinnaan corretto!

MarcoGermani commented 4 years ago

Spero possa essere utile: http://www.rightfood.it/corona/Regioni.htm http://www.rightfood.it/corona/RegioniTutte.htm http://www.rightfood.it/corona/Mondo.htm

umbros commented 4 years ago

Ciao, si conferma che il numero dei tamponi è il totale dei tamponi effettuati, possono esserci degli errori di comunicazione dei dati pertanto potrebbero verificarsi dei ricalcoli. grazie a tutti per la collaborazione.

leotuni commented 4 years ago

@MarcoGermani Molto bello. Se ho capito bene hai fatto un grafico incremento percentuale decessi dai punti totale decessi oggi/ totale decessi ieri. Il tuo grafico con il fit lineare che va sotto 1 non ha senso visto che totatale decessi oggi >= totale decessi ieri,

ciao, leo

leotuni commented 4 years ago

@umbros Ok, era giusto per informarvi, grazie per il repo Buon lavoro, leo

MarcoGermani commented 4 years ago

@leotuni Ti ringrazio del complimento, ma non capisco il tuo commento. Speravo fosse chiaro che la mia è un'interpolante della serie storica dei tassi percentuali di variazione giornaliera dei decessi, basata sui dati pubblicati e calcolata con il metodo dei minimi quadrati. Se non è chiaro puoi consultare: R.J. Wonnacott. TH.H.Wonnacot - Trattato di econometrica - Isedi)

e Scusa ma non capisco la retta di regressione è una media condizionata

leotuni commented 4 years ago

@MarcoGermani Premesso che posso aver malinteso i grafici. Hai fatto quattro fit lineari:

Moltiplicando il valore di oggi di incremento% ricoverati * totale ricoverati oggi = totale ricoverati domani

Un incremento % inferiore a 1 significa che il numero totale sta diminuendo. Mentre per attualmente positivi, ricoverati, e terapia intensiva, questo ha senso, visto che il totale di ricoverati può diminuire fino a 0 ricoverati. Per Decessi no, visto che i decessi totali non possono diminuire.

Infatti il fit lineare suggerisce che il 6/4 non ci saranno altri morti, e dopo il 6/4 il numero totale di morti diminiusce.

Forse il modello migliore per fittare il grafico incremento% Decessi non è lineare.

leo

MarcoGermani commented 4 years ago

@leotuni io non sono un esperto come te ma continuo a non capirti. Non ha alcun senso moltiplicare l'incremento % ricoverati di oggi per il totale dei ricoverati di oggi perché non darà alcun valore logico. Se vuoi stimare il numero dei ricoverati di domani devi utilizzare l'equazione che ha generato la retta di regressione. Il resto continuo a non capirlo perché parliamo del DELTA dei decessi che si spera vada a ZERO quanto prima ... forse non sono alla tua altezza o non riusciamo a capirci.

leotuni commented 4 years ago

@MarcoGermani Cerco di spiegarmi meglio, che di esperto ho poco..

Faccio un esempio con i tuoi dati: Per i ricoverati Data Tot Ricove inncr. % Ricov
08/03/20 3.557 1,34
09/03/20 4.316 1,21
10/03/20 5.038 1,17
  1. 1.21 * 3.557 = 4.316 non precisamente perchè il 1.21 è arrotondato
  2. 1.17 * 4.316 =5.038

Quindi : inncr. % Ricov * Tot Ricove (ieri) = Tot Ricove (oggi) Nel tuo grafico inncr. % Ricov vs Data, il fit lineare va sotto il valore 1 Se: inncr. % Ricov<1 allora Tot Ricove (oggi) < Tot Ricove (ieri) E per i ricoverati ha senso, visto che le persone recuperano, il numero totale può scendere

Per i morti: Data Totale deceduti Incr % Deces
08/03/20 463 1,27
09/03/20 631 1,36
10/03/20 827 1,31
  1. 1.36 * 463 = 631 non precisamente perchè il 1.36 è arrotondato
  2. 1.31 * 631 = 827

Quindi : Incr % Decessi * Totale deceduti(ieri) = Totale deceduti (oggi) Nel tuo grafico Incr % Decessi vs Data tra un paio di giorni il fit lineare di Incr % Decessi scende sotto l'uno. Se: inncr. Incr % Decessi<1 allora Totale deceduti (oggi) < Totale deceduti(ieri)

per esempio, Oggi i Decessi totali sono 13.915 se prendiamo come valore stimato dal frafico quello del 25/5= 0.5

leo

MarcoGermani commented 4 years ago

@leotuni La sua osservazione è corretta ma la retta in oggetto è una retta di regressione che, come mi insegna, il cui coefficiente angolare (lo speriamo tutti), continuerà ad andare verso il valore ZERO, e la retta diventerà un asintoto orizzontale (non lo sarà mai perfettamente ) con ordinata 1. Non riuscivo a capire la sua obiezione perché era per me evidente che l'intersezione della retta con le ascisse non aveva alcun significato. Ho modificato comunque l'intervallo delle ordinate. Saluti