pcm-dpc / COVID-19

COVID-19 Italia - Monitoraggio situazione
Other
3.87k stars 2.25k forks source link

Forte dubbo su interpretazione dati (probabile errore) #192

Closed vbertogalli closed 4 years ago

vbertogalli commented 4 years ago

Tipo di richiesta: richiesta di informazione

Riassunto

Mi riferisco al file doc-covid19-ita-andamento-nazionale.csv e nonostante la documentazione (Readme) ho forti dubbi sulla corretta interpretazione dei dati: fatemi sapere se potete occuparvene voi o se si debba invece indirizzare quanto sotto direttamente alla protezione civile.

La colonna totale_casi risulta uguale alla somma di totale_attualmente_positivi + dimessi_guariti + deceduti, il che suggerisce che il primo di questi addendi si riferisca ai soli casi aperti (persone ancora ammalate).

In tal caso però quando un caso si chiude (comunque ciò avvenga: per guarigione o per decesso) la colonna totale_attualmente_positivi deve decrescere, in quanto in passato tale caso è quasi certamente transitato tra quelli aperti (ospedalizzati o in isolamento domiciliare): quindi suppongo che la colonna nuovi_attualmente_positivi (che è l'incremento esatto di totale_attualmente_positivi) rappresenti in realtà il saldo netto tra i nuovi contagi scoperti nel giorno e il numero di casi che vengono chiusi nel medesimo giorno.

Quindi:

Quest'ultimo dato, importante per monitorare la progressione del contagio, sarebbe invece desumibile dal delta giornaliero della colonna totale_casi (che del resto è quanto viene già oggi comunicato dall'Italia a livello Europeo: https://data.europa.eu/euodp/it/data/dataset/covid-19-coronavirus-data)

Un'osservazione aggiuntiva, che va oltre l'attuale template: è un peccato che per ogni nuovo contagio identificato non si tenti di riclassificarne la data sulla base della data di comparsa dei primi sintomi (idealmente si vorrebbe quella di contagio, ma ovviamente è spesso molto difficile se non impossibile), sempre per riuscire a tracciare meglio la rapidità di progressione dell'epidemia: con il metodo attuale il trend di progressione rischia di essere influenzato anche da altri fattori (quali la disponibilità quotidiana di tamponi o cambiamenti nella strategia di test), in casi estremi si rischia perfino di usare la data del decesso

Interesse pubblico

Presentare in questo dataset il numero di nuovi contagi in modo corretto (o senza rischio di malintesi) aiuterebbe i mezzi di informazione e forse anche le autorità a tracciare la progressione dell'epidemia in modo migliore e a valutare meglio l'efficacia delle misure di contenimento adottate

umbros commented 4 years ago

Ciao @vbertogalli:

totale_casi è la somma tra totale_attualmente_positivi + dimessi_guariti + deceduti, in sostanza è il totale di tutti i casi risultati positivi

totale_attualmente_positivi è la somma tra totale_ospedalizzati + isolamento_domiciliare, ed è il numero delle persone che sono attualmente positive (in diversi stati - ricoverati con sintomi, terapia intensiva e isolamento domiciliare)

nuovi_attualmente_positivi è la differenza tra i totale_attualmente_positivi del giorno corrente con i totale_attualmente_positivi del giorno precedente.

I casi "chiusi" sono rappresentati tra i dimessi_guariti e deceduti.

I tamponi non sono rappresentativi del "singolo caso" prechè un soggetto potrebbe fare n tamponi.

I dati che, attualmente, gestiamo hanno una valenza informativa e non di analisi scientifica per cui non basterebbero i dati da te richiesti ma molto altri. Eventuali aggiunte le comunicheremo per tempo.

vbertogalli commented 4 years ago

Ciao @vbertogalli:

totale_casi è la somma tra totale_attualmente_positivi + dimessi_guariti + deceduti, in sostanza è il totale di tutti i casi risultati positivi

totale_attualmente_positivi è la somma tra totale_ospedalizzati + isolamento_domiciliare, ed è il numero delle persone che sono attualmente positive (in diversi stati - ricoverati con sintomi, terapia intensiva e isolamento domiciliare)

nuovi_attualmente_positivi è la differenza tra i totale_attualmente_positivi del giorno corrente con i totale_attualmente_positivi del giorno precedente.

I casi "chiusi" sono rappresentati tra i dimessi_guariti e deceduti.

I tamponi non sono rappresentativi del "singolo caso" prechè un soggetto potrebbe fare n tamponi.

I dati che, attualmente, gestiamo hanno una valenza informativa e non di analisi scientifica per cui non basterebbero i dati da te richiesti ma molto altri. Eventuali aggiunte le comunicheremo per tempo.

Grazie,

ma ora che la mia ipotesi è confermata, perché non creare una colonna "nuovi casi" come differenza di totale_casi(n) - totale_casi(n-1) al posto dell'attuale colonna "nuovi casi attualmente positivi" dove l'aggettivo nuovo è fuorviante (poiché con l'attuale definizione rappresenta i "nuovi" casi scoperti meno i casi chiusi nel giorno) ?

Tale nuova ipotetica colonna è esattamente quanto già comunicato al link Europeo Opendata che citavo.

Mi rendo conto invece che i miglioramenti che proponevo alla fine sono ben più complessi

grazie

piersoft commented 4 years ago

@umbros quindi per calcolare la % dei decessi sul totale casi bisognerebbe togliere gli isolati domiciliari

= deceduti / ( totale_casi - isolamento_domiciliare )

e non

= deceduti / totale_casi o no?

piersoft commented 4 years ago

@umbros che ci dici?

piersoft commented 4 years ago

Leggendo mi pare di capire che gli isolamento_domiciliare rientrino però tra i positivi, quindi perché eliminarli dal computo quando si calcola la mortalità?