pcm-dpc / COVID-19

COVID-19 Italia - Monitoraggio situazione
Other
3.86k stars 2.24k forks source link

Modifiche ai dataset Regioni e Andamento nazionale #980

Closed umbros closed 3 years ago

umbros commented 3 years ago

Ciao a tutti, da mercoledì 09/12 saranno aggiunti i dati di "ingressi in terapia intensiva" e "note sui test" e "note sui casi testati". Parallelamente i "casi da sospetto diagnostico" e "casi da screening" non saranno più valorizzati perchè non più tracciati per lo scopo di questo repository.

Dataset di esempio:

Dataset regioni: https://github.com/pcm-dpc/COVID-19/blob/master/esempi_dataset/dpc-covid19-ita-regioni-esempio.csv Dataset andamento nazionale: https://github.com/pcm-dpc/COVID-19/blob/master/esempi_dataset/dpc-covid19-ita-andamento-nazionale-esempio.csv

Essendo i dati accodati al dataset attuale, non sarà presente una cartella legacy.

Qualsiasi contributo al dataset è benvenuto entro le 12:00 di martedì 08/12/2020.

Grazie a tutti per la collaborazione

. - . - . - . - . - . - . - . - . - .

Hi, from Wednesday 09/12 the data of "admissions to intensive care" and "test notes" and "tested case notes" will be added. At the same time, the "suspected diagnostic cases" and "screening cases" will no longer be released because they are no longer traced for the purpose of this repository.

Sample datasets:

Regions dataset: https://github.com/pcm-dpc/COVID-19/blob/master/esempi_dataset/dpc-covid19-ita-regioni-esempio.csv National trend dataset: https://github.com/pcm-dpc/COVID-19/blob/master/esempi_dataset/dpc-covid19-ita-andamento-nazionale-esempio.csv

Since the data is appended to the current dataset, there will be no legacy folder.

Any contribution to the dataset is welcome by 12.00 on Tuesday 08/12/2020.

Thank you all for your cooperation

MadMark77 commented 3 years ago

caro Umbros,

dopo aver visionato l esempio del nuovo cvs proposto per il nuovo data set che conterrà il nuovo campo "ingressi terapie intensive" (di fatto una nuova colonna di dati),mi permetto di proporre alcune eventuali modifiche.

Così come inserito il nuovo campo, tra la colonna terapie intensive e la colonna totale ospedalizzati, rischia di creare un errore nell esecuzione della macro che molti utilizzano per l analisi dei dati epidemiologici.

osservo che si è deciso di non eliminare le colonne casi da sospetto diagnostico e da screening, optando per l inserimento nel campo del dato del valore 0.

quindi vorrei proporre che il campo "ingressi in terapia intensiva" venga aggiunto dopo il campo "note", o, eventualmente dopo il campo "casi testati"

Dal punto di vista del data set, personalmemte non ho inserito nella macro il campo della colonna note, quindi la posizione dopo il campo casi testati mi risulta ininfluente.

ma l inserimento del nuovo campo dopo terapie intensive mi costringerebbe a riprogrammare la macro, ovvero di fatto doverne fare una ex novo

spero che la mia osservazione sia tenuta in considerazione e sia spunto di miglioramento e di ulteriori suggerimenti.

Buon Lavoro

MM

magaspari commented 3 years ago

Grazie per questo invito a contribuire!

Suggerirei di aggiungere i seguenti dati, con relative motivazioni. Ho cercato di selezionare tra i tanti alcuni dati mancanti che ritengo importanti al fine di stimare l'impatto dell'epidemia sul territorio, oltre ai casi ufficiali. Ho cercato di individuare dati con definizioni chiare e quindi oggettivamente non difficili da raccogliere e trasmettere.

1) Tamponi antigenici: a) sono ampiamente utilizzati come test di laboratorio (vedi nota del ministero della salute del 23 ottobre 2020), b) diverse regioni li riportano/riportavano esplicitamente (Veneto, Toscana, Alto Adige). c) sono stati utilizzati per interessantissimi screening di massa (Vedi Alto Adige e forse a breve Sardegna).
Senza questi dati il rapporto Nuovi casi/Tamponi non risulta essere indicativo e comparabile per tutte le regioni.
Due sono le alternative: sommarli ai tamponi aggiornando lo storico oppure inserire nuova colonna "Tamponi antigenici". Consiglierei la seconda soluzione per diversi motivi: è più semplice, rimane compatibile con chi in passato li ha cumulati a quelli molecolari, costa meno in termini di aggiornamenti e controlli da fare, inoltre mantiene una distinzione importante tra gli strumenti che può essere eventualmente utilizzata soprattutto su grandi numeri. Questo dato credo proprio che non possa mancare, con questo non entro nel merito riguardo alla sua reale affidabilità, ho seguito un po' il dibattito ma su questo punto non sono in grado di esprimermi, la questione del mio intervento e' invece quale conoscenza e' opportuno modellare? Se il dato c'è si può modellare con il suo corretto valore di affidabilità, se il dato manca si introduce un errore con rilevante compromissione della qualità dei dati di tutto il sito.

2) I nuovi positivi dovrebbero essere distinti riportando i casi provenienti dall'estero. Distinguere i casi provenienti dall'estero e' molto importante perché non essendo questi nati da contagi avvenuti in Italia, non riflettono il livello di contagio del territorio, e possono essere eliminati da diversi indicatori, ad esempio percentuale di tamponi positivi. Inoltre, la definizione e' abbastanza semplice e chiara e quindi non dovrebbe risultare difficile raccoglierli e trasmetterli. Si tratta di un dato prezioso (soprattutto per quest'estate) ma potrà esserlo di nuovo per il periodo natalizio. La distinzione dei casi da screening con casi da sospetto diagnostico era sicuramente utile ma non facile da definire, controllare ed utilizzare, vedi anche le numerose discussioni in questo sito. Ho trovato io stesso molte difficoltà con questo dato, perché spesso i numero di casi risultano decrescenti, inoltre non e' certo che un caso da screening si debba sempre associare ad "asintomatico", dato che i sintomi potrebbero insorgere successivamente. Infine, anche in questo caso, se il dato non e' utilizzato in modo uniforme possono creare importanti discrepanze tra regioni nelle stime.

3) Nuova colonna per "isolamento domiciliare" di non positivi. Questo e' un dato molto importante direttamente associato all'efficacia del tracciamento e allo sforzo per tenere sotto controllo l'epidemia. Purtroppo allo stato attuale vengono inseriti in questa categoria solo le persone positive in isolamento domiciliare, ma non gli isolati a titolo precauzionale, si vede chiaro dai report di alcune regioni, come ad esempio il Veneto, che i dati delle persone attualmente in isolamento sono sempre più alti di quelli riportati qui.

Sono a disposizione per qualsiasi ulteriore chiarimento.

Paulsword commented 3 years ago

Concordo che sarebbe più agevole operativamente se la colonna ingressi_terapia_intensiva fosse aggiunta in fondo, oltre le note, e non interposta. Del resto, a chi importa che sia in mezzo? E' un campo nuovo, lasciamolo in fondo come sempre fatto per i nuovi dati che si sono aggiunti al dataset. Prego dare versione definitiva entro le 12 di oggi come indicato, così da avere il tempo per adattarci.

Kisswolf72 commented 3 years ago

Non è questione di essere o non essere daccordo. Una volta impostato, il dataset non andrebbe modificato a meno di casi eccezionali e anche in quei casi l'unica modifica accettabile è l'aggiunta di campi in posizione progressiva dopo l'ultimo. Inoltre le informazioni che si vogliono aggiungere sono di scarsa importanza rispetto per esempio al fatto di avere due campi distinti per i DIMESSI (non ancora guariti) e i GUARITI.

magaspari commented 3 years ago

Non è questione di essere o non essere daccordo. Una volta impostato, il dataset non andrebbe modificato a meno di casi eccezionali e anche in quei casi l'unica modifica accettabile è l'aggiunta di campi in posizione progressiva dopo l'ultimo. Inoltre le informazioni che si vogliono aggiungere sono di scarsa importanza rispetto per esempio al fatto di avere due campi distinti per i DIMESSI (non ancora guariti) e i GUARITI.

Non condivido questa affermazione, se il dataset non ha abbastanza informazioni queste vanno aggiunte, se ci sono errori di rappresentazione questi vanno corretti. Dataset errati e/o incompleti, si apprendono errori o al più lo stesso bias dei dati.

Dietro ad ogni campo e ad ogni modifica c'è un motivo. Si parte dall'obiettivo, ad esempio stimare l'impatto della pandemia sulla popolazione, e per questo si usa un dato come: la proporzione dei test positivi, ma se non si considerano tutti test fatti come facciamo? le stime risultano errate e anche di molto.... Nell'ipotesi che il campo dimessi_guariti contiene solo individui negativizzati come dovrebbe essere, non capisco quale sia l'obiettivo della distinzione che proponi? Potresti chiarire?

umbros commented 3 years ago

Ciao a tutti e grazie per i contributi, relativamente a nuovi dati questi, in base alle necessità del Ministero della Salute, ne saranno aggiunti altri.

I dataset sono stati, intanto, modificati seguendo i vostri suggerimenti.

Dataset regioni: https://github.com/pcm-dpc/COVID-19/blob/master/esempi_dataset/dpc-covid19-ita-regioni-esempio.csv Dataset andamento nazionale: https://github.com/pcm-dpc/COVID-19/blob/master/esempi_dataset/dpc-covid19-ita-andamento-nazionale-esempio.csv

Domani i dati saranno erogati secondo quanto riportato in questa issue.

Grazie a tutti per la collaborazione

MadMark77 commented 3 years ago

grazie Umbros

tornando ai dati dei casi da sospetto. diagnostico e da screening, vorrei invitarti ad interfacciarti cli ministero e con il dpc per tornare ad inserire almeno i dati delle regioni che continuano a comunicare e ad effettuare un tracciamento, come ad esemoio la puglia.

questo è importante al fine si dare alla popolazione una percezione differente del. dato dei casi giornalieri. 1000 casi da sospetto diagnostico hanjo un significato differente da mille casi da screening

umbros commented 3 years ago

Ciao @MadMark77 io sono del DPC, il Ministero lascerà questi dati nelle statistiche ISS. Non verranno, pertanto, più rilasciarti su questo repository.

umbros commented 3 years ago

Dataset aggiornati, grazie a tutti per la collaborazione

alexodus commented 3 years ago

Mi spiegate perché dal 2 al 5 dicembre i campi sono valorizzati a "0", mentre dal 6 dicembre sono valorizzati a "null"?