Open umbros opened 3 years ago
Aggiornamento: la risoluzione del problema è fissata per domani; il problema comprende più giorni.
Ciao. Non so se aprire una nuova issue o segnalare qui. La soluzione, così come implementata sbatta tutti i dati, fa apparire cose assurde (tamponi negativi) e lascia un po' basiti.
Non è possibile che il numero di tamponi cumulativo vada a scendere e che quindi il numero si tamponi effettuati in un giorno sia negativo, -47510
Una soluzione, che ho visto implementare in veneto sulle ICU è di distribuire i casi su più giorni, togliendoli ai positivi. Ad esempio, se domani ci sono 200.000 tamponi ne registriamo solo 200.000 - 47.000, magari appunto distribuendo i 47000 su più giorni.
Vi suggerisco di aggiornare il dato del 17 e dei giorni successivi facendo in modo di non avere picchi negativi di tamponi, che non hanno senso e sballano tutti i grafici, conti, previsioni, ma piuttosto lasciare nuovi tamponi a zero (tamponi fisso) fino a quando non viene recuperato il dato mancante (o ancora meglio farlo salire di un po' meno, recuperando i dati in eccesso un po' per volta e non 47000 in una sola botta).
Ad esempio per l'ITalia http://www.pangoo.it/coronavirus/?t=country&r=ITA&data=y#table
24683230 24635720 ( diff: -47.510) NON HA SENSO 24815520 ( diff: 179.800)
Variazione proposta
24683230 24683230 (diff: 0) 24768010 (diff: 179.800-47.510 = 84.780)
Nota come questa variazione NON ha effetto sul dato finale di oggi che resta invariato, ma "sistema il passato" per chi ne fa uso.
Piemonte: risulta particolarmente "devastato" in quanto negli stessi giorni vanno in tilt il totale tamponi e il totale casi http://www.pangoo.it/coronavirus/?t=region&r=Piemonte&data=y#table
1801939 1586358 (diff: -215581) 1595851 (diff: 9493)
Variazione proposta
1801939 1801939 (diff: 0) 1801939 (diff: 0) ... 1801939 (diff: 0) fion a quando il dato non sia rientrato
Ovviamente questa non è la soluzione ottimale, che consisterebbe nell'andare nel passato a variare i valori nel giorno giusto in cui andavano corretti (tenendone poi conto in quelli successivi). Se 12 tamponi in più sono stati registrati il 12 di agosto, andrebbe modificata la voce del 12 di agosto e quelle successive e non quella di oggi, ma in alternativa è comunque meglio avere una soluzione di ripiego che non dia adito a espressioni matematiche assurde come numeri di persone negative e valori cumulativi che scendono.
La seconda soluzione più corretta sarebbe di distribuire questo eccesso nei giorni successivi un po' per volta, in modo che la correzione stessa non alteri gli andamenti e le previsioni. La terza soluzione è quella indicata qui sopra, che tiene l'incremento a zero (valore cumulativo fisso) fino all'avvenuto recupero, Non ottimale ma quantomeno non errata.
La percentuale tamponi positivi su tamponi totali (anche la media mobile a 7gg risente dello sbalzo):
Grazie per tutto quello che fate e anche per aver preso in esame questa nota.
Francesco
Ciao a tutti, la motivazione dei dati non corretti è nella nota del Ministero della Salute:
La Regione Piemonte segnala che il dato delle persone testate e dei tamponi processati con test molecolare è stato ricalcolato sulla base delle indicazioni ministeriali. Il totale dei casi positivi è stato ricalcolato sulla base della definizione di caso come da circolare ministeriale.
Il dato non sarà pertanto corretto dal Ministero della Salute.
Di fatto il Piemonte segnalava i tamponi antigenici tra i tamponi molecolari: la correzione ha sottratto tutti gli antigenici segnalati e da oggi il dato fornito al Ministero della Salute e pubblicato dalla Protezione Civile riflette il numero di test molecolari effettuati ed e' coerente con le comunicazioni regionali.
Immagino che tale correzione avverrà prima o poi anche per la regione Marche (confrontare qui #995).
Ne approfitto per chiedere ancora se e' nei piani del Ministero della Salute di fornire informazioni sui tamponi antigenici effettuati e sui positivi in seguito a tampone antigenico, visto che le regioni già raccolgono questa informazione.
Se non piace il metodo di @francescom, non sarebbe meglio saltare la data con la cifra "corretta" per evitare i problemi grafici e analitici a cui accenna? Cioè, mettere NA per il 14 dicembre con una nota?
Se non piace il metodo di @francescom, non sarebbe meglio saltare la data con la cifra "corretta" per evitare i problemi grafici e analitici a cui accenna? Cioè, mettere NA per il 14 dicembre con una nota?
Grazie del suggerimento . Come potete vedere ho messo NA nei casi testati il 17 dicembre ed R mi ha ignorato il dato nei grafici :
https://www.kaggle.com/gianlab/esplorazione-dati-covid-19-italia
Se non piace il metodo di @francescom, non sarebbe meglio saltare la data con la cifra "corretta" per evitare i problemi grafici e analitici a cui accenna? Cioè, mettere NA per il 14 dicembre con una nota?
Nel dubbio, ora, anche io elimino a posteriori il valore di tutti i campi cumulativi se scendono rispetto al precedente (in PHP):
if(isset($aLine['tamponi'])) {
$aLine['_tamponi']=$aLine['tamponi'];
if(isset($old['_tamponi']) && $aLine['_tamponi']<$old['_tamponi']) $aLine['_tamponi']=$old['_tamponi'];
} // Mantiene il vecchio valore pià alto
...
if(isset($aLine['tamponi']) && isset($old['_tamponi']) && $aLine['tamponi']<=$old['_tamponi']) {
unset($aLine['tamponi']);
} // Elimina tutte le entry nuove sotto a quel valore.
Questo ovviamente ha qualche ripercussione, in quanto, ad esempio, per calcolare i tamponi giornalieri non si può più fare semplicemente nuovo - vecchio ma tenere conto che ci possono essere dei buchi. Comunque, in effetti forse meglio farlo "noi" da codice a valle. Tenendo conto dei giorni saltati:
if(isset($aLine['tamponi'])) {
$aLine['_tamponi']=$aLine['tamponi'];
if(isset($old['_tamponi']) && $aLine['_tamponi']<$old['_tamponi']) {
$aLine['_tamponi']=$old['_tamponi'];
$aLine['_tamponi_days']++;
} else $aLine['_tamponi_days']=1;
} // Mantiene il vecchio valore pià alto e salva il numero di giorni trascorsi
...
if(isset($aLine['tamponi']) && isset($old['_tamponi']) && $aLine['tamponi']<=$old['_tamponi']) {
unset($aLine['tamponi']);
} // Elimina tutte le entry nuove sotto a quel valore.
...
// calcola il valore giornaliero facendo la media se ci sono giorni saltati
if(isset($aLine['tamponi'])) {
if(isset($old) && isset($old['_tamponi'])) $aLine['nuovi_tamponi']=($aLine['tamponi']-$old['_tamponi'])/$aLine['_tamponi_days'];
else $aLine['nuovi_tamponi']=0;
$aLine['and._nuovi_tamponi_(MM14)']=$tampAverager->addValue($aLine['nuovi_tamponi']);
}
Grazie per tutti i commenti comprendo dai ripetuti interventi di Umbros che i problemi nascono dal ministero della salute.
Sarebbe comunque opportuno aggiornare le serie passate, la sequenza dei tamponi utilizzati dalle regioni nei giorni determina complessivamente lo sforzo diagnostico, se questo dato e' alterato, la possibilità di fare stime per il supporto alle decisioni viene meno. La serie e' più interessante come dato rispetto al totale che include i tamponi di diversi mesi fa.
Insomma siamo nel pieno della Pandemia e da Novembre c'è una grossa confusione sul riportare i dati sui tamponi. L'associazione: dato sbagliato ==> maggiori possibilità di decisioni errate, con relative ulteriori conseguenze e' abbastanza chiara......
Se non si riesce a sistemare la serie passata, la cosa migliore secondo me e' lasciare i dati del Piemonte sugli gli antigenici fino a quando ci sono e poi aggiungere solo i molecolari nei giorni successivi, e inserire nelle note che i dati sugli antigenici non ci sono più con tanto di cifra da sottrarre al totale.
Questa soluzione e' implementabile immediatamente e non richiede un grosso sforzo, e non fa sballare i programmi di visualizzazione, chi eventualmente vuole limare i dati distribuendo può farlo avendo il totale.
Cerchiamo nelle modifiche di curare più possibile l'obiettivo "Qualità' dei dati"!
Mi ero perso questa discussione e ho aperto una nuova issue. Penso però che farò come suggerito da @francescom e aggiungerò un filtro per validare i dati prima di plottarli...
Per quanto mi riguarda, ho adottato una soluzione più semplice e anche, purtroppo, semplicistica, per non alterare tutte le medie e le serie.
1) Per il dato dei tamponi del 17/12 l'ho sostituito con la media del valore del 16 e del 18 (il che, com'è ovvio, equivale a ipotizzare equidistribuzione del dato fra il 17 e il 18). 2) Per l'incidenza ("nuovi casi"/tamponi effettuati) del 17 e 18, totalmente sballato, l'ho sostituito con la media dei 7gg precedenti.
Questo ha reso più normale il dato che poi guardo in ultima analisi per sintetizzare questa incidenza, ossia la perquazione degli ultimi 5 gg del rapporto stesso che, in effetti, si è regolarizzato. In pratica questo dato, per alcuni giorni sarà il risultato di una doppia perequazione. In questo modo, oltretutto, quest'anomalia cesserà presto di far sentire i propri effetti nei dati prossimi.
Le tecniche per interpolare sono indubbiamente buone ma rimane il problema semantico, non so se e' chiaro a tutti cosa sta succedendo:
1) prima qualcuno sostiene che gli antigenici non funzionano. 2) poi qualcun altro interviene dicendo che non li trasmette 3) poi si decide che non e' il caso di riportare i dati sugli antigenici in questo sito e quelli nelle note vengono levati 4) ma qualche regione purtroppo li trasmetteva ancora con i molecolari 5) si correggono allora i dati levando il totale degli antigenici di botto. 6) si correggono ulteriormente i dati in modo che la visualizzazione non sia strana, e magari si inseriscono in qualche dataset. 7) qualcuno all'estero li analizzerà con tecniche di machine learning (prendendoli dal dataset), scoprendo uno strano rialzo dei contagi in Piemonte a meta Dicembre, che correlato con altri dati sull'epidemia, verrà associato alla nuova variante inglese? 8) ma il problema più grosso e' un altro, se i dati contengono errori o sono incompleti e' alquanto difficile identificare precocemente strane anomalie, perché queste risultano confuse con gli errori. Solo mantenendo la qualità e la completezza dei dati queste anomalie si possono scoprire ed interventi tempestivi si possono eventualmente fare.
Con questo intervento non e' mia intenzione alimentare la polemica, ma invitare tutti a collaborare per migliorare il dato sui Tamponi.
Alla luce di quanto emerge dagli organi di stampa e ripreso dal sito istituzionale di Regione Piemonte pare che vi sia un dietro front da parte del ministero e ISS sul fatto di non conteggiare i tamponi antigenici e i relativi casi, e che quindi tali tamponi/casi dovrebbero essere conteggiati riallineando i dati: ariticolo 1 articolo 2 Ad oggi nel bollettino nazionale continuano a non essere presenti i test rapidi, mentre nel bollettino regionale sono conteggiati sia i test rapidi che il dettaglio dei casi derivanti dalla positività a tali test. E possibile sapere se questo riallineamento/cambio di modalità è confermato e se è già stato pianificato?
In questo lavoro ho analizzato quanto avvenuto ai dati del Piemonte in termini del tasso di positività, ricostruendo la serie del Piemonte grazie ai dati forniti dall'assessore alla sanità. Si può vedere l'effetto sul tasso di positività dopo la riduzione del 17/12, quanto avviene dopo la rimozione di tutti gli antigenici a partire dal 22 Ottobre, e cosa succede se si tiene conto di questi, anche in termini di possibilità predittive. http://amsacta.unibo.it/id/eprint/6579
Ciao, abbiamo segnalato al Ministero della Salute un problema sui tamponi. Il caso è in fase di analisi.