Open alexodus opened 3 years ago
2 ore di ritardo e ci troviamo con il molise che ha 808624 casi testati in più di ieri e la v.aosta che ne ha 223 in meno di ieri 🤦♂️
Si tratta di imperfezioni chiaramente individuabili dando semplicemente uno sguardo al più semplice dei grafici. Ci si immagina chissà quali accortezze, in realtà non sembrano essercene poi molte. Fin troppo bene è andata fino ad adesso, piuttosto.
2 ore di ritardo e ci troviamo con il molise che ha 808624 casi testati in più di ieri e la v.aosta che ne ha 223 in meno di ieri 🤦♂️
Aggiungo che ieri i "casi testati" del Lazio erano identici al giorno precedente (issue #967)... del che, come niente fosse.
Al che oggi dal Lazio sarebbe stato ovvio attendersi un valore doppio del solito... invece il valore del Lazio cresce di poco più di 15mila unità rispetto a DUE giorni fa... Cioè un valore che per il Lazio è già basso per un giorno solo, non parliamo per due giorni di fila...
Corretto? Non corretto? Chissà...
Trovato l'errore dei casi testati: al Molise ne hanno messi 897250 invece di 89725... ma è possibile ancora con errori del genere? Dopo 9 mesi ancora non c'è un sistema di inserimento dati che eviti che vengano inseriti valori più grandi/piccoli di una certa soglia (es. valori distanti più di 3 deviazioni standard dalla media delle ultime 2 settimane)?
Si tratta di imperfezioni chiaramente individuabili dando semplicemente uno sguardo al più semplice dei grafici. Ci si immagina chissà quali accortezze, in realtà non sembrano essercene poi molte. Fin troppo bene è andata fino ad adesso, piuttosto.
Se avessi immaginato che affidavano la gestione di questi opendata a degli inesperti con zero conoscenze informatiche e zero umiltà, avrei evitato di farci un programma su. Ma in Italia funziona così e la Protezione Civile è piena di raccomandati ed incapaci.
Si tratta di imperfezioni chiaramente individuabili dando semplicemente uno sguardo al più semplice dei grafici. Ci si immagina chissà quali accortezze, in realtà non sembrano essercene poi molte. Fin troppo bene è andata fino ad adesso, piuttosto.
Se avessi immaginato che affidavano la gestione di questi opendata a degli inesperti con zero conoscenze informatiche e zero umiltà, avrei evitato di farci un programma su. Ma in Italia funziona così e la Protezione Civile è piena di raccomandati ed incapaci.
Il punto (ed è una nota dolente tipicamente nostrana) è che pare stiano a farci tutti già un grande favore...
Come se:
1) la trasparenza dei dati non fosse dovuta...
2) il tutto, in fin dei conti, non fosse pagato DALLE NOSTRE TASCHE...
1) Si ripete lo stesso problema una seconda volta in pochi giorni (l'altro ieri a causa della Campania, oggi tocca al Molise). E non è possibile rimandare sempre la soluzione e correzione delle tabelle al giorno dopo.
2) Il dato dei casi testati è FONDAMENTALE. Perché è su questo che si DEVE calcolare l'incidenza (giornaliera, periodica e complessiva), NON sui tamponi totali. Non a caso, in Lombardia l'incidenza giornaliera sui tamponi segue l'andamento di quella nazionale, ma quella sui testati no. In RL i tamponi diagnostici rispetto a quelli di controllo in un mese sono crollati, e il rapporto sui testati è il triplo di quello sui tamponi, mentre nel resto d'Italia è solo il doppio.
3) Tra ritardi ed errori non oso pensare a lunedì quando cambierà il formato delle tabelle con l'aggiunta della colonna degli ingressi in T.I. Dubito che verrà fornito in anticipo il template aggiornato per poter allestire in tempo i database personali e popolare i dati in automatico
4) Oltretutto, si tratterà di un cambiamento importante per un dato che in sé serve a ben poco, se dopo dieci mesi non si riesce ad avere ancora entrate e uscite per tutte le voci intermedie (isolamenti, ricoveri e terapie), se non si ripartiscono tra queste i decessi e soprattutto se non si è ancora riusciti a scorporare i dimessi (ancora positivi) dai guariti (negativi), un errore che ancora condiziona e sottostima la cifra dei contagi attivi.
Cioè, ma è possibile continuare così...mi chiedo! Bisogna andare a trovarsele da soli le informazioni dalle testate giornalistiche per sapere, ad esempio, che i decessi del 3 Dicembre non sono quelli del giorno perchè c'è chi (leggendo l'articolo si capisce) non ha comunicato alcuna nota al riguardo: https://www.huffingtonpost.it/entry/covid-italia-nemmeno-il-numero-dei-morti-e-un-dato-sicuro_it_5fca4999c5b63a153451521b?utm_hp_ref=it-homepage&fbclid=IwAR0b74otR9Wbm9tVXOnB7X-FBU4EHFXSFyBQYUfdgd5kv_Mu4pUIFec9J68 Riconteggi pure da parte della Sardegna ed errori di battitura a raffica e su più giorni... Ma dove siamo finiti!!!
Cerchiamo di essere costruttivi.
E che cosa costruiamo? Su quali basi?! Quelle proposte da Rabelais mi stanno bene, sono le uniche che permetterebbero di evitare questi pasticci.
Cerchiamo di essere costruttivi.
Sono mesi (fin dalla prima ondata) che si propone di fare uno script di validazione dei dati. Ma a chi gestisce questo repository non interessa affatto. Fare uno script python che validi i dati e dia dei warning per dati sospetti ci vuole poco, ma non hanno le competenze per farlo né accetterebbero mai dall'esterno un contributo simile. Quello che sanno scrivere ad ogni issue è "grazie" e poi chiudere maleducatamente l'issue.
Gli errori che capitano di continuo eccoli:
per completezza guardatevi questo issue: #945 Risposta? Nessuna!!!!
Cerchiamo di essere costruttivi.
Costruttivi significa che per mesi pazientemente abbiamo riportato ogni evidente incongruenza. Gran parte restano là, come fosse roba normale... e come se chissà di che stranezze si stesse parlando.
Giusto per restare a segnalazioni mie che ricordo bene: ieri ho segnalato che si sono letteralmente VOLATILIZZATI l'8,3% dei casi finora riportati ad Imperia (#968), senza che comparisse la benché minima nota o giustificazione.
Avete visto un riga di replica a confermare che il dato fosse corretto? Che una spiegazione sarebbe apparsa oggi? NIENTE.
E oggi, il dato di Imperia è improvvisamente tornato in linea ai valori di DUE GIORNI FA (ma in realtà sembra cresciuto poco rispetto alla sequenza precedente). Per chiarezza:
Imperia - storico casi
2020-12-01: 5549 (+58) 2020-12-02: 5592 (+43) 2020-12-03: 5637 (+45) 2020-12-04: 5169 (-468) >>> -8,3%!! 2020-12-05: 5676 (+507) >>> +9,8%!!
Dico: ma una NOTA che chiarisse quale fosse il valore CORRETTO di ieri? E' chiedere troppo? E' chiedere troppo che almeno nel file STORICO (il file senza data: quello che si usa per rigenerare da zero) il valore di ieri venga corretto?
Possibile che debba restare un simile scalone (ripeto, 8,3%!) in negativo tra l'altro ieri e ieri, e poi in positivo tra ieri e oggi? OK, certo, ciascuno di noi sistemerà interpolando e stimando un valore corretto per ieri, in modo da ridurre le schifezze che ne conseguono... Ma non sarebbe meglio che questo dato venisse messo a posto PER TUTTI allo stesso modo? Se no che senso ha avere un repository centralizzato, se ciascuno all'occorrenza si inventa i dati che vuole cercando di interpolare e desumere i dati corretti...?
Essere costruttivi è avere segnalato il problema, e più volte (per non so quanti casi analoghi - ne potrei citare altri, che so: #867) abbiamo pregato di voler intervenire QUI correggendo l'errore. E invece come se niente fosse, a fronte di dati che salgono e scendono in modo totalmente balordo, resta tutto buttato lì alla come viene, come fosse la cosa più normale del mondo, e come fossimo noi dei rompiscatole.
@RossoDeM riguardo al punto 2 mi sembra di capire che secondo te i nuovi contagi "escono" solamente dai casi testati, ma non è così, ti invito a leggere questa issue #864
Cerchiamo di essere costruttivi.
Costruttivi significa che per mesi pazientemente abbiamo riportato ogni evidente incongruenza. Gran parte restano là, come fosse roba normale... e come se chissà di che stranezze si stesse parlando.
Giusto per restare a segnalazioni mie che ricordo bene: ieri ho segnalato che si sono letteralmente VOLATILIZZATI l'8,3% dei casi finora riportati ad Imperia (#968), senza che comparisse la benché minima nota o giustificazione.
Avete visto un riga di replica a confermare che il dato fosse corretto? Che una spiegazione sarebbe apparsa oggi? NIENTE.
E oggi, il dato di Imperia è improvvisamente tornato in linea ai valori di DUE GIORNI FA (ma in realtà sembra cresciuto poco rispetto alla sequenza precedente). Per chiarezza:
Imperia - storico casi
2020-12-01: 5549 (+58) 2020-12-02: 5592 (+43) 2020-12-03: 5637 (+45) 2020-12-04: 5169 (-468) >>> -8,3%!! 2020-12-05: 5676 (+507) >>> +9,8%!!
Dico: ma una NOTA che chiarisse quale fosse il valore CORRETTO di ieri? E' chiedere troppo? E' chiedere troppo che almeno nel file STORICO (il file senza data: quello che si usa per rigenerare da zero) il valore di ieri venga corretto?
Possibile che debba restare un simile scalone (ripeto, 8,3%!) in negativo tra l'altro ieri e ieri, e poi in positivo tra ieri e oggi? OK, certo, ciascuno di noi sistemerà interpolando e stimando un valore corretto per ieri, in modo da ridurre le schifezze che ne conseguono... Ma non sarebbe meglio che questo dato venisse messo a posto PER TUTTI allo stesso modo? Se no che senso ha avere un repository centralizzato, se ciascuno all'occorrenza si inventa i dati che vuole cercando di interpolare e desumere i dati corretti...?
Essere costruttivi è avere segnalato il problema, e più volte (per non so quanti casi analoghi - ne potrei citare altri, che so: #867) abbiamo pregato di voler intervenire QUI correggendo l'errore. E invece come se niente fosse, a fronte di dati che salgono e scendono in modo totalmente balordo, resta tutto buttato lì alla come viene, come fosse la cosa più normale del mondo, e come fossimo noi dei rompiscatole.
Attenzione, io sono un grande critico del modo di gestire questi opendata, ma va detto che i dati stessi che arrivano dalle USL vengono poi gestiti in strano modo dalla Protezione Civile. Ti faccio l'esempio di Latina, dove i dati comunicati della USL (e variano giornalmente tra 120 e 320 circa) appaiono ripartiti, su questo opendata, in malo modo durante i vari giorni. Tipo: 12, 1400-e-rotti, 46, etc.......quindi con salti assurdi. Cosa facciano dei dati delle USL non lo so: ma di sicuro non credo sia un problema di chi gestisce questi opendata
Cosa facciano dei dati delle USL non lo so: ma di sicuro non credo sia un problema di chi gestisce questi opendata
Beh... allora bisognerebbe mettersi d'accordo su cosa significhi "gestire opendata". Quello che mi aspetto io è appunto una GESTIONE, che significa anche far fronte e risolvere difformità, anomalie nei dati, etc.
Invece il tutto mi pare corrispondere ad un assai più pilatesco (per non dire burocratico) "cari signori, questo è quello che arriva, e questo è quello che passa il convento".
Nel qual caso di "gestione" mi pare ce ne sia ben poca. A allora tanto varrebbe dirlo a chiare lettere e mettersi l'animo in pace.
@RossoDeM riguardo al punto 2 mi sembra di capire che secondo te i nuovi contagi "escono" solamente dai casi testati, ma non è così, ti invito a leggere questa issue #864
Non ho affermato questo, e non l'ho mai sostenuto. Ho detto un'altra cosa e mi sembra di essere stato esauriente.
un problema di chi gestisce questi opendata
Per essere più esplicito (e insieme allargare e circoscrivere molto dettagliatamente il tema e lo stato dell'arte)...
Se non ti è mai capitato:
Poi fatti un bel giro su www.governo.it (mi raccomando il "www" perché governo.it non basta: dà errore...) Sappiemo bene a che epoca risale "design" e "progetto" (inclusa l'utilissima "mappa interattiva dei viaggi del presidente del consiglio").
Poi procurati un secchio in cui riversare le lacrime...
Ah... il sito del governo britannico è gestito "in-house", mica affidato a qualche amico o ai poltronai di sogei.
Ecco... spero di aver chiarito con un esempio cosa intendo per GESTIONE, eh?
@RossoDeM scusa ma con incidenza non intendi casi/tamponi?
con incidenza non intendi casi/tamponi?
@LucaZeta questa mi è nuova, fin ora avevo visto usare incidenza per indicare 1) casi sulla popolazione 2) casi sui tamponi. La stessa ISS con incidenza intende casi su popolazione, non vedo perché usare incidenza per indicare i casi totali, inoltre di sicuro @RossoDeM intende un'altra cosa
L'importanza di condividere un glossario.
L'importanza di condividere un glossario.
Ma soprattutto l'importanza di andarselo a cercare il glossario...
(poi certo, ciascuno è liberissimo di chiamare "lumache" le "banane"... ma nel caso conviene che almeno impari a tradurre prima di ordinare al ristorante)
Stai dicendo che 3 banane sono una lumaca. Ma fai pure, figurati.
No: sto solo mestamente cercando di suggerire che il "glossario" di epidemiologia già esiste... Ad esempio:
E non lo dico riferito a te, ma molto in generale...
Forse, dandogli una sbirciatina, ci saremmo risparmiati di fare tanto chiasso sul "numero dei contagi" (con tutte le polemiche che ne seguirono la scorsa primavera), o sugli "attualmente positivi", o persino sul "numero dei tamponi", e via dicendo.
Se è chiaro che totale_casi e totale_casi/popolazione descrivono lo stesso andamento, solo a scale di riferimento diverse, posso anche abbandonare la discussione. (Stesso discorso per nuovi_positivi, relativamente all'incidenza giornaliera)
Se non lo è, resto a disposizione.
Rispondo a chi sopra invitava ad essere costruttivi.
Se non ci fosse una precisa intenzione a mostrare dati opachi, per avere margini di raccontare le storie che piu' fanno comodo, gia' a Marzo/Aprile sarebbero stati fatti quei cambiamenti semplici che permettono di avere dati piu' precisi e indicativi:
Servirebbe anche non continuamente cambiare i criteri, per avere dati uniformi, che uniformi non sono mai stati.
L'unica lezione da imparare qui e' che piu' guardiamo questi dati piu' siamo convinti di conoscere bene quel che succede. Invece la qualita' dei dati e' in peggioramento costante e siamo ciechi.
Se non ci fosse una precisa intenzione a mostrare dati opachi
Premetto che sono un visitatore senza alcun ruolo in questo spazio virtuale e ferma restando la libertà di ciascuno di noi di esprimere quello che si vuole o si ritiene opportuno, considero genericamente: appropriata qualsiasi domanda, costruttive risposte volte a chiarire dubbi, inappropriate polemiche circa la volontà di fornire dati confusi. Non perchè non possano avere fondamenta di verità, ma proprio perchè se vere non sortiranno alcun esito se esposte in questo spazio.
Se non ci fosse una precisa intenzione a mostrare dati opachi
Premetto che come sono un visitatore senza alcun ruolo in questo spazio virtuale e ferma restando la libertà di ciascuno di noi di esprimere quello che si vuole o si ritiene opportuno, considero genericamente: appropriata qualsiasi domanda, costruttive risposte volte a chiarire dubbi, inappropriate polemiche circa la volontà di fornire dati confusi. Non perchè non possano avere fondamenta di verità, ma proprio perchè se vere non sortiranno alcun esito se esposte in questo spazio.
Non credo infatti che ci possa essere alcuna volontà di fornire dati opachi. E' tutta la filiera (ospedali-USL-ministero-protezione civile) che non riesce ad avere dati sensati dopo oltre 9 mesi dall'inizio della pandemia. E' un semplice ed evidente caso di inettitudine.
E' un semplice ed evidente caso di inettitudine.
Forse considerata la dimensione del sistema coivolto, se se ne conoscesse l'articolata divisione compartimentale, si sarebbe nella posizione di fornire suggerimenti più mirati. Essere "Tedeschi" in questi casi aiuta, ma non lo siamo.
Se è chiaro che totale_casi e totale_casi/popolazione descrivono lo stesso andamento, solo a scale di riferimento diverse, posso anche abbandonare la discussione. (Stesso discorso per nuovi_positivi, relativamente all'incidenza giornaliera)
Se non lo è, resto a disposizione.
Beh, in questo caso certamente descrivono lo stesso andamento dei positivi (non nel caso in cui a denominatore abbiamo i tamponi o i casi testati). Il problema si pone quando si debbono confrontare le incidenze di Regioni diverse: in questo caso le differenti Popolazioni Regionali fanno la differenza, perchè cambiano i denominatori.
ti invito a leggere questa issue #864
Issue molto interessante: all'uopo sarebbe quanto mai utile che venisse ancora implementata la gestione del dato dei "casi_da_screening", perchè facendo il rapporto tra positivi da screening e positivi del giorno si potrebbe stimare una "percentuale di detrimento" da applicare al calcolo di incidenza sui casi testati del tipo (1-casi_da_screening)%. Certo, non è il calcolo preciso che si otterrebbe con la distinzione nei 3 gruppi, ma è sempre meglio che niente. Oppure si può fare una banale media tra le 2 incidenze, quella sui tamponi (che sottostima) e quella sui casi testati, che sovrastima.
Beh, in questo caso certamente descrivono lo stesso andamento dei positivi
E' perchè sono stato fortunato. Grazie per il tuo tempo.
In generale, il mio pensiero è che quando parliamo di "dati giornalieri", in realtà assumiamo per reale il fatto che comunque stiamo seguendo un modello. Ad esempio, ho potuto constatare come il calcolo di incidenza con i dati P.C. e l'incidenza calcolata dall'ISS differiscono, anche se non di molto (tipo 550 anzichè 536): anche il modo con il quale vengono collezionati i positivi è differente, perchè l'ISS li colleziona per data di diagnosi, mentre qui arrivano conguagli su più giorni distinti. Anche in questo caso, un tavolo tecnico per omogeneizzare il tutto sarebbe una buona cosa. Anche in tema di tamponi: se venissero effettuati davvero (intendo dire "sul campo") 100mila o più casi testati al giorno, con le attuali modalità di raccolta "a conguaglio" avremmo oltre 1milione di casi testati al giorno, che non sarebbero compatibili nè con le capacità di screening di qualunque Stato, nè con l'attuale situazione epidemica che ci è sfuggita di mano....ed ora stiamo "ballando" su di un picco che non riusciamo a vedere per effetti saturativi. Sarebbe quantomeno opportuno inoltre, introdurre un nuovo campo: "casi_da_tracking", perchè attualmente si trova di sicuro mascherato nel sottogruppo "casi_da_screening". Poi si porrebbe però un altro problema: se per tracking si intende, dato "Tizio" come caso indice, andare a cercare i suoi contatti "Caio, Sempronio ecc.." e poi Caio lavora nella Azienda X e Sempronio in quella Y lo screening aziendale che eventualmente venisse fatto, come lo classifichiamo? Screening o Tracking?
numero esagerato...solitamente sono 10 volte di meno (sugli 80 mila)