pcm-dpc / COVID-19

COVID-19 Italia - Monitoraggio situazione
Other
3.87k stars 2.25k forks source link

JSON dataset preview #281

Closed giuseppemasitto closed 4 years ago

giuseppemasitto commented 4 years ago

Tipo di richiesta: richiesta di informazione | richiesta di dati

Riassunto

Onde evitare di dover correre ai ripari un ora prima/dopo la publicazione del nuovo dataset, potete per favore rilasciare una preview in modo tale da poter studiare una soluzione quanto prima possibile?

Interesse pubblico

Evitare che il cambio di dataset possa creare problemi

pescetti commented 4 years ago

Commento da parte di un utente che (detto con il massimo rispetto per chi raccoglie, elabora e divulga questi dati in condizioni sicuramente difficili) è già dovuto intervenire quattro volte perché la sua applicazione non accettava i nuovi dati: i problemi che abbiamo visto qui di solito sono incongruenze nel formato dei dati e sono tutti stati risolti entro poche ore, spesso anche pochi minuti, dalla segnalazione ripristinando il formato corretto.

Se, come me, avete applicazioni web che si aggiornano in tempo reale, il problema non è la preview del dataset, perché comunque dopo le varie segnalazioni viene sempre ripristinato il solito formato; il problema è testare in maniera automatica che i dati siano sani ad ogni push, e comunque prima che l'applicazione aggiorni il suo dataset di riferimento.

Un elenco di problemi già visti legati a mancati controlli dei dati, e per i quali sto scrivendo test automatici che non ho alcun problema a mettere a disposizione nel caso, è qui: https://github.com/pescetti/COVID-19/issues/2

giuseppemasitto commented 4 years ago

Ovviamente quello che hai scritto è un prerequisito che è alla base del lavoro del DPC nella divulgazione dello specifico dataset ed immagino proprio che i ragazzi che ci stanno sviluppando stanno già facendo il massimo, forse anche più.

Detto questo anche io mi sono trovato in difficoltà nell'elaborazione dei dati ma va bene così, penso che qui stiamo facendo tutti un gran lavoro al fine di fornire una informazione di sintesi, la più completa e chiara possibile

Quindi tornando al tema principale, che non è una discussione sul lavoro svolto o da svolgersi.

-- Edit -- In realtà potremmo anche apire un topic su questo ma sarebbe opportuno evitare di farlo qui (nello specifico in questo thread) per mantenere tutto ordinato. Inoltre si potrebbe anche pensare di aiutare questi ragazzi con qualche pull_request come questa issue che fanno troppo bene al progetto

miccoli commented 4 years ago

Penso che il workflow potrebbe essere organizzato così:

Posso contribuire del codice python per validare i file CSV, se necessario. Non so però se l'admin di questa repo desidera andare in questa direzione, che se automatizzata bene aiuterebbe moltissimo, ma che richiede un buon lavoro per essere messa in piedi.

L'idea di una preview invece non mi sembra molto utile, perché aumenterebbe il lavoro e potrebbe rallentare il rilascio ufficiale dei dati.

pescetti commented 4 years ago

@miccoli Se vuoi lavorare con Github actions e Python siamo (almeno) in due. Il tuo workflow è molto simile a quello che adotto io ora che però è ancora in parte manuale. E anch'io mi sto convincendo che l'unico modo sicuro sia partire dai CSV e ottenere automaticamente tutti i file derivati.

Non penso che al momento questa sia una priorità per questo repository, però si può preparare tutto in un fork e metterlo a disposizione quando sarà decente. Io sto raccogliendo le idee al link già citato https://github.com/pescetti/COVID-19/issues/2 e possiamo sicuramente lavorare lì se vuoi. Essendo un fork, sarà poi facile riportare tutto upstream nel caso.

umbros commented 4 years ago

Grazie ragazzi ogni contributo è benvenuto, in questo momento ci stiamo focalizzando sullo scripting di generazione dei dati che, almeno da quanto visto oggi, si è stabilizzato. Altra focalizzazione è quella sul poter fornire altri dati e anche lì stiamo lavorando. Grazie @pescetti, @mazinthebox e a tutti.

miccoli commented 4 years ago

@pescetti mi sono messo in watch pescetti/COVID-19#2 Per il momento rimango però in standby perché i miei script lavorano principalmente offline. Faccio qualche esperimento sulla mia fork miccoli/COVID-19 e se caccio fuori qualcosa di utile apro un PR sulla tua repo, così evitiamo di duplicare il lavoro.

miccoli commented 3 years ago

@pescetti non so se lavori ancora sui dati di questa repo. Dopo lunghi mesi di inattività ho iniziato a mettere assieme un workflow per la validazione dei dati, vedi GH-847 su questa repo. I dati sono molto più stabili rispetto a marzo (grazie @umbros!) ma qualche errorino scappa sempre.

I risultati della validazione si possono vedere su https://github.com/miccoli/COVID-19/actions?query=branch%3ACI+. Adesso (2020-11-15) falliscono entrambi gli script di test (test_csv.py e test_json.py) perché ci sono almeno tre bug attivi, GH-922 e GH-863 e GH-932.