opencovid19-fr / data

Consolidation des données de sources officielles concernant l'épidémie de COVID19
MIT License
283 stars 101 forks source link

Données COVID-19 erronées #527

Open maxcorbeau opened 4 years ago

maxcorbeau commented 4 years ago

Tout d'abord merci pour votre contribution sur les données libre du gouvernement.

Je suis en train de jeter un oeil aux données du COVID-19 et elles me paraissent erronées a de nombreux endroits. En effet la colonne "deces" représente le "total cumulé du nombre de décès", ce qui ne peut donc pas diminuer, en revanche je compte plusieurs points de données où c'est le cas:

Par exemple:

Je constate que les données sont compilées avec NodeJS. J'ai rien contre NodeJS, mais à mon avis pour travailler avec des données il serait plus judicieux de basculer sur Python, où des librairies comme pandas peuvent faciliter grandement le travail.

Par exemple détecter ce genre d'erreurs se fait en quelques lignes:

# Loading data
# Sorting by nom+date so we can use .diff() method
# For each location (group on nom), we get diff of deaths with previous time period
# if the diff is negative, it means total deaths went down which isn't possible
# we export data to CSV and raise exception
import pandas as pd
df = pd.read_json(path+'chiffres-cles.json')
df = df.sort_values(['nom','date'])
df['diff'] = df.groupby(['nom'])['deces'].diff().fillna(0)
df_errors = df[df['diff']<0]
if not df_errors.empty:
    df_errors[cols].to_csv(path+'errors.csv',index=False)
    raise Exception('Total deaths for certain locations decreasing, not possible')

Voilà, ma modeste contribution...

benoitdemaegdt commented 4 years ago

Bonjour,

Je remonte le même problème pour le département "Charente". Problème identifié sur le dashboard officiel du gouvernement : https://dashboard.covid19.data.gouv.fr/departements/16

image

Sait-on expliquer cette anomalie ?

claustres commented 4 years ago

A priori j'observe les erreurs dans les données sources pour les deux cas cités https://www.data.gouv.fr/fr/datasets/donnees-hospitalieres-relatives-a-lepidemie-de-covid-19/, donc je suppose qu'elles se répercutent ici. A ma connaissance il n'y a aucun calcul d'accumulation fait par le traitement, il faut donc reporter l'erreur au niveau de Santé Publique France.

Nous avons observé ce type d'erreur également de notre côté en proposant https://github.com/kalisio/covid-19 et avons choisi de rajouter un traitement visant à combler les trous dans les données à partir des valeurs de la vieille et en conservant également les valeurs max observées concernant les cumuls pour y pallier.