opencovid19-fr / data

Consolidation des données de sources officielles concernant l'épidémie de COVID19
MIT License
284 stars 102 forks source link

Rafraîchissement des données? #475

Closed gbrault closed 4 years ago

gbrault commented 4 years ago

Avec le code suivant

import pandas as pd
covid19=pd.read_csv('https://raw.githubusercontent.com/opencovid19-fr/data/master/dist/chiffres-cles.csv')

la selection

covid19[(covid19['date']=='2020-03-28')]['granularite'].unique()

donne

array(['collectivite-outremer', 'departement', 'pays', 'region', 'monde'],
      dtype=object)

et à partir de là

covid19[(covid19['date']=='2020-03-30')]['granularite'].unique()

donne

array(['departement', 'pays', 'region'], dtype=object)

(ça s'arrête au 30). Est-ce normal?

JiPiBi commented 4 years ago

Normal je ne sais pas , mais regardez la date de mise à jour du fichier dans le répertoire , elle date effectivement de 2 jours

Vous pouvez aussi obtenir des données qui sont très semblables car c'est la source commune(avec moins d'ancienneté ) sur data.gouv.fr

dataProjectVS commented 4 years ago

Bonjour,

Merci à ceux qui ont bossé sur ce projet. Plus de MAJ globale depuis le 31/03 et plus de data par région depuis le 26/03. Je pense que les gens ont arrêté de mettre à jour, je comprends ça doit être très chronophage.

Auriez-vous une source directe pour l'évolution des cas confirmés, décès et réa par région FR ? J'ai les infos globales par pays mais c'est moins granulaire :

https://data.humdata.org/dataset/novel-coronavirus-2019-ncov-cases (données J-1, j'utilise la version "narrow")

Merci d'avance !

JiPiBi commented 4 years ago

Le lien permanent que j utilise qui donne un détail départemental sauf sur les confirmés.

https://www.data.gouv.fr/fr/datasets/r/63352e38-d353-4b54-bfd1-f1b3ee1cabd7

gbrault commented 4 years ago

Merci @JiPiBi: est-ce que vous avez la définition des colonnes svp?

dep | sexe | jour | hosp | rea | rad | dc

et pour le sexe 0,1,2 correspond à quoi? Merci

JiPiBi commented 4 years ago

Normalement les métadonnées sont accessibles sur le site data.gouv Dep departement 0 est la somme de 1 et 2

hosp = présents en hosp à la date rea= en réanimation, inclus dans hosp rad = retour à domicile = guéris même si restent très fatigués dc = décédés

dataProjectVS commented 4 years ago

Oui j'avais vu ce flux aussi mais effectivement il manque les cas confirmés, même si on devra s'en contenter en attendant.

Je ne sais pas si vous avez remarqué mais ce dash qui se connecte sur les données (a priori) opencovid19-fr est bien à jour : https://dashboard.covid19.data.gouv.fr/

Pour les cas confirmés on a la source US John Hopkins pour compléter en attendant (cf. mon précédent post).

P.S : les données ont été mises à jour finalement (sauf la partie régions)

JiPiBi commented 4 years ago

@dataProjectVS

Ce dashboard est issu du meme github que celui-ci en mettant dashboard à la place de data. Donc même equipe.

Pour JHU , qualité instable. Voir le nombre de issues. Ils travaillent aussi en reprenant maintenant les données worldometers.

dataProjectVS commented 4 years ago

Oui pas 100% nickel non plus côté JHU mais je n'ai pas eu de souci de MAJ depuis que je l'utilise (une semaine environ).

Est-ce que Worldometers est plus stable ? Je n'ai pas encore testé. Pour le dashboard oui j'ai vu que c'était la même équipe mais je me demandais quelle(s) source(s) ils utilisaient car quand ce n'était pas à jour côté data. ça l'était côté dashboard.

gbrault commented 4 years ago

Les valeurs par départements sont actualisées effectivement. Pour le fichier (au 02/04/2020 à 12h07 il y a les données de 01/04/2020). et pour les données 'hospitalisés et dc'

https://raw.githubusercontent.com/opencovid19-fr/data/master/dist/chiffres-cles.csv

Finalement, c'est la vue la plus significative du fait de la détection qui n'est pas systématique.

JiPiBi commented 4 years ago

la copie du fichier qu'on trouve sur data.gouv qui sert à alimenter chiffres-cles.csv est dans le dossier sante-publique-fr

JiPiBi commented 4 years ago

Remarque : si vous regardez de près le fichier , vous verrez qu'il y a pour le 1/4 deux lignes avec des chiffres differents pour la France au 1/04 2020-04-01,pays,FRA,France,56989,4032,6017,24639,10935,,Ministère des Solidarités et de la Santé,,,ministere-sante 2020-04-01,pays,FRA,France,,4032,5940,24543,10934,,OpenCOVID19-fr,,,opencovid19-fr

si on fait les cumuls par jour du fichier par departement , au 1/4 on retrouve les chiffres de la 2eme ligne
mais la ligne Mayotte au 1/4 de ce fichier donne 2020-04-01,departement,DEP-976,Mayotte,,0,0,0,1,,Santé publique France Data,,,sante-publique-france-data

alors qu'au 1/4 Mayotte a 101 cas , 1 deces et 10 gueris et 3 personnes en rea (worldometers)

Pour info Polynesie et Nouvelle Caledonie ne sont pas pris en compte , JHU annonce 53 cas pour les 2 territoires worldometers annonce 53 cas 1 gueris , 1 en rea

worldometers et jhu continuent à gerer separement les territoires et collectivités d'outre mer : Guadeloupe/ Martinique , mais dans leur ligne France integrent ces memes chiffres , donc si on agrege les chiffres , on compte 2 fois les territoires (sauf Polynesie , Nouvelle Caledonie, Mayotte)

Voilà , voilà .....

gbrault commented 4 years ago

Du coup, je doit prendre covid19[(covid19['maille_nom']=='France') & (covid19['source_type']=='ministere-sante')]! Merci @JiPiBi image

gbrault commented 4 years ago

Ou avec 'hospitalisation', ce qui a mon sens est plus significatif image

Interpolation n'est pas raison, mais il ne semble pas que nous ayons atteint un plateau, ni même un infléchissement.

gbrault commented 4 years ago

https://www.researchgate.net/publication/280141961_Mathematical_Modelling_of_the_Transmission_Dynamics_of_Ebola_Virus image

gbrault commented 4 years ago

image

gbrault commented 4 years ago

Mais il faut faire attention aux modèles mathématiques: selon

Devant la peste, le prêtre William Mompesson proposa des mesures de quarantaine qui furent suivies par la population, afin d'empêcher que la maladie ne se diffuse à d'autres communautés. Ceci s'avéra être une erreur. En effet, la maladie était principalement transmise par les puces qui ne se tournaient vers l'homme que lorsqu'elles ne trouvaient plus de rats. La politique de quarantaine garde les puces, les rats et les hommes en contacts ce qui augmenta drastiquement le taux d'infection ; de plus, elle n'empêche pas les rats de se répandre à d'autres communautés. Cette politique entraîna le décès de 76 % des habitants. Les quantités d'individus sains (S) et infectés (I) furent écrites pour plusieurs dates, et la quantité d'individus supprimés (R) peut être déduite connaissant la population de départ. En calibrant sur ces données, un modèle SIR donne p = 2.73 et alpha = 0.0178. Sur cet épisode, Brauer conclut : « Le message que cela suggère aux mathématiciens est que les stratégies de contrôle fondées sur des modèles erronés peuvent être dangereuses, et qu'il est essentiel de distinguer entre les hypothèses qui simplifient mais ne changent pas substantiellement les effets prédits, et les hypothèses erronées qui font une différence importante »

JiPiBi commented 4 years ago

Ca marche pourtant bien en Italie en echelle log , peut etre qu'il y a moins de puces et de rats de nos jours

image

gbrault commented 4 years ago

Je vous engage à regarder https://github.com/TomNicholas/coronavirus

JiPiBi commented 4 years ago

@gbrault Merci pour le lien Merite d'y passer quelques heures pour en comprendre toute la substantifique moelle ..... L'interet est que tout ce que le notebook permet de jouer avec les valeurs

Globalement vu d'avion conforme à ce qu'on entend déjà y compris le profil en tole ondulée qd on relache la pression de la distanciation.

Ce qui pose d'ailleurs la question de la suite , comment déconfiner sans faire des tests massifs sur 60 000 000 de personnes , ce qui prendra un certain temps comme le fut du canon pour refroidir, et d'ici là le corona peut revenir sous la meme forme ou une autre ( le modèle peut peut etre évoluer pour tenir compte du risque de perte d'immunité progressif , sans vaccination qui elle meme doit s'adapter à l'évolution du corono , idem grippe ) Bref nous n'en sommes qu'au début

gbrault commented 4 years ago

@JiPiBi : votre conclusion était l'objet de mes recherches... Et pour essayer de mesurer ce que début veut dire!

JiPiBi commented 4 years ago

Pour info, je suis en cours de suivi d un MOOC sur Coursera portant sur la compréhension de ce qu'est une épidémie et les éléments de suivi , c est fait par JHU donc assez sérieux.

Binnette commented 4 years ago

Bonjour, on dirait qu'il n'y a plus d'issue à proprement parler dans ce ticket, donc je le ferme.

Je vous invite à continuer votre discussion sur Slack. Je suis persuadé que la communauté serait intéressée par vos discussions, diagrammes, calculs, etc.

Lien vers notre Slack : https://join.slack.com/t/dataagainstcovid-19/shared_invite/zt-cgsplso2-LIvWeRHlf1ZFIrh~SPj~IA