regardscitoyens / nosfinanceslocales_scraper

Scrape financial data of cities, EPCI, departments and regions
http://www.nosdonnees.fr/dataset/donnees-comptables-et-fiscales-des-collectivites-locales
MIT License
16 stars 7 forks source link

Données manquantes #6

Closed kevinomics closed 7 years ago

kevinomics commented 8 years ago

Bonjour, Je réalise actuellement un travail de recherche en économie sur le bloc communal. Je me suis rendu compte, en comparant la liste INSEE et les budgets EPCI, qu'il manque 253 EPCI dans le budget EPCI en 2014. Je ne suis pas du tout au fait des méthodes de scraping, serait-il possible que vous mettiez à jour la base svp ? Je ne sais pas du tout d'où pourrait venir ce problème...

A titre d'exemple: CC Gascogne Toulousaine est un EPCI manquant.

Bien à vous

fmassot commented 8 years ago

Merci pour le retour, en regardant un peu le problème, je viens de comprendre pourquoi on ne récupère pas la CC Gascogne Toulousaine : la CC est sur deux départements différents et on essaye de la récupérer pour le département 31 alors que le site http://www.collectivites-locales.gouv.fr/ la met sur le département 32. Je vais essayer de corriger ça rapidement.

fmassot commented 8 years ago

données EPCI à jour, dispo ici http://www.nosfinanceslocales.fr/static/data/epci_all.csv

kevinomics commented 8 years ago

Bonjour,

Merci pour votre travail, j'apprécie beaucoup l'aide que vous m'apportez. Cependant, même si vous avez réussi à récupérer 36 EPCI dans la base, il y en manque encore 217.

J'ai mis ci-joint la liste des EPCI manquants, où on peut trouver, à titre d'exemple, le CC Plaines et Monts de France.

Bien à vous,

epci manquants.xlsx

fmassot commented 8 years ago

merci pour la liste, pouvez-vous m'indiquer la source de votre liste d'EPCI ?

Actuellement, nous utilisons ce fichier qui date de 2013 et est donc incomplet : https://github.com/regardscitoyens/nosfinanceslocales_scraper/blob/master/data/locality/epci-au-01-01-2013.xls

kevinomics commented 8 years ago

La liste des epci manquants que j'ai joint est issu de la différence entre la liste de l'INSEE (ci-joint) et ceux présents dans le budget.

table-appartenance-geo-communes-14.zip

Disponible sur : http://www.insee.fr/fr/methodes/default.asp?page=zonages/intercommunalite.htm

fmassot commented 8 years ago

Merci pour le lien.

Je suis tombé sur un exemple intéressant : l'EPCI "CC du Provinois" est bien présent dans le fichier que nous utilisons mais aussi dans le votre, par contre il y a eu un changement de siren en 2014, une nouvelle commune a peut être été ajouté à l'EPCI par exemple.

Il faudrait donc consolider les siren des EPCI sur les différentes années pour être sur de tout récupérer. Une autre solution serait de crawler les listes des communes du site mais ça sera plus long.

kevinomics commented 8 years ago

Effectivement l'année 2013 a été forte en changement en ce qui concerne les EPCI, ce qui peut expliquer cette liste des EPCI manquants pour les budgets 2014.

Serait-il possible s'il vous plait de crawler uniquement l'année 2014 avec la liste INSEE 2014 ? pour pouvoir poursuivre mon étude au mieux

fmassot commented 8 years ago

Je pense mettre à jour le fichier des EPCI rapidement, les données devraient être mis à jour d'ici quelques jours maximum.

kevinomics commented 8 years ago

Merci beaucoup.

fmassot commented 8 years ago

j'ai ajouté un script qui va chercher les fichiers de l'insee et obtient la liste de tous les epci qui ont existé https://github.com/regardscitoyens/nosfinanceslocales_scraper/blob/master/bin/create_epci_csv.sh

le nouveau fichier http://www.nosfinanceslocales.fr/static/data/epci_all.csv contient plus de 1000 lignes de plus, j'ai pris au hasard une dizaine d'epci de ton fichier "epci manquant" et ils étaient tous présents dans le nouveau fichier.

tu me confirmes que c bon ?

kevinomics commented 8 years ago

Bonjour,

Excellent travail, il ne manque plus que 4 EPCI en 2014: 200041630 CA Charleville-Mézières/Sedan 200043156 CC Du Pays Rethelois 246600431 CC Vinça-Canigou 246800726 CA de Colmar

Mais j'ai vérifié sur internet, les données pour les 2 premiers ne sont pas disponibles, et pour les deux autres ils ne sont que partiellement disponibles (pas 2014 pour CC Vinça et pas 2014 ni 2013 pour Colmar).

Encore merci pour ton aide.

Au revoir.

fmassot commented 8 years ago

ok super :)

fmassot commented 8 years ago

@kevinomics tu pourrais également préciser le sujet de ton étude ? on est toujours intéressé par les réutilisations des données que nous collectons, n'hésite pas à nous tenir au courant et à nous envoyer ton étude à contact@regardscitoyens.org si c'est possible bien entendu :)

kevinomics commented 8 years ago

Je travaille actuellement sur les fonctions de dépenses des communes, dans un second temps j'aimerais renouveler le travail de Gilbert et Guengant (1998,2004) sur l'efficacité des politiques péréquatrices, c'est à dire étudier l'efficacité des différentes dotations en France en 2014 à réduire les inégalités de pouvoir d'achat entre les communes.

Bien entendu, si c'est possible, je vous enverrai mon travail.

kevinomics commented 7 years ago

Bonjour,

J'ai voulu fusionner les communes avec leur EPCI depuis 2008 jusqu'à 2011. Et il s'avère que j'ai 988 observations qui ne matched pas, notamment pour l'année 2009.

J'ai pris une observation au hasard (commune Lantillac - 56103 - siren EPCI 245614367), et il s'avère qu'elle cette commune ne matched pas uniquement en 2009 et elle n'est pas présente en 2009 dans la base initiale, alors qu'elle est disponible en consultation sur internet.

Étrange ?

​Bien à toi, Kévin ​ ​ Le 28 mars 2016 à 10:27, François Massot notifications@github.com a écrit :

@kevinomics https://github.com/kevinomics tu pourrais également préciser le sujet de ton étude ? on est toujours intéressé par les réutilisations des données que nous collectons, n'hésite pas à nous tenir au courant et à nous envoyer ton étude contact@regardscitoyens.org si c'est possible bien entendu :)

— You are receiving this because you were mentioned. Reply to this email directly or view it on GitHub https://github.com/regardscitoyens/nosfinanceslocales_scraper/issues/6#issuecomment-202298912

kevinomics commented 7 years ago

re-Bonjour,

Par ailleurs, serait-il possible s'il te plait de scraper le budget des EPCI à partir des table d'appartenances géographiques pour chaque année stp ?

Tables disponibles à partir de 2008 sur : https://www.insee.fr/fr/information/2028028

A titre d'exemple, la CC Hers et Garonne a été dissoute le 31/12/2010, mais le scaping a été fait avec une table d'appartenance supérieure à 2010, ainsi le budget de cet EPCI n'apparait pas dans les bases inférieures à 2011.

Bien à toi, Kévin

Le 9 décembre 2016 à 17:59, Kévin FOURREY kfourrey@gmail.com a écrit :

Bonjour,

J'ai voulu fusionner les communes avec leur EPCI depuis 2008 jusqu'à 2011. Et il s'avère que j'ai 988 observations qui ne matched pas, notamment pour l'année 2009.

J'ai pris une observation au hasard (commune Lantillac - 56103 - siren EPCI 245614367), et il s'avère qu'elle cette commune ne matched pas uniquement en 2009 et elle n'est pas présente en 2009 dans la base initiale, alors qu'elle est disponible en consultation sur internet.

Étrange ?

​Bien à toi, Kévin ​ ​ Le 28 mars 2016 à 10:27, François Massot notifications@github.com a écrit :

@kevinomics https://github.com/kevinomics tu pourrais également préciser le sujet de ton étude ? on est toujours intéressé par les réutilisations des données que nous collectons, n'hésite pas à nous tenir au courant et à nous envoyer ton étude contact@regardscitoyens.org si c'est possible bien entendu :)

— You are receiving this because you were mentioned. Reply to this email directly or view it on GitHub https://github.com/regardscitoyens/nosfinanceslocales_scraper/issues/6#issuecomment-202298912

fmassot commented 7 years ago

Hello, dsl pour le délai de réponse....

utiliser ces tables est une tres bonne idee, par contre je sais pas quand je vais intégrer ça, peut être fin janvier ou plutôt février. Si c'est trop short pour toi, tu peux tenter une pull request pour qui ajouter les epci manquantes dans le fichier https://github.com/regardscitoyens/nosfinanceslocales_scraper/blob/master/data/locality/epci.csv

et apres je mets à jour les données dans la foulée

kevinomics commented 7 years ago

Bonjour François,

Je peux éventuellement attendre fin janvier, début février, il faut que je revois avec mon collègue de l'OCDE sur le timeline.

Quoiqu'il en soit, si j'ai bien compris le principe du pull request: j'ajoute dans le dossier dont tu m'as envoyé le lien les EPCI manquants, puis à partir d'un programme disponible sur Python je scrape les données. Le problème c'est que Python et moi ça fait deux... j'ai peut être un collègue dans mon labo qui va pouvoir m'aider, encore faut-il qu'il soit disponible...

Enfin bon, je ne vais retravailler sur ce sujet avant deux semaines, et je crois que mon collègue de l'OCDE va pouvoir attendre début février...

Merci, Kevin

Le 1 janvier 2017 à 23:58, François Massot notifications@github.com a écrit :

Hello, dsl pour le délai de réponse....

utiliser ces tables est une tres bonne idee, par contre je sais pas quand je vais intégrer ça, peut être fin janvier ou plutôt février. Si c'est trop short pour toi, tu peux tenter une pull request pour qui ajouter les epci manquantes dans le fichier https://github.com/regardscitoyens/ nosfinanceslocales_scraper/blob/master/data/locality/epci.csv

— You are receiving this because you were mentioned. Reply to this email directly, view it on GitHub https://github.com/regardscitoyens/nosfinanceslocales_scraper/issues/6#issuecomment-269923472, or mute the thread https://github.com/notifications/unsubscribe-auth/ARHbP7Yqn0X_IQvv_j4lCH2d9PYTHpW1ks5rOC-ngaJpZM4H0bts .

fmassot commented 7 years ago

A priori pas besoin de faire tourner python :)

La première chose à faire est de forker (https://help.github.com/articles/fork-a-repo/) ce dépot et de compléter le fichier https://github.com/regardscitoyens/nosfinanceslocales_scraper/blob/master/data/locality/epci.csv

Ensuite tu commites sur ton dépot perso et tu fait une pull request : https://help.github.com/articles/about-pull-requests/

Pour le scrapping et la mise à jour des données je m'en occuperai :)

kevinomics commented 7 years ago

D'accord, merci pour les informations. Je vais attendre que tu scrappes.

Merci beaucoup, Kevin

Le 3 janvier 2017 à 10:18, François Massot notifications@github.com a écrit :

A priori pas besoin de faire tourner python :)

La première chose à faire est de forker (https://help.github.com/ articles/fork-a-repo/) ce dépot et de compléter le fichier https://github.com/regardscitoyens/nosfinanceslocales_scraper/ blob/master/data/locality/epci.csv

Ensuite tu commites sur ton dépot perso et tu fait une pull request : https://help.github.com/articles/about-pull-requests/

Pour le scrapping et la mise à jour des données je m'en occuperai :)

— You are receiving this because you were mentioned. Reply to this email directly, view it on GitHub https://github.com/regardscitoyens/nosfinanceslocales_scraper/issues/6#issuecomment-270074437, or mute the thread https://github.com/notifications/unsubscribe-auth/ARHbP63fsD4iBwLl6hgi1Sm5Q-9jNy8Qks5rOhJLgaJpZM4H0bts .

fmassot commented 7 years ago

Mais du coup tu comptes mettre a jour le fichier csv ou pas ?

kevinomics commented 7 years ago

J'espère pouvoir le faire la semaine prochaine

Le 10 janvier 2017 à 18:14, François Massot notifications@github.com a écrit :

Mais du coup tu comptes mettre a jour le fichier csv ou pas ?

— You are receiving this because you were mentioned. Reply to this email directly, view it on GitHub https://github.com/regardscitoyens/nosfinanceslocales_scraper/issues/6#issuecomment-271636444, or mute the thread https://github.com/notifications/unsubscribe-auth/ARHbP0WF80fx0mXQ7YzPoQ8JKeUJgAfvks5rQ7xmgaJpZM4H0bts .

fmassot commented 7 years ago

Hello @kevinomics, j'ai du corriger une petite erreur dans ton fichier : les code départements sont sur 3 chiffes et j'ai du rajouté un 0 devant ceux qui n'avaient que 2 chiffres.

Sinon voici le nouveau fichier http://www.nosfinanceslocales.fr/static/data/epci_all_new.csv

Tu peux regarder si ça te convient mieux ? En tout il y a 128 lignes de plus

kevinomics commented 7 years ago

Bonjour @fmassot,

A vrai dire ça a plutôt empiré. A titre d'exemple, en 2011, j'obtenais 554 municipalités qui ne correspondaient pas avec leur EPCI, maintenant j'en ai 1105....

J'ai alors regardé pour quelques communes dont le budget EPCI est manquant, et il s'avère que leurs références apparaissent bien dans le fichier que j'ai envoyé. Et j'ai regardé sur le site finance.gouv.fr et leur budget EPCI apparait bien.

Je pense donc que l'erreur doit être dans le sraping. Me confirmes-tu ?

fmassot commented 7 years ago

Ok je vais regarder ça ce soir, tu peux me donner les quelques exemples que tu as regardé ?

kevinomics commented 7 years ago

En voici trois: 200006286, 200017994, 200027548

2017-02-03 14:32 GMT+01:00 François Massot notifications@github.com:

Ok je vais regarder ça ce soir, tu peux me donner les quelques exemples que tu as regardé ?

— You are receiving this because you were mentioned. Reply to this email directly, view it on GitHub https://github.com/regardscitoyens/nosfinanceslocales_scraper/issues/6#issuecomment-277247188, or mute the thread https://github.com/notifications/unsubscribe-auth/ARHbPxuWl5NjVtL-3hsRm1Xk1QfGHsqYks5rYyxkgaJpZM4H0bts .

fmassot commented 7 years ago

je viens de comprendre pourquoi on a perdu des données ! en fait une epci peut être sur plusieurs département, du coup jai mis des siren en doublon mais sur des départements différents. Et comme tu as enlevé des doublons de siren, on a perdu des données. Par ailleurs, j'ai noté aussi que pour le siren 200027548, le département n'est pas bon, il faut mettre 102 et non 103

kevinomics commented 7 years ago

Bonjour,

Ok, je crée un pull request pour obtenir le fichier avec l'ensemble des EPCI, ainsi que leur "doublon département". Ce qui ajoute 108 observations. Pour ce que est du siren 200027548. Je viens de me rendre compte que la Guyanne (973) est codée 102 et que la Martinique (972) est codée 103. J'ai donc rectifié.

Le 3 février 2017 à 22:52, François Massot notifications@github.com a écrit :

je viens de comprendre pourquoi on a perdu des données ! en fait une epci peut être sur plusieurs département, du coup jai mis des siren en doublon mais sur des départements différents. Et comme tu as enlevé des doublons de siren, on a perdu des données. Par ailleurs, j'ai noté aussi que pour le siren 200027548, le département n'est pas bon, il faut mettre 102 et non 103

— You are receiving this because you were mentioned. Reply to this email directly, view it on GitHub https://github.com/regardscitoyens/nosfinanceslocales_scraper/issues/6#issuecomment-277372365, or mute the thread https://github.com/notifications/unsubscribe-auth/ARHbP6l8VKKwgd8mqmPSoKj7Zvzw6_Piks5rY6GzgaJpZM4H0bts .

fmassot commented 7 years ago

J'ai mergé ta PR, lancé le crawl et mis à jour le fichier http://www.nosfinanceslocales.fr/static/data/epci_all_new.csv

Il y a 22 229 lignes dans le nouveau fichier, 21 726 dans l'ancien.

fmassot commented 7 years ago

ah sinon au cas où tu fasses une nouvelle PR, pense bien à mettre à jour ton dépot git et il faut aussi que tu gardes le même format pour le fichier csv (virgule comme séparteur)

kevinomics commented 7 years ago

Bonjour François, J'ai utilisé la nouvelle base et c'est beaucoup mieux :)

Bon après le site finance.gouv.fr n'est pas parfait. Par exemple, pour 2011, il y a 2 EPCI dont les budgets ne sont pas donnés alors qu'ils sont bien présents l'année d'avant et l'année d'après (240200477 et 245100565). De plus il y a une confusion entre le code Martinique et Guyane, il font donc y faire attention quand on fusionne des tables....

Par ailleurs, pour fusionner les tables communales et EPCI, il faut une table annexe fournit par l'INSEE qui donne l'EPCI de chaque commune à partir de 2008. Cette table contient quelques erreurs, notamment en donnant le siren EPCI à une commune alors que celle-ci le rejoint que l'année suivante (17 EPCI en 2011 dans ce cas).

Est-ce que tu saurais comment se passer de cette table INSEE ? Autrement d'avoir le siren EPCI de chaque commune (dans la base communale) quand tu scrappes ? Cela permettrait d'éviter les erreurs de la table annexe, et d'avoir les références EPCI dès 2000. (Ce n'est pas urgent, mais cela pourrait m'être utile dans le futur, et être utile pour d'autres citoyens :) )

Merci bien pour ton aide

fmassot commented 7 years ago

En fait j'ai ouvert une issue exprès pour ça :) https://github.com/regardscitoyens/nosfinanceslocales_scraper/issues/10

Maintenant j'ai vu que le site avait complètement changé et que c'est beaucoup plus difficile de récupérer les infos qu'avant... alors soit c'est de l'incompétence totale, soit c'est volontaire...

fmassot commented 7 years ago

@kevinomics je vais fermer l'issue vu nos derniers échanges