okfnfr / dada-france-authorities

Jeux de données des autorités administratives utilisées sur le site dada
1 stars 1 forks source link

Dédoublonner les noms des autorités. #2

Closed pzwsk closed 4 years ago

pzwsk commented 5 years ago

Ensuite, j'ai continué à bosser sur l'upload des autorités. C'est vraiment pas génial, parce qu'alaveteli utilise le nom des autorités comme index. Et après une poignée de tentatives infructueuses, j'ai réalisé que notre problème, c'est qu'on a un paquet de doublons. 4039 pour être précis (voir PJ, où j'ai juste copié les 50 premières).

Il y'a de vrais doublons, par exemple ligne 23-24 du fichier CSV, mais aussi de "faux doublons" (des autorités apparement différentes, mais avec le même nom dans notre fichier), ex: lignes 2 et 3, qui sont dans 2 villes différentes.

Pierre, comme tu as assemblé le fichier, tu vois sans doute mieux d'où ça vient?

Je vois plusieurs solutions:

pzwsk commented 5 years ago

Hello @laurentS

Tu pourrais me partager ton jupyter notebook comme exemple.

J'ai une erreur à la première ligne read_csv ...

Merci beaucoup

laurentS commented 5 years ago

Oui, tout est dans la PR ici: https://github.com/okfnfr/dada-france-authorities/pull/4

pzwsk commented 4 years ago

Résultat ici https://github.com/okfnfr/dada-france-authorities/blob/master/deduplicates.csv

J'ai ajouté les noms des communes dans name quand celles-ci n'était pas indiquées et ensuite ajouté les 8 derniers chiffres de #id qui correspondent au numéro INSEE de la commune + nombre incrémental.

Tout est dans le jupyter notebook ...

Reste à faire :