ban-archive / ban

Méta-dépôt des travaux autour de la Base Adresse Nationale
6 stars 2 forks source link

Ligne doublon #10

Open bambidotexe opened 6 years ago

bambidotexe commented 6 years ago

Bonjour, nous avons remarqué quelques doublons.

Quel logique adoptez pour déterminez le bon id a renvoyer pour une recherche?

example d'id doublon: ADRNIVX_0000000312917963 ADRNIVX_0000000312917964 ADRNIVX_0000000312917965

ebuard commented 6 years ago

Bonjour.

Pour bien localiser le problème, pourriez-vous préciser où avez -vous vu ces doublons:

Logiclogique commented 6 years ago

Bonjour, ADRNIVX_0000000272754800 ADRNIVX_0000000272757353 Licence gratuite de repartage. Téléchargé les fichiers CSV sur data.gouv -> Les deux lignes sont identiques sauf l'ID, les variables de géolocalisation (X, Y, etc.). Pourquoi il y a-t-il ce doublonnage ? Je pense que ce ne sont pas les seuls donc quelle ligne dois-je retenir pour l'adresse en question ?

Quelles sont les sources des données de la BAN ? Merci, cordialement,

ebuard commented 6 years ago

Bonjour. Ce sont les mêmes adresses (68 bd Jules Durand) mais leur type de localisation est différent:

La première position est donc plus précise, mais sur les exports csv de adresse.data.gouv nous ne connaissons effectivement pas cette information. N'hésitez pas à nous remonter toute question de doublons avec les identifiants concernés.

Cordialement;

Logiclogique commented 6 years ago

Bonjour Ebuard, Je vous ai envoyé un fichier avec un certain nombre d'adresses en doublons (voire plus!) Merci, cdt,

Logiclogique commented 6 years ago

Serait-il possible d'avoir un retour ? Merci, cordialement,

odorie commented 6 years ago

EBuard a dû vous adresser une analyse des premières lignes du fichier en début de semaine. Nous avons l'impression que vous ne tenez pas compte des indices de répétition (A, B, BIS, TER ...). Dans cette version de la BAN, il y a cependant des vrais doublons car nous conservons une adresse pour chaque parcelle DGFIP. Donc quand un adresse correspond à n parcelles, il y a n adresses dans la base. De plus vous n'avez pas les informations pour conserver la meilleure position. Dans la prochaine version de la BAN, un des exports devrait conserver la meilleure position (il n'y aura plus de doublons). Avec la version actuelle, il faudrait tenir compte des indices de répétitions et prendre une des adresses au hasard pour les filtrer les doublons (par exemple celle qui a le plus grand identifiant). Elle ne devrait normalement pas être très loin des autres.