BaseAdresseNationale / api-geocode

API haute performance de géocodage CSV
MIT License
10 stars 3 forks source link

Incohérence géocodage simple et CSV #21

Closed jdesboeufs closed 1 year ago

jdesboeufs commented 3 years ago

Voici un signalement effectué par un utilisateur


Je reviens vers toi suite à quelques soucis rencontrés avec la BAN et son API de géocodage en CSV, si par hasard tu aurais plus d’explications ou pourrait me rediriger vers un interlocuteur ?

1/ Quand j’utilise un fichier CSV ultra basique, tel que : addr_fulltext "67 rue Barbès, 94200 Ivry-sur-Seine"

$ curl -X POST -F data=@search.csv -F columns=addr_fulltext -F result_columns=result_id -F result_columns=result_street https://api-adresse.data.gouv.fr/search/csv/ addr_fulltext,result_id,result_street 67 rue Barbès 94200 Ivry-sur-Seine,94041_0610_00067,

Le champ « result_street » n’est pas rempli et semble inversé avec le « result_name » (qui lui est rempli avec uniquement le nom de la rue et sans numéro, contrairement à l’API JSON) ?

2/ Quand j’utilise un fichier CSV un peu plus élaboré incluant le numéro INSEE de la ville : addr_fulltext,addr_insee "67 rue Barbès, 94200 Ivry-sur-Seine",94041

J’ai des résultats complètement différents : addr_fulltext,addr_insee,result_id,result_street 67 rue Barbès 94200 Ivry-sur-Seine,94041,94041_6170_00067,

L’identifiant BAN matchée devient le « 67 rue Molière », toujours à Ivry-sur-Seine, contrairement au bon rapprochement fait dans le premier cas.

En te remerciant par avance, Bonne journée,

BastienGauthier commented 1 year ago

Bonjour ! Pour aider à identifier le problème, je voulais dire que j'ai un problème similaire avec un comportement assez curieux. J'ai un fichier de 320k adresses à géocoder. Lorsque j'envoie les 10-15 premières adresses dans l'API search/csv pour tester, aucun soucis. Je retombe sur les résultats de l'interface graphique et de l'API unitaire. Lorsque j'envoie mon fichier complet (17Mo), j'ai mon résultats sur toutes les adresses MAIS les résultats sont très suspects : les scores sont très faibles (<0.2) dans la plupart des cas, et en particulier les premières lignes déjà testées retournent des choses très différentes de ce qu'il y avait lors du test initial.

Si la correction n'est pas simple, je suis aussi preneur s'il y a une bonne pratique, par exemple s'il faut découper le fichier en 10k lignes max, ou le pré-traiter pour n'utiliser qu'une colonne...etc.

jdesboeufs commented 1 year ago

Si le score est faible c'est probablement lié aux données. Êtes-vous sûr que les colonnes pour construire l'adresse sont indiquées correctement ?

BastienGauthier commented 1 year ago

Plutôt sûr oui, puisque j'ai simplement enlevé des lignes au grand fichier pour faire mon fichier de test de quelques lignes.

BastienGauthier commented 1 year ago

Pour info, j'ai refait tourner le même appel ce matin (avec un .bat, donc même chose vraiment, à part le dossier d'arrivée), et cette fois j'ai eu de bons résultats.