etalab / ban-data

Projet de suivi des données BAN et des scripts de traitements associés
20 stars 5 forks source link

Bon sang ! SEN ne signifie pas forcément SENTIER ! #73

Open parville opened 8 years ago

parville commented 8 years ago

La ville de 76 Saint Léger du Bourg Denis a nommé plusieurs voies "sente ..." et les données BAN proposent systématiquement "Sentier ...."

C'est un vrai problème pour les secours que cette faiblesse majeure du référentiel !

frodrigo commented 8 years ago

https://github.com/etalab/ban-data/blob/0fe565418fbdc5490441b9d22c5a410979b11fd9/scripts/clean.sql#L137

La désabréviation ne peut pas être faite dans tous les cas en utilisant /data/abbreviations.csv, car il y a plusieurs chaine avec la même abréviation.

parville commented 8 years ago

Et pareil au Houlme ! SENTE DEVEAUX 76770 LE HOULME => BAN DIT "SENTIER DEVEAUX"

parville commented 8 years ago

Et aussi SENTE DE LA TEINTURERIE HAMEAU DE ROVILLE 76680 ST SAENS

cquest commented 7 years ago

https://github.com/etalab/ban-data/blob/0fe565418fbdc5490441b9d22c5a410979b11fd9/scripts/clean.sql#L137 calcule la version abrégée, elle ne fait pas de désabréviation.

C'est bien 'SENTE' dans les données Poste.

Sur le seul département 76, il y a 3203 incohérences entre nom_voie et nom_afnor sur la livraison du 22/1/2017.

Problème identique en "EN" désabrégé systématiquement en "ENCEINTE": https://github.com/etalab/ban-data/issues/17

FrancoisVIGN commented 7 years ago

Cela provient d'une désabréviation automatique qui est difficile, comme le précise @frodrigo . Travaillant sur d'autres points d'amélioration, la mise en place de la nouvelle base et des processus correspondant, nous laissons le soin aux utilisateurs du Guichet Adresse de trancher entre le nom_afnor et le nom_voie, l'ordinateur ne connaissant pas la vérité terrain. Je précise que le nom_afnor est le nom de la voie selon les normes afnor. une erreur peut cependant y être présente.

cquest commented 7 years ago

En attendant une remise au propre au cas par cas qui prendre des années, La Poste a des libellés non abrégés qu'il faudrait utiliser pour lever l'ambiguité plutôt que de conserver une désabréviation automatique qu'on sait problématique. Exploitons toutes les données à notre disposition.

odorie commented 7 years ago

La chaine de livraison IGN vient d'être améliorée pour désabréger correctement les cas ambigus en s'aidant du nom afnor (origine La Poste)

parville commented 7 years ago

Que voilà une bonne nouvelle ! Je la sentier venir 👍