Closed odorie closed 7 years ago
Problème pas simple du tout... car il me semble qu'il y a en fait 2 problèmes: le libellé et sa graphie (capitalisation/accentuation/abbréviation).
Mettons la graphie de côté.
Pour la graphie, là, les sources accentuées et capitalisées sont les libellés du cadastre extraits par BANO et ceux des communes. Pour le reste c'est obtenu par traitement automatique, traitement qu'on peut appliquer en sortie pour diffusion, mais à mon avis pas en entrée car cela ne constitue pas une source.
Pour les graphies issues de DGFiP/BANO, il ne faudrait les utiliser que si le libellé est identique, c'est à dire uniquement pour changer la capitalisation et l'accentuation (désabréviation ?), mais rien d'autre. C'est peut être quelque chose à faire en post-init et pas pendant l'init, je vais toutefois regarder si il est possible de vérifier que le upper(unaccent(libelle)) est identique avant de l'appliquer.
Pour la deuxième partie... je pense qu'il ne faut pas garder les calculs de distance par trigramme dans la base. Par contre, il me semble utile de conserver les "alias" c'est à dire les différentes variations du libellé qu'on a dans les sources, name ne contenant au final que celui qui a été retenu.
Je ferme ce ticket pour en ouvrir d'autres plus précis dans le dépôt d'init https://github.com/BaseAdresseNationale/donnees-initiales/issues
Pour faire suite à la réunion Ban Team d'hier et à la comparaison des noms des voies BAN/IGN/La Poste/DGFIP/BANO, voici 2 propositions à discuter ... :