BaseAdresseNationale / adresses-cadastre

Adresses ouvertes extraites du cadastre
https://www.data.gouv.fr/fr/datasets/adresses-extraites-du-cadastre/
MIT License
9 stars 3 forks source link

Libellés très différents de FANTOIR #3

Open cquest opened 6 years ago

cquest commented 6 years ago

Quelques exemples sur commune n°89304

  fantoir  |                 nom                  |            nom_fantoir            | ?column?  
-----------+--------------------------------------+-----------------------------------+-----------
 893040140 | Chemin de Vauru                      | CHEMIN DE LADUZ                   |  0.545455
 893040139 | Chemin du Haut des Chailloux         | CHEMIN DU HAUT DE BLEURY          |  0.529412
 893040041 | Chemin du à Crot Bréchot             | CHEMIN DU CROT BRECHET            |  0.428571
 893040356 | Chemin des Grands Champs             | CHEMIN DES GRANDS SABLONS         |  0.419355
 893040030 | Chemin des Consises l'Horigny        | CHEMIN DES CONCISES THORIGNY      |  0.382353
 893040380 | Chemin des Vignes                    | CHEMIN DES VIGNOTS                |  0.285714
 893040360 | Route de Saint-aubin Route de Poilly | ROUTE DE SAINT AUBIN              |      0.25
 893040090 | Chemin des Forts Noyers              | CHEMINEMENT DES FORTS NOYERS      |  0.233333
 893040050 | Chemin de l'Egeoir Chaude            | CHEMIN DE L EGEOIRE CHAUDE        |      0.12
 893040040 | Chemin du Crot Bignon                | CHEMIN DU CROT DE BIGNON          | 0.0869565
jdesboeufs commented 5 years ago

Quel est l'algorithme utilisé pour la distance ?

cquest commented 5 years ago

De mémoire, des trigrammes... pg_trgm

jdesboeufs commented 5 years ago

Il y a des cas d'erreurs flagrants en effet, par contre je ne comprends pas trop les derniers. Dans le script on utilise Jaro-Winkler, je pense qu'on devrait coupler plusieurs algorithmes.

cquest commented 5 years ago

Les très différents sont en premier, j'ai mis tout ce qui ne matchait pas et effectivement sur les derniers il n'y a qu'une lettre ou deux lettres de différentes.