Open jfgigand opened 8 years ago
Au département de la Seine-Saint-Denis nous avons un besoin régulier de géocodage de fichiers contenant des adresses. Ces fichiers tableurs sont issus le plus souvent de nos Directions métiers, et nous les rendons géographiques pour les proposer sur notre plateforme géographiqe Géoportail93 (http://geoportail93.fr).
Pour ce faire, nous avons développer un outil de géocodage directement intégré sur notre portail cartographique qui permet d'importer un fichier CSV, de sélectionner les champs composant l'adresse compléte (n°+typede voie+nom de la voie+code ville INSEE/postal), de le géocoder et de visualiser le résultat directement sur l'interface cartographique.
Notre géocodeur utilise 5 référentiels adresses : BD Adresse, RIL INSEE, BAN, BANO et Cadastre DGFIP. Une adresse est donc géocodée 5 fois avec chacun de ces référentiels ; le référentiel avec le meilleur géocodage est proposé comme résultat. Un outil de correction interractif permet de vérifier le positionnement des résultats et de corriger les adresses mal géocodées pour les re-géocoder.
Les adresses que nous utilisont se limitent le plus souvent à la Seine-Saint-Denis, ne comportent pas de CEDEX, ni de lieux-dits, exceptées quelques adresses "La Plaine Saint-Denis" (communee de Saint-Denis).
Notre solution est satisfaisante pour de petits jeux de données (inférieur à 3000 lignes), au delà, le temps nécessaire explose dû au 5 processus de géocodage par adresse. La précision du géocodage était prioritaire sur le délai de traitement. Pour les gros jeux de données, nous utilisons le géocodeur de adresse.data.gouv.fr
@davdel avez-vous des stats sur le "meilleur" géocodage ? Quelle moteur utilisez-vous pour rechercher une adresse dans les différents référentiels ?
Les résultats dépendent en effet de la combinaison entre la source à géocoder, le référentiel et l'algo qui doit faire le rapprochement.
@cquest de part nos expériences avec les différentes bases adresses, on a établit un ordre de préférence des référentiels : RIL > BD ADRESSE > BANO > BAN > CADASTRE. Le même algo d'appariement est utilisé pour faire les 5 géocodages, et ensuite on compare les scores de géocodage : si le 1er géocodage est satisfaisant, les autres ne sont pas gardés. Sinon, on continue. Le RIL est bon mais ne couvre pas toutes nos communes, donc on passe sur BD ADRESSE qui est plutôt bon mais incomplet, donc on passe ensuite sur BANO où on trouve + d'adresse ou écrites différemment. Enfin, j'ai construit une couche adresse CADASTRE/MAJIC avec le centroide des parcelles qui reprend l'adresse du terrain (s'il est nu) ou les adresses des bâtiments (si construit). Me permet de débusquer de nouvelles adresses qui n'existe encore pas dans les autres référentiels. J'ai developpé ça en PHP. Les recherches de candidats/appariements/approximations syntaxiques se font via un mix de SQL et PHP. ça n'a pas été développé pour les perfs, mais être sûr de ce qui se passe sous le capot, car j'en avais marre de voir des adresses sortir du chapeau des géocodeurs classiques, alors qu'elles n'ont rien à voir...
Le code PHP est dispo quelque qu'on puisse jeter un oeil ? Il y a toujours de bonnes idées à reprendre pour améliorer les outils existants ;)
Je suis étonné de voir BD ADRESSE utilisé puis à nouveau la BAN, les données sont à la base les même (ou alors c'est la BAN en version ODbL et là il y a des traitements complémentaires utiles).
oui, je pourrai publier mon géocodeur, je dois encore l'isoler du code Géoportail93 pour en faire une appli à part. J'ai fait l'erreur de vouloir tout mettre ensemble et le portail carto et le géocodeurs sont inter-mélés. Je voudrais notamment en faire une version en ligne de commande pour s'économiser un serveur web (et ses limites en temps de réponse et mutalisation des ressources) pour que PHP tape PostGreSQL directement, en batch et en local, en lisant le CSV à géocoder. J'ai fait des test dans ce sens là, c bien + rapide.
Bonjour,
Le Tour de France de géocodage a pour objectif de dresser un état des lieux sur les pratiques et insatisfactions sur le géocodage au sein des collectivités/EPCI et plus généralement des administrations publiques en France.
La plateforme GitHub a été choisie pour les échanges, en se servant des "issues" comme d'un forum. Nous invitons les acteurs et consommateurs de géocodage à s'exprimer ci-dessous, par retour de commentaires.
Dans quel contexte métier réalisez-vous du géocodage ?
Quelles sont les principales insatisfactions ?
Cliquer ici pour le questionnaire complet