gip-inclusion / data-inclusion

data·inclusion aggrège les données de l'insertion sociale et professionnelle
https://api.data.inclusion.beta.gouv.fr/api/v0/docs
MIT License
6 stars 1 forks source link

feat(pipeline): refactor geocoding orchestration #270

Closed vmttn closed 1 month ago

vmttn commented 2 months ago

Ajout d'une fonction plpython qui permet de gérer le géocodage avec dbt directement en db. Création d'un model dédié pour géocoder de manière incrémentale. Plus de détails en commentaires de commit

vmttn commented 2 months ago
vmttn commented 1 month ago

j'ai pris en compte tes retours @vperron. C'est fonctionnel en staging

vmttn commented 1 month ago

J'ai modifié pour permettre le regéocodage des adresses qui ont eu un résultat nul + un unit_test case

vperron commented 1 month ago

On a oublié potentiellement un aspect, qui serait de faire des full refresh du geocodage une fois tous les ... 12 mois par exemple. Mais bon je suis sur que d'ici un an on y aura retouché, donc...

L'idée est de compter sur la BAN pour devenir plus complète / meilleure dans ses recherches et que potentiellement sa résolution devient plus précise (faisant potentiellement passer des geocodages enregistrés mais avec un score de, par exemple, 0.3 en un résultat avec un meilleur score et une meilleure cohérence)