gip-inclusion / data-inclusion

data·inclusion aggrège les données de l'insertion sociale et professionnelle
https://api.data.inclusion.beta.gouv.fr/api/v0/docs
MIT License
6 stars 1 forks source link

feat(pipeline): first trials at duplicates identification #295

Closed YannickPassa closed 3 weeks ago

YannickPassa commented 1 month ago

Notebook avec les premières explorations autour de la déduplication. Dans le premier commit j'essaie de créer un jeu de données test à partir des données FT.

Dans un 2nd temps je vais ajouter des structures de l'IAE afin d'avoir un fichier de test + générique.

vmttn commented 1 month ago

(j'ai converti en draft, car les PRs en ready for review sont déployées en staging)

vperron commented 3 weeks ago

Je clôture cette PR pour l'instant, je pense qu'on la rouvrira si l'on souhaite récupérer et retravailler le Notebook correspondant.

Trop de PR ouvertes ^^