Doublons - Githubissues

johanricher commented 1 year ago

User story

Je suis Un gestionnaire de catalogue. Un administrateur ministériel des données.

Je veux En tant que gestionnaire, j'ai un rôle de coordination. Je souhaite apprécier mon patrimoine de données au regard des besoins de standardisation et d'agrégation, d'ouverture ou plus simplement de sélection des jeux de données les plus pertinents pour mon usage. Je souhaite pouvoir évaluer la qualité de mon patrimoine et en promouvoir l'amélioration :

à partir d'indicateurs et/ou de visualisations basés sur les métadonnées,
en identifiant les jeux de données dont les métadonnées gagneraient à être complétées, actualisées, consolidées, etc.

Je peux [Par exemple depuis l'univers PPRN https://github.com/ecolabdata/ecospheres-metadata/issues/5 (base de travail de l'itération 2)]

[Distinguer mes jeux de données] Connaître les jeux de données dont le titre est exactement le même.

Besoins associés (du plus au moins évident)

11- Doublon : identifier les doublons ou jeux de données similaires selon un ou plusieurs critères
22- Doublon : identifier les doublons ou jeux de données similaires selont un ou plusieurs critères
24- S'assurer que les producteurs utilisent le même encodage pour les données agrégées depuis différentes sources
18- Avoir confiance en la donnée produite grâce à un référentiel règlementaire reconnu

Implémentation

Objectif de l'indicateur : identifier les doublons ou jeux de données similaires selon un ou plusieurs critères

Critères :

doublon = mêmes noms (= valeurs du champ title strictement égales)
doublon = mêmes noms et mêmes dates de mise à jour
doublon = score de proximité élevé entre noms, dates de mise à jour

Visualisation :

Pourcentage de doublons identifiés
Liste de doublons (1 colonne nom du jeux de données ; 1 colonne nombre de doublons identifiés)

Possible d'implémenter les critères sous la forme d'indicateurs distincts et/ou par itérations successives

Métadonnées utilisées

Champ(s) ciblé(s) : title, dcterms:title

Remarques

Après première production de l'indicateur

Comment l'indicateur en l'état répond aux besoins ?

Aujourd'hui, l'indicateur donne lieu à deux visualisations :

Une table des jeux de données doublons, avec le nombre de jeux de données identiques et un lien vers la le tableau de bord filtré sur le nom des jeux de données doublons
Le nombre de jeux de données doublons

Ceux deux visualisations sont créées à partir d'une comparaison stricte sur le titre du jeu de données. Les usagers peuvent alors identifier les doublons stricts au niveau du titre. En cliquant sur le titre, ils peuvent filtrer les indicateurs de l'outil sur celui-ci et ainsi identifier les possibles causes des doublons : issus de deux catalogues différents ? possèdent des propriétaires différents ?

Comment pourrait-il être amélioré (préconisations) ?

Un des cas d'usage de besoins associés était de pouvoir identifier les jeux de données similaires (et non identiques). Exemple : il existe plusieurs jeux de données pour le PPR Saône-et-Loire, mais dont le nom diffère légèrement.

Utiliser un score de proximité entre les noms (avec un seuil pour les qualifier de doublons) et non une comparaison stricte (ou un indicateur synthétique composé de plusieurs variables) pour identifier les quasi-doublons
La solution q idéale serait de pouvoir intégrer dans l'outil une fonctionnalité de “vocabulary mismatch” ou plus largement de Natural Langage Processing.

qloridant commented 1 year ago

Premier test sur Apache Superset doublons-2023-10-24T10-45-39 125Z

Thesauruv commented 11 months ago

Lorsque je rentre le nom d’un jeu de donnée associé à un doublon dans la barre de recherche, par exemple “Plan de Prevention des Risques Naturels de la commune de Beynac-Et-Cazenac”, ce jeu de donnée apparaît 4 fois dans la liste des doublons, je ne le ferais apparaître qu’une seul fois compte tenu que nous avons déjà la colonne “Nombre de doublons”. Concernant l’indicateur à la droite, je présenterais davantage “le nombre de jeux de données présentant des doublons”, ce qui dans le cas précédent nous ramènerait à la valeur de 1.

Thesauruv commented 11 months ago

Je supprimerais également la colonne "univers" de la table, cette information apparaît déjà plus haut dans le dashboard.

clementmandron commented 11 months ago

@qloridant voici ce qu'on a identifié lors du point de vendredi. Cela te semble-t-il ok ?

Garder les jeux de données doublons =/= doublons purs (rien à faire)
Ajouter lien sur chaque JDD qui mène au tableau de bord filtré sur le jdd (avec le moteur de recherche)
Ajouter au tableau une colonne : date de mise à jour

Je suggère de garder la construction d'un indicateur synthétique (fuzzy, ou en lien avec d'autres cirtères dans les recommandations pour le moment - voir partie Remarques du ticket) poke @johanricher @Thesauruv

qloridant commented 11 months ago

Done ! Je trouve ça très stylé et ça met bien en avant le potentiel du moteur de recherche

ecolabdata / ecospheres-metadata