ecolabdata / ecospheres-metadata

Visualisation des métadonnées moissonnées dans Ecosphères
3 stars 1 forks source link

Doublons #2

Closed johanricher closed 10 months ago

johanricher commented 1 year ago

User story

Je suis Un gestionnaire de catalogue. Un administrateur ministériel des données.

Je veux En tant que gestionnaire, j'ai un rôle de coordination. Je souhaite apprécier mon patrimoine de données au regard des besoins de standardisation et d'agrégation, d'ouverture ou plus simplement de sélection des jeux de données les plus pertinents pour mon usage. Je souhaite pouvoir évaluer la qualité de mon patrimoine et en promouvoir l'amélioration :

Je peux [Par exemple depuis l'univers PPRN https://github.com/ecolabdata/ecospheres-metadata/issues/5 (base de travail de l'itération 2)]

[Distinguer mes jeux de données] Connaître les jeux de données dont le titre est exactement le même.

Besoins associés (du plus au moins évident)

Implémentation

Objectif de l'indicateur : identifier les doublons ou jeux de données similaires selon un ou plusieurs critères

Critères :

Visualisation :

Possible d'implémenter les critères sous la forme d'indicateurs distincts et/ou par itérations successives

Métadonnées utilisées

Champ(s) ciblé(s) : title, dcterms:title

Remarques

Après première production de l'indicateur

Comment l'indicateur en l'état répond aux besoins ?

Aujourd'hui, l'indicateur donne lieu à deux visualisations :

  1. Une table des jeux de données doublons, avec le nombre de jeux de données identiques et un lien vers la le tableau de bord filtré sur le nom des jeux de données doublons
  2. Le nombre de jeux de données doublons

Ceux deux visualisations sont créées à partir d'une comparaison stricte sur le titre du jeu de données. Les usagers peuvent alors identifier les doublons stricts au niveau du titre. En cliquant sur le titre, ils peuvent filtrer les indicateurs de l'outil sur celui-ci et ainsi identifier les possibles causes des doublons : issus de deux catalogues différents ? possèdent des propriétaires différents ?

Comment pourrait-il être amélioré (préconisations) ?

Un des cas d'usage de besoins associés était de pouvoir identifier les jeux de données similaires (et non identiques). Exemple : il existe plusieurs jeux de données pour le PPR Saône-et-Loire, mais dont le nom diffère légèrement.

  1. Utiliser un score de proximité entre les noms (avec un seuil pour les qualifier de doublons) et non une comparaison stricte (ou un indicateur synthétique composé de plusieurs variables) pour identifier les quasi-doublons
  2. La solution q idéale serait de pouvoir intégrer dans l'outil une fonctionnalité de “vocabulary mismatch” ou plus largement de Natural Langage Processing.
qloridant commented 1 year ago

Premier test sur Apache Superset doublons-2023-10-24T10-45-39 125Z

Thesauruv commented 11 months ago

Lorsque je rentre le nom d’un jeu de donnée associé à un doublon dans la barre de recherche, par exemple “Plan de Prevention des Risques Naturels de la commune de Beynac-Et-Cazenac”, ce jeu de donnée apparaît 4 fois dans la liste des doublons, je ne le ferais apparaître qu’une seul fois compte tenu que nous avons déjà la colonne “Nombre de doublons”. Concernant l’indicateur à la droite, je présenterais davantage “le nombre de jeux de données présentant des doublons”, ce qui dans le cas précédent nous ramènerait à la valeur de 1.

Image

Thesauruv commented 11 months ago

Je supprimerais également la colonne "univers" de la table, cette information apparaît déjà plus haut dans le dashboard.

clementmandron commented 11 months ago

@qloridant voici ce qu'on a identifié lors du point de vendredi. Cela te semble-t-il ok ?

Je suggère de garder la construction d'un indicateur synthétique (fuzzy, ou en lien avec d'autres cirtères dans les recommandations pour le moment - voir partie Remarques du ticket) poke @johanricher @Thesauruv

qloridant commented 11 months ago

Done ! Je trouve ça très stylé et ça met bien en avant le potentiel du moteur de recherche