ecolabdata / ecospheres-metadata

Visualisation des métadonnées moissonnées dans Ecosphères
3 stars 1 forks source link

Distribution du nombre de points de contacts par jeux de données #29

Closed clementmandron closed 10 months ago

clementmandron commented 10 months ago

User story

Je suis Un gestionnaire de catalogue. Un administrateur ministériel des données.

Je veux En tant que gestionnaire, j'ai un rôle de coordination. Je souhaite apprécier mon patrimoine de données au regard des besoins de standardisation et d'agrégation, d'ouverture ou plus simplement de sélection des jeux de données les plus pertinents pour mon usage. Je souhaite pouvoir évaluer la qualité de mon patrimoine et en promouvoir l'amélioration :

Je peux

Comprendre si un jeu de données est lié à un ou plusieurs points de contact. Déterminer si certains jeux de données ne possède pas de points de contact bien identifiés, et au contraire si certains points de contact sont possiblement sur-sollicité (par rapport à la moyenne).

Besoins associés (du plus au moins évident)

Implémentation

Remarques

Après première production de l'indicateur

Voir ici Point de contact#23

qloridant commented 10 months ago

Je réagis à contre coup, mais le champ contact point est unique pour un dataset. @Thesauruv @clementmandron

Thesauruv commented 10 months ago

@qloridant Unique pour un dataset, mais un point de contact peut être partagé par plusieurs datasets comme on le voit ici ?

Image

qloridant commented 10 months ago

Merci @Thesauruv On peut soit faire un graphe de distribution (mais si je ne me trompe pas, on l'avait déjà mis en place, avec la limite des 10 les plus utilisés).

Image

Ou alors ont peut mettre en place des BIG NUMBER avec des quantiles (intéressants mais moins simple à interpréter) Cela donnera :

Pour les quantiles (plus exactement les déciles), vous pouvez retrouver les valeurs ici

Les deux solutions sont déjà implementés. On peut intégrer les deux ou choisir

Thesauruv commented 10 months ago

@qloridant la solution que j'aii à l'esprit correspond à la présentation d'une distribution (abscisses : nombre de points de contact, ordonnées : nombre de jeux de données). L'idée est d'en ressortir une moyenne : par exemple, en moyenne 140 JDD par point de contact. Je pense qu'il nous faut garder la table des points de contact avec le nombre de jeux de données associés, pratique que l'histogramme.

Thesauruv commented 10 months ago

L'approche BIG NUMBER avec quantiles me semble bien en première approche.