Profil du catalogue Ecosphères

johanricher commented 12 months ago

Description

L'objectif est d'établir un profil, une analyse exploratoire (EDA) des métadonnées du catalogue Ecosphères afin de synthétiser ses principales caractéristiques, par exemple :

Champs (dataset, title, themes...) les plus utilisés
Distribution des valeurs pour chaque champ
Pourcentage de valeurs manquantes pour chaque champ

Ce profil permettra notamment de mieux comprendre le catalogue et ses métadonnées, notamment pour sélectionner les champs les plus utilisés et afin de construire des indicateurs de qualité pertinents.

Il devrait être mise à jour automatiquement pour suivre les évolutions du catalogue.

Implémentation

La librairie ydata-profiling (anciennement pandas-profiling) permet de produire un rapport qui correspond aux besoins.

Le profil (export HTML du rapport) apporte une analyse du catalogue générique, au-dessus des univers #4 qui portent sur des sujets métiers spécifiques. En cela il n'a pas vocation à être intégré nativement dans l'outil de visualisation (Superset) ou dans un univers en particulier. Il pourrait cependant être rendu accessible aux utilisateurs de l'outil au moyen d'un lien.

L'automatisation de la mise à jour et de la publication pourraient être implémentés dans un second temps grâce à Github Actions et Github Pages.

Thesauruv commented 11 months ago

Super pour l'utilisation de ydata-profiling ! Cette librairie permettra d'aller plus loin que le seul graphe sur le taux de remplissage. Comme discuté avec Clément ce matin, concernant le taux de remplissage, c'est une information importante pour la lecture de chaque graphe ; l'utilisateur doit être conscient que les résultats présentés ne couvrent qu'une partie des datasets à cause d'un manque de métadonnées.

qloridant commented 11 months ago

Pour le moment, les infos sont disponibles ici Il serait possible de passer sur ydata-profiling pour avoir une vizu plus sympa, mais les informations seront les mêmes.

Je ne suis pas encore sur si nous proposerons ydata-profiling aux utilisateurs ou si nous ferons nous mêmes quelques graphiques (qu'il faut choisir)

ecolabdata / ecospheres-metadata

Profil du catalogue Ecosphères #13

Description

Implémentation