Closed johanricher closed 10 months ago
Super pour l'utilisation de ydata-profiling ! Cette librairie permettra d'aller plus loin que le seul graphe sur le taux de remplissage. Comme discuté avec Clément ce matin, concernant le taux de remplissage, c'est une information importante pour la lecture de chaque graphe ; l'utilisateur doit être conscient que les résultats présentés ne couvrent qu'une partie des datasets à cause d'un manque de métadonnées.
Pour le moment, les infos sont disponibles ici Il serait possible de passer sur ydata-profiling pour avoir une vizu plus sympa, mais les informations seront les mêmes.
Je ne suis pas encore sur si nous proposerons ydata-profiling aux utilisateurs ou si nous ferons nous mêmes quelques graphiques (qu'il faut choisir)
Description
L'objectif est d'établir un profil, une analyse exploratoire (EDA) des métadonnées du catalogue Ecosphères afin de synthétiser ses principales caractéristiques, par exemple :
dataset
,title
,themes
...) les plus utilisésCe profil permettra notamment de mieux comprendre le catalogue et ses métadonnées, notamment pour sélectionner les champs les plus utilisés et afin de construire des indicateurs de qualité pertinents.
Il devrait être mise à jour automatiquement pour suivre les évolutions du catalogue.
Implémentation
La librairie
ydata-profiling
(anciennementpandas-profiling
) permet de produire un rapport qui correspond aux besoins.Le profil (export HTML du rapport) apporte une analyse du catalogue générique, au-dessus des univers #4 qui portent sur des sujets métiers spécifiques. En cela il n'a pas vocation à être intégré nativement dans l'outil de visualisation (Superset) ou dans un univers en particulier. Il pourrait cependant être rendu accessible aux utilisateurs de l'outil au moyen d'un lien.
L'automatisation de la mise à jour et de la publication pourraient être implémentés dans un second temps grâce à Github Actions et Github Pages.