ecolabdata / ecospheres-metadata

Visualisation des métadonnées moissonnées dans Ecosphères
3 stars 1 forks source link

Accès et les licences utilisées #18

Open Thesauruv opened 9 months ago

Thesauruv commented 9 months ago

User story

Je suis Un gestionnaire de catalogue. Un administrateur ministériel des données.

Je veux En tant que gestionnaire, j'ai un rôle de coordination. Je souhaite apprécier mon patrimoine de l'ouverture des données et conditions de réutilisations. Je souhaite pouvoir évaluer la qualité de mon patrimoine et en promouvoir l'amélioration :

Je peux [Distinguer mes jeux de données] Connaître le nombre de jeux de données en accès ouverts et ceux en accès ouverts.

Besoins associés (du plus au moins évident)

33- Identifier les données ouvertes 12- Connaître le nombre de jeux de données ouvertes sur une thématique

Implémentation

[À discuter dans le ticket]

Ce ticket donnera surement lieu à plusieurs visualisations ou indicateurs. Voici quelques propositions :

Métadonnées utilisées

[À discuter dans le ticket]

Remarques

Après première production de l'indicateur

Comment l'indicateur en l'état répond aux besoins ?

L’indicateur permet d’identifier la proportion de données ouvertes sur un périmètre (le catalogue Ecosphères dans son ensemble ou filtré). Aussi, il permet de comprendre la répartition des licences.

La répartition des licences est une information très importante pour les gestionnaires de catalogue.

Comment pourrait-il être amélioré ? (préconisations)

Aujourd'hui, Ecosphères contient peu de métadonnées sur des jeux de données à accès restreints. Néanmoins, il sera permis d’ajouter des URL vers des catalogues de données non ouverts dans les bouquets de données. L’indicateur est donc pertinent à maintenir et pourra être enrichi à ce titre.

Les licences sont indispensables pour assurer les réutilisateurs et favoriser la circulation des données. Les jeux de données ouverts, mais sans licence, sont des cibles de choix pour améliorer le remplissage de la métadonnée “licence”. À terme, l’ensemble des jeux de données publiques ouvertes ont vocation à l’être sous une licence homologuée par la loi pour une République Numérique (voir l’explication sur le site data.gouv.fr).

clementmandron commented 9 months ago

@qloridant feu vert aussi ! Le ticket laisse le choix, on peut en discuter si tu veux

qloridant commented 8 months ago

@clementmandron si t'as un moment demain matin, on peut, sinon je le fais seul. La donnée license est désormais visible dans le tableau brut

qloridant commented 8 months ago

@Thesauruv @johanricher @clementmandron
J'ai groupé les jeux de données par licenses. Le résultat est visible ici. Au vu du résultat, je n'ai pas l'impression que cette méta-donnée soit intéressante. Est-ce que je rate qqchose ?

clementmandron commented 8 months ago

@qloridant merci ! Effectivement, je ne comprends pas tout, arrives-tu à voir à quoi correspondent ces identifiants par exemple "N047c2a2d64f94b5ea6e3a638ccf6cb62" ?

Je n'ai pas pu en voir dans le json test de l'exposition DCAT dans le github

Si c'est un identifiant vers une autre licence, je pense on devrait faire un histogramme avec trois ou quatres barres :

  1. Licence ouverte 2.0
  2. Licence ODBL
  3. Licence non-resnseignée
  4. Autre (les ids)

Si les ids ne sont pas d'autres licences, mettre les ids dans "licence non-reseignée"

clementmandron commented 8 months ago

Le but final serait de différencier les jeux de données en open data et ceux en accès restreints, mais je ne sais pas sur quelle métadonnée on pourrait se baser, une idée @Thesauruv peut-être ?

Dans tous les cas, l'histogramme de répartition par licences (ci-dessus) est une première base de discussion

qloridant commented 8 months ago

Je vais creuser pour les identifiants, mais dans tous les cas ils représentent une portion très très négligeable. Vu la distribution, L'histogramme ne va pas faire apparaître grand chose...

clementmandron commented 8 months ago

Merci ! Attendons la réponse de Vincent sur le sujet ouvert/restreint alors

Oui pas faux, mais même si l'histogramme ne dit pas grand-chose il pourra faire régir lors des entretiens usagers et nous aidera pour les recommandations

qloridant commented 8 months ago

L'autre champ a exploré est la liste dcat "Access Rights" qui renvoie vers des objets RightsStatements.

C'est ce champ qui va remplir le champ 'Contraintes Légales' visible par ex sur cette page

Thesauruv commented 8 months ago

@qloridant merci pour le première implémentation sur la licence !

Concernant la prépondérance de la licence etalab-2.0, effectivement c'est une information peu discriminante sur ces deux catalogues, mais on peut s'attendre à une diversification des licences utilisées avec la diversification des catalogues en entrée, comme on peut le voir dans les données sur data.gouv.

Thesauruv commented 8 months ago

Je note dans le schéma de Leslie que la propriété licence apparaît "hors champs DCAT" (voir schéma). Il nous faut être prudent sur ces propriétés, cela signifie qu'elles ne seront très certainement pas exposées de la même manière dans une autre exposition DCAT.

Je reviens sur la nécessité pour chaque graphe de documenter la métadonnées utilisée et un lien vers la définition, ce qui permettrait notamment d'identifier des écarts par rapport à GeoDCAT-AP.

Thesauruv commented 8 months ago

Pour ce qui est de l'identification des données à accès restreint, la métadonnée descriptive dct:accessRights -> dct:RightsStatement me semble la plus adaptée. A ce stade, il est très probable que la métadonnée ne soit pas discriminante : sur les ~25000 jeux de données moissonnés, j'en avais relevé moins d'une 50aines en accès restreint à partir des patterns référencés dans la liste pattern_restricted_access, dans le notebook 08_access_rights.ipynb

Bien que peu discriminante à ce jour, cette information reste pertinente à présenter.

Thesauruv commented 8 months ago

@clementmandron attention, les IDs du type "N047c2a2d64f94b5ea6e3a638ccf6cb62" que tu trouves dans le fichier .json sont des nœuds anonymes qui renvoient vers des sous propriétés.

Thesauruv commented 8 months ago

Sur cette fiche métadonnée du catalogue GeoIDE, le caractère ouvert de la donnée apparaît notamment dans les mots clés.

clementmandron commented 8 months ago

@qloridant même souci apparemment ici

Image

qloridant commented 8 months ago

Corrigé

clementmandron commented 8 months ago

Retirer l'histogramme licence et ajouter 4 big numbers. Pourcentage de :

@qloridant

qloridant commented 8 months ago

Done.

L'indicateur : autre licenses affiche "Pas de données" car il n'y a pas d'autres licenses. Est-ce que vous préférez le garder pour anticiper la suite ou le supprimer pour la lisibilité ?