Open Thesauruv opened 9 months ago
@qloridant feu vert aussi ! Le ticket laisse le choix, on peut en discuter si tu veux
@clementmandron si t'as un moment demain matin, on peut, sinon je le fais seul. La donnée license est désormais visible dans le tableau brut
@Thesauruv @johanricher @clementmandron
J'ai groupé les jeux de données par licenses. Le résultat est visible ici.
Au vu du résultat, je n'ai pas l'impression que cette méta-donnée soit intéressante.
Est-ce que je rate qqchose ?
@qloridant merci ! Effectivement, je ne comprends pas tout, arrives-tu à voir à quoi correspondent ces identifiants par exemple "N047c2a2d64f94b5ea6e3a638ccf6cb62" ?
Je n'ai pas pu en voir dans le json test de l'exposition DCAT dans le github
Si c'est un identifiant vers une autre licence, je pense on devrait faire un histogramme avec trois ou quatres barres :
Si les ids ne sont pas d'autres licences, mettre les ids dans "licence non-reseignée"
Le but final serait de différencier les jeux de données en open data et ceux en accès restreints, mais je ne sais pas sur quelle métadonnée on pourrait se baser, une idée @Thesauruv peut-être ?
Dans tous les cas, l'histogramme de répartition par licences (ci-dessus) est une première base de discussion
Je vais creuser pour les identifiants, mais dans tous les cas ils représentent une portion très très négligeable. Vu la distribution, L'histogramme ne va pas faire apparaître grand chose...
Merci ! Attendons la réponse de Vincent sur le sujet ouvert/restreint alors
Oui pas faux, mais même si l'histogramme ne dit pas grand-chose il pourra faire régir lors des entretiens usagers et nous aidera pour les recommandations
L'autre champ a exploré est la liste dcat "Access Rights" qui renvoie vers des objets RightsStatements.
C'est ce champ qui va remplir le champ 'Contraintes Légales' visible par ex sur cette page
@qloridant merci pour le première implémentation sur la licence !
Concernant la prépondérance de la licence etalab-2.0, effectivement c'est une information peu discriminante sur ces deux catalogues, mais on peut s'attendre à une diversification des licences utilisées avec la diversification des catalogues en entrée, comme on peut le voir dans les données sur data.gouv.
Je note dans le schéma de Leslie que la propriété licence apparaît "hors champs DCAT" (voir schéma). Il nous faut être prudent sur ces propriétés, cela signifie qu'elles ne seront très certainement pas exposées de la même manière dans une autre exposition DCAT.
Je reviens sur la nécessité pour chaque graphe de documenter la métadonnées utilisée et un lien vers la définition, ce qui permettrait notamment d'identifier des écarts par rapport à GeoDCAT-AP.
Pour ce qui est de l'identification des données à accès restreint, la métadonnée descriptive dct:accessRights -> dct:RightsStatement
me semble la plus adaptée. A ce stade, il est très probable que la métadonnée ne soit pas discriminante : sur les ~25000 jeux de données moissonnés, j'en avais relevé moins d'une 50aines en accès restreint à partir des patterns référencés dans la liste pattern_restricted_access
, dans le notebook 08_access_rights.ipynb
Bien que peu discriminante à ce jour, cette information reste pertinente à présenter.
@clementmandron attention, les IDs du type "N047c2a2d64f94b5ea6e3a638ccf6cb62" que tu trouves dans le fichier .json sont des nœuds anonymes qui renvoient vers des sous propriétés.
Sur cette fiche métadonnée du catalogue GeoIDE, le caractère ouvert de la donnée apparaît notamment dans les mots clés.
@qloridant même souci apparemment ici
Corrigé
Retirer l'histogramme licence et ajouter 4 big numbers. Pourcentage de :
@qloridant
Done.
L'indicateur : autre licenses affiche "Pas de données" car il n'y a pas d'autres licenses. Est-ce que vous préférez le garder pour anticiper la suite ou le supprimer pour la lisibilité ?
User story
Je suis Un gestionnaire de catalogue. Un administrateur ministériel des données.
Je veux En tant que gestionnaire, j'ai un rôle de coordination. Je souhaite apprécier mon patrimoine de l'ouverture des données et conditions de réutilisations. Je souhaite pouvoir évaluer la qualité de mon patrimoine et en promouvoir l'amélioration :
Je peux [Distinguer mes jeux de données] Connaître le nombre de jeux de données en accès ouverts et ceux en accès ouverts.
Besoins associés (du plus au moins évident)
33- Identifier les données ouvertes 12- Connaître le nombre de jeux de données ouvertes sur une thématique
Implémentation
[À discuter dans le ticket]
Ce ticket donnera surement lieu à plusieurs visualisations ou indicateurs. Voici quelques propositions :
Métadonnées utilisées
[À discuter dans le ticket]
Remarques
Après première production de l'indicateur
Comment l'indicateur en l'état répond aux besoins ?
L’indicateur permet d’identifier la proportion de données ouvertes sur un périmètre (le catalogue Ecosphères dans son ensemble ou filtré). Aussi, il permet de comprendre la répartition des licences.
La répartition des licences est une information très importante pour les gestionnaires de catalogue.
Comment pourrait-il être amélioré ? (préconisations)
Aujourd'hui, Ecosphères contient peu de métadonnées sur des jeux de données à accès restreints. Néanmoins, il sera permis d’ajouter des URL vers des catalogues de données non ouverts dans les bouquets de données. L’indicateur est donc pertinent à maintenir et pourra être enrichi à ce titre.
Les licences sont indispensables pour assurer les réutilisateurs et favoriser la circulation des données. Les jeux de données ouverts, mais sans licence, sont des cibles de choix pour améliorer le remplissage de la métadonnée “licence”. À terme, l’ensemble des jeux de données publiques ouvertes ont vocation à l’être sous une licence homologuée par la loi pour une République Numérique (voir l’explication sur le site data.gouv.fr).