ecolabdata / ecospheres

Portail des données de la transition écologique et de la cohésion des territoires
https://ecologie.data.gouv.fr
2 stars 0 forks source link

Clarifier les identifiants liés à un JDD #424

Open streino opened 1 month ago

streino commented 1 month ago

Remonté par l'équipe Géo-IDE :

Onglet "informations" il y a des tas d'ID dont l'origine et l'utilité est très ambiguë -> https://demo.data.gouv.fr/fr/datasets/plan-dexposition-au-bruit-peb-du-val-doise-2/#/information

image

Je vois ici 3 identifiants différents; l'identifiant de ressource unique retourné par Géo-IDE est "a416a01d-5c18-4a0f-a467-f6101786b67e" => d'où viennent et à quoi servent les id "66e2de35a431154eef831f05" et "6704a9ba624a2b307c19be1f" indiqués comme "id" et "source_id" ??? (à priori propres à data.gouv vu qu'on ne les retrouve pas dans Géo-IDE -> cf https://ogc.geo-ide.e2.rie.gouv.fr/csw/all-dataset?REQUEST=GetRecordById&SERVICE=CSW&VERSION=2.0.2&ID=fr-120066022-jdd-f5ce3586-b283-4cdf-b47c-f4c44fc9e009&RESULTTYPE=results&elementSetName=full&TYPENAMES=gmd:MD_Metadata&OUTPUTSCHEMA=http://www.isotc211.org/2005/gmd)

Est ce que ce n'est pas plutôt l'ID a416a01d-5c18-4a0f-a467-f6101786b67e qui devrait être mis en évidence, vu que c'est le seul réellement attaché à la données et réellement utile (cf URLs de services)?

Dans l'idéal à coordonner avec data.gouv, mais potentiellement prendre de l'avance sur ecologie.dgfr ?

cc @maudetes @agarrone

streino commented 1 month ago

En plus des éléments à clarifier, ça soulève la question de stocker le gmd:fileIdentifier ISO côté data.gouv. On traite cette métadonnée explicitement depuis https://github.com/opendatateam/udata/pull/3157, donc on pourrait l'ajouter en extras['dcat'].

maudetes commented 1 month ago

Concernant les métadonnées, il s'agit principalement de métadonnées techniques. Je peux les expliciter une par une :

Les informations de moissonnage sont surtout là pour du debug et des informations techniques. Cependant, l'identifiant d'origine (remote_id) pourrait en effet être mise en valeur sur la fiche, à côté par exemple de l'identifiant data.gouv.fr.

streino commented 1 month ago

Merci pour les détails !

remote_id: l'identifiant de la fiche moissonnée qui est utilisée pour reconnaître une fiche d'une fois sur l'autre. En DCAT, il s'agit du dct.identifier

Je pense que Géo-IDE faisait plutôt référence au gmd:fileIdentifier, càd le dct:identifier du dcat:CatalogRecord, nouvellement récupéré via primary_topic_identifier_from_rdf.

Dans le monde INSPIRE cet identifiant de "fiche métadonnée" (normalement source) semble faire foi, plutôt que l'identifiant "jeu de données" gmd:CI_Citation/gmd:identifier/MD_Identifier (ou RS_Identifier) qui est lui mappé sur LE dct:identifier "principal", et donc sur dct_identifier sur data.gouv.

@alhyss, si on devait faire figurer un seul ID à côté de celui de data.gouv, quelle serait ta recommandation ?

alhyss commented 3 weeks ago

@alhyss, si on devait faire figurer un seul ID à côté de celui de data.gouv, quelle serait ta recommandation ?

L'identifiant du jeu de données. C'est aussi de lui qu'il était question dans les remarques de Géo-IDE, sauf que c'est l'UUID sans espace de nommage qui apparaît dans leurs URL de services, pas la concaténation des deux qu'on retrouve dans dct_identifier, uri et remote_id. Ceci dit, je pense qu'il est nettement préférable de présenter des identifiants universels, soit avec espace de nommage, et donc plutôt uri qui est assuré de contenir un tel identifiant (même s'il n'est pas dit qu'il soit toujours résovable...). La propriété pourrait s'appeler URI pour faire court, mais Identifiant de ressource unique serait peut-être plus parlant.

Pour les moissonnages DCAT natifs, il y aura forcément des URI. Pour les moissonnages CSW, INSPIRE dit que l'identifiant du jeu de données doit être un URI et l'une de nos recommandations va dans ce sens.

(Pour du DCAT natif, dct:identifier peut avoir plusieurs valeurs et les afficher en plus de l'URI pourrait être intéressant, mais une seule est actuellement récupérée dans dct_identifier de toute façon, et ça ne paraît pas le plus urgent)

L'identifiant de la fiche de métadonnées sur le catalogue source primary_topic_identifier_from_rdf sert essentiellement à retrouver ladite fiche sur le front du catalogue ou via un getRecordById sur le CSW. Ce serait bien de le remonter sur le front avec un label explicite, lui-aussi, mais on a déjà un lien bien mis en valeur pour la fiche sur le catalogue d'origine, c'est mieux que rien.