Open streino opened 1 month ago
En plus des éléments à clarifier, ça soulève la question de stocker le gmd:fileIdentifier
ISO côté data.gouv. On traite cette métadonnée explicitement depuis https://github.com/opendatateam/udata/pull/3157, donc on pourrait l'ajouter en extras['dcat']
.
Concernant les métadonnées, il s'agit principalement de métadonnées techniques. Je peux les expliciter une par une :
id
(qui apparaît au-dessus de la capture) est l'identifiant local du jeu de données sur data.gouv.fr. Tous les JDDs en ont un, même ceux moissonnéssource_id
: l'identifiant de la source de moissonnage sur data.gouv.fr (le moissonneur geoide en l'occurence)remote_id
: l'identifiant de la fiche moissonnée qui est utilisée pour reconnaître une fiche d'une fois sur l'autre. En DCAT, il s'agit du dct.identifier
dct_identifier
: l'identifiant renseigné dans dct.identifier
pour les moissonneurs DCAT, l'information est identique à celle ci-dessus, mais est utilisée lors de la ré-exposition en DCAT (contrairement à un remote_id
qui pourrait être issu d'un moissonnage CKAN par exemple).uri
: l'URI du noeu dataset moissonné dans le graph, s'il s'agit justement d'une URI valide.
Globalement, ces dernières informations sont set ici : https://github.com/opendatateam/udata/blob/d2456c7928c0a7c42af76501b40602f0a48a85c1/udata/core/dataset/rdf.py#L678-L692.Les informations de moissonnage sont surtout là pour du debug et des informations techniques.
Cependant, l'identifiant d'origine (remote_id
) pourrait en effet être mise en valeur sur la fiche, à côté par exemple de l'identifiant data.gouv.fr
.
Merci pour les détails !
remote_id
: l'identifiant de la fiche moissonnée qui est utilisée pour reconnaître une fiche d'une fois sur l'autre. En DCAT, il s'agit dudct.identifier
Je pense que Géo-IDE faisait plutôt référence au gmd:fileIdentifier
, càd le dct:identifier
du dcat:CatalogRecord
, nouvellement récupéré via primary_topic_identifier_from_rdf.
Dans le monde INSPIRE cet identifiant de "fiche métadonnée" (normalement source) semble faire foi, plutôt que l'identifiant "jeu de données" gmd:CI_Citation/gmd:identifier/MD_Identifier
(ou RS_Identifier
) qui est lui mappé sur LE dct:identifier
"principal", et donc sur dct_identifier
sur data.gouv.
@alhyss, si on devait faire figurer un seul ID à côté de celui de data.gouv, quelle serait ta recommandation ?
@alhyss, si on devait faire figurer un seul ID à côté de celui de data.gouv, quelle serait ta recommandation ?
L'identifiant du jeu de données. C'est aussi de lui qu'il était question dans les remarques de Géo-IDE, sauf que c'est l'UUID sans espace de nommage qui apparaît dans leurs URL de services, pas la concaténation des deux qu'on retrouve dans dct_identifier
, uri
et remote_id
. Ceci dit, je pense qu'il est nettement préférable de présenter des identifiants universels, soit avec espace de nommage, et donc plutôt uri
qui est assuré de contenir un tel identifiant (même s'il n'est pas dit qu'il soit toujours résovable...). La propriété pourrait s'appeler URI pour faire court, mais Identifiant de ressource unique serait peut-être plus parlant.
Pour les moissonnages DCAT natifs, il y aura forcément des URI. Pour les moissonnages CSW, INSPIRE dit que l'identifiant du jeu de données doit être un URI et l'une de nos recommandations va dans ce sens.
(Pour du DCAT natif, dct:identifier
peut avoir plusieurs valeurs et les afficher en plus de l'URI pourrait être intéressant, mais une seule est actuellement récupérée dans dct_identifier
de toute façon, et ça ne paraît pas le plus urgent)
L'identifiant de la fiche de métadonnées sur le catalogue source primary_topic_identifier_from_rdf
sert essentiellement à retrouver ladite fiche sur le front du catalogue ou via un getRecordById
sur le CSW. Ce serait bien de le remonter sur le front avec un label explicite, lui-aussi, mais on a déjà un lien bien mis en valeur pour la fiche sur le catalogue d'origine, c'est mieux que rien.
Remonté par l'équipe Géo-IDE :
Dans l'idéal à coordonner avec data.gouv, mais potentiellement prendre de l'avance sur ecologie.dgfr ?
cc @maudetes @agarrone