Open aidig opened 4 years ago
I kommunikationen omkring datasæt ser vi også en bred anvendelse af termen "dataejer".
Det er vigtigt at vi i arbejdet med DCAT også forholder os til denne term. Hvordan forstås dette begreb i de forskellige myndigheder og hvad er relationen til 'dataansvarlig myndighed' i så fald?
Termen 'datasætansvarlig' er også dukket op - er det dét egenskaben bør hedde istedet?
Afsender: Kombit
Nogle af KOMBITs systemer registrerer klassifikationer fra kommunerne, og der er mange andre steder hvor information modtages fra en række eksterne parter. Det giver os en udfordring med at definere KOMBITs rolle i forhold til de registrerede data. Reelt er KOMBIT kun ”kustode” for data, men ikke ansvarlig. De ansvarlige organisationer er kommunerne. Dette taler for at skelne mellem ”dataansvarlig organisation” og ”dataforvalterorganisation”.
Desuden virker det som om der mangler en skelnen mellem at være ansvarlig hhv. forvalter af de konkrete data, og at være ansvarlig hhv. forvalter af strukturen eller schemaet for data.
For eksempel, når KOMBIT har etableret et system til udveksling af klassifikationer, så er strukturen defineret ud fra OIO Klassifikation. Ansvarlig for strukturen er derfor OIO (el DIGST), mens KOMBIT er forvalter af strukturen, sådan som den er udmøntet i systemet Klassifikation.
Men de klassifikationer der lægges ind i Klassifikation er konkrete data som har de enkelte kommuner som dataansvarlig organisation og KOMBIT som forvalter.
Derfor afhænger et godt svar vel af den præcise definition af begrebet ”dataansvarlig organisation”, og af en tydelig skelnen mellem data schema og konkrete data, i modellen.
Hvis jeg husker rigtigt, så blev vi på workshoppen enige om at forstå det således, at ”dataset” repræsenterer definitionen/schemaet for data, mens de konkrete data er indeholdt i begrebet ”distribution”. (Det er selvfølgelig ikke det bedste ord for de konkrete data, da ”distribution” synes at antyde et fokus på flytning af data, mere end opbevaring, men nuvel). Det er selvfølgelig lidt ærgerligt for os, da vi pt. har registreret alle de konkrete forekomster af data som ”dataset” og ikke som ”distribution”. Vi har hidtil forstået ”dataset” som de konkrete data, mens definition/skema hang sammen med skos:theme.
Vedligeholder kunne godt lyde som et synonym for forvalter af data schema/data definition. Men igen afhænger det af, om der er formuleret en skelnen mellem data schema og konkrete data. Er ”vedligeholder” knyttet til dataset eller til distribution? ”Bidragsyder” må være metadata for konkrete data.
Ja, det er nok klogt at holde GDPRs terminologi adskilt fra DCAT. Kunne man ikke gøre dette ved at anvende forskelige ontologier/namespaces? Der burde eksistere ontologier for GDPR. Såfremt ordene bor i forskellige ontologier, og det i øvrigt fremgår af beskrivelsen af termen, så burde det vel ikke være et problem, at have et navnesammenfald.
Som nævnt ovenfor har i hvert fald KOMBIT behov for at kunne italesætte rollen som ”dataforvalter”, da der er mange konkrete eksempler på at der forvaltes data som ikke er KOMBITs.
”Dataejer” er et meget stærkt ord. For persondatas vedkommende er det personen selv der er dataejer. Der skal derfor eksistere et alternativ. ”Dataforvalter” kunne være bud.
Og igen er der også behov for at skelne mellem den der forvalter de konkrete data, og den der forvalter specifikationen
Termen 'data steward' anvendes også af nogle organisationer, men hvordan forholder 'dataforvalter' og 'datas teward' sig til hinanden?
schema:maintainer er også værd at kiggge på : https://schema.org/maintainer
og i det hele taget egenskaberne på https://schema.org/Dataset
Bemærk at man i DCAT-AP-SE altså anvender 'udgiver' (dct:publisher) med følgende anvendelsesnote:
Med utgivare menas den organisation som är ansvarig för en datamängd.
Se ISO 19115-1 kodeliste for rolletyper her (CI_RoleCode): http://wiki.esipfed.org/index.php/ISO_19115_and_19115-2_CodeList_Dictionaries#CI_RoleCode
Entry | Description | Source | Applicable for |
---|---|---|---|
author | party who authored the resource | 19115 | maps to dataCite element: 'Creator' |
custodian | party that accepts accountability and responsability for the data and ensures appropriate care and maintenance of the resource | 19115 | archive |
distributor | party who distributes the resource | 19115 | maps to dataCite element: 'Publisher' |
originator | party who created the resource | 19115 | maps to dataCite element: 'Creator' |
owner | party that owns the resource | 19115 | |
pointOfContact | party who can be contacted for acquiring knowledge about or acquisition of the resource | 19115 | data collector, contactable expert |
principalInvestigator | key party responsible for gathering information and conducting research | 19115 | chief scientist; maps to dataCite element: 'Creator' |
processor | party who has processed the data in a manner such that the resource has been modified | 19115 | |
publisher | party who published the resource | 19115 | maps to dataCite element: 'Publisher' |
resourceProvider | party that supplies the resource | 19115 | maps to dataCite element: 'Creator' |
sponsor | party that sponsors the resource | 19115 | |
user | party who uses the resource | 19115 | |
coAuthor | party who jointly authors the resource | 19115-1 | |
collaborator | party who assists with the generation of the resource other than the principal investigator | 19115-1 | |
contributor | party contributing to the resource | 19115-1 | |
editor | party who reviewed or modified the resource to improve the content | 19115-1 | |
funder | party providing monetary support for the resource | 19115-1 | |
mediator | a class of entity that mediates access to the resource and for whom the resource is intended or useful | 19115-1 | |
rightsHolder | party owning or managing rights over the resource | 19115-1 | |
stakeholder | party who has an interest in the resource or the use of the resource | 19115-1 |
OBS: publisher, originator, contributor, pointOfContect er allerede dækket af hhv. dct:publisher, dct:creator, dct:contributor, dcat:contactPoint
Se ISO 19115-1 kodeliste for rolletyper her (CI_RoleCode): http://wiki.esipfed.org/index.php/ISO_19115_and_19115-2_CodeList_Dictionaries#CI_RoleCode
Bemærk, at ISO/TC 211 udstiller sine ressourcer online på https://def.isotc211.org og http://schemas.isotc211.org, som også er beskrevet på https://committee.iso.org/sites/tc211/home/re.html :
Direkte links til CI_RoleCode:
OBS: publisher, originator, contributor, pointOfContect er allerede dækket af hhv. dct:publisher, dct:creator, dct:contributor, dcat:contactPoint
Bemærk også følgende fra https://github.com/SEMICeu/iso-19139-to-dcat-ap/blob/master/documentation/Mappings.md#resource-metadata-common-to-data-sets-data-set-series-and-services (også beskrevet i GeoDCAT-AP: A geospatial extension for the DCAT application profile for data portals in Europe)
Responsible organisation | Any role | prov:qualifiedAttribution |
prov:Attribution |
unstable | Only for the extended profile. |
Resource provider | - | - | |||
Custodian | - | - | |||
Owner | dct:rightsHolder |
foaf:Agent |
stable | Only for the extended profile | |
User | - | - | |||
Distributor | - | - | |||
Originator | - | - | |||
Point of contact | dcat:contactPoint |
vcard:Kind |
stable | ||
Principal investigator | - | - | |||
Processor | - | - | |||
Publisher | dct:publisher |
foaf:Agent |
stable | ||
Author | dct:creator |
foaf:Agent |
testing | Only for the extended profile. |
Tak for de mere præcise henvisninger Heidi. Og er det korrekt forstået at CI_RoleCode 'owner' altså mappes til "dct:rightsHolder" , og dermed også at CI_RoleCode rightsHolder ikke mappes til "dct:rightsHolder" eller er der noget jeg har misforstået ;-)
Peter har iøvrigt oprettet følgende oversigt, hvori vi også har tilføjet et forslag til mulig egenskab: https://docs.google.com/document/d/1oLH9ViGgF4S72lnV3Fcq_8UCY8_R4CsiKLMujjXG7JM/edit?usp=sharing
Tak for de mere præcise henvisninger Heidi. Og er det korrekt forstået at CI_RoleCode 'owner' altså mappes til "dct:rightsHolder" , og dermed også at CI_RoleCode rightsHolder ikke mappes til "dct:rightsHolder" eller er der noget jeg har misforstået ;-)
Der er en lille krølle der: i ISO 19115-1:2014 er der blevet tilføjet nogle værdier til listen fra ISO 19115:2003, heriblandt rightsHolder. INSPIRE anvender ISO 19115:2003, og derfor er det nok også den man kiggede på da man lavede mapningen til DCAT-AP. Så jeg tænker, at CI_RoleCode rightsHolder også mappes til dct:rightsHolder . Og det er igen et eksempel på, at man ikke bare kan transformere frem og så tilbage igen, det er langtfra sikkert, at man vil få samme output som det man startede med.
Peter har iøvrigt oprettet følgende oversigt, hvori vi også har tilføjet et forslag til mulig egenskab: https://docs.google.com/document/d/1oLH9ViGgF4S72lnV3Fcq_8UCY8_R4CsiKLMujjXG7JM/edit?usp=sharing
Måske kan det resultere i en "alignments"-fil i stil med dem i https://github.com/SEMICeu/iso-19139-to-dcat-ap/tree/master/alignments ?
DCAT-AP i indeholder i udgangspunktet følgende aktører: udgiver (dct:publisher), skaber (dct:creator), kontaktpunkt (dcat:ContactPoint), men har vi brug for at have flere aktører i spil for at kunne rumme ovennævnte use case?
Såfremt standarden skal anvendes til beskrivelse af datasæt som en myndighed ikke nødvendigvis udgiver kan der være behov for at angive en anden relation fra klassen dct:Dataset til foaf:Agent end dct:publisher. (udgiver)
I første version af DCAT-AP-DK blev egenskaben 'dataansvarlig organisation' (dataresponsibleOrganisation) indført.
Kombit har også nævnt at der udover aktørelationen 'dataansvarlig' kan der være behov for at registrere en 'dataforvalter' relation. Derudover har vi også mulighed for at tilføje oplysning om bidragsyder (dct:contributor) eller vedligeholder (schema:maintainer).
Samtidigt er vi jo også bevidst om ikke at mudre det sammen med GDPR-aktørerne (person)dataansvarlig (controller) og (person)databehandler (processor) selvom der kan være sammenhænge mellem dem.
I vores dialog med myndigheder omkring dataforvaltning hører vi også termen "dataejer", "datasætansvarlig", "dataforvalter"/"data steward".
Sidst men ikke mindst kan vi også gøre brug af en præciseret aktørrelation (præciseret tilskrivning) (qualifiedAttribution), hvor man med en tilknytningklasse kan tilføje en lang række nye aktører via forskellige domænespecifikke klassifikationer af rolletyper (dog er denne konstruktion mere avanceret og erstatter ikke behovet for placering af de direkte udgiver/skaber-relationer som anbefales og som i mange lande også kræves.