digst / DCAT-AP-DK

DCAT-AP-DK er en dansk anvendelsesprofil til beskrivelse af datasæt og datakataloger
https://digst.github.io/DCAT-AP-DK/releases/v.2.0/docs/
8 stars 1 forks source link

Bemærkninger fra KOMBIT #16

Closed fdc-kombit closed 3 years ago

fdc-kombit commented 4 years ago

Hej Jeg har her indsat en opsamling af kommentarer fra KOBMIT. MVH Frank Carvalho

KOMBIT Bemærkninger til DCAT AP DK 2.0

KOMBIT har i et par år anvendt den oprindelige DCAT standard som grundlag for registrering af datasæt. KOMBITs kommentarer tager derfor udgangspunkt i det praktiske arbejde med opbygning af et datasætkatalog, og i konkrete registreringer, som gerne skulle kunne repræsenteres med den foreliggende model. Den væsentligste kommentar fra KOMBIT er, at det er vanskeligt at forstå hvor standarden skelner mellem definition af data og konkrete data. Her gives lidt baggrund for kommentaren. Når data opbevares i systemer vil man typisk definere et database layout, som definerer hvilke felter man registrerer, og igennem navngivningen eller på anden vis angiver en beskrivelse af hvordan de enkelte felter skal forstås. Når man først har defineret databaselayout så lægger man række efter række af konkrete data ind i tabellen. Databaselayout er en form for metadata for de konkrete data, men er ikke i sig selv data i databasen. Databasens layout er en detaljering af en mere abstrakt model for forståelsen af data, som for eksempel en informationsmodel eller en begrebsmodel. Det samme gælder XSD-skema for formater til udveksling af data etc. XSD-skema er heller ikke data, men metadata. Mellem forskellige systeminstanser vil der være forskel på de konkrete data, også selvom de måtte dele database layout. Det helt klassiske eksempel er, at der skal være forskel på de konkrete produktionsdata og de konkrete testdata, selvom de deler databaselayout. Dette er samme skelnen som man anvender mellem klasse og instans i programmeringssprog. Med dette i mente er det vanskeligt at forstå den foreliggende betydning af definitionerne af “Datasæt” og “Distribution”. Definitionen af datasæt er “Et datasæt er en samling af data, ...”, men også “Et datasæt kan betragtes som [et] logisk element der repræsenterer den udgivne information,...”. Et datalayout er ikke i sig selv data, så når der tales om “en samling af data”, så må det forstås således, at der menes de konkrete data. Det er ret uklart hvad der menes med “logisk element”. Ud fra ordlyden er det derfor uklart, om “Datasæt” dækker over “definitionen af data”, eller dækker over de “faktiske data”. Så man må vælge mellem de to betydninger: Hvis man antager at “Datasæt” betyder “definitionen af data”: Med denne forståelse taler man om samme datasæt, selvom der måtte være forskellige konkrete data i for eksempel test- og produktionsmiljø. Der kan endda være tale om samme datasæt, selvom de konkrete data befinder sig i forskellige systemer, hvis blot de følger samme definition. Hvis man vælger denne betydning, så bør definitionen af datasæt nok være noget i retning af “En specifikation/definition af en samling af data,...”. Som konsekvens skal de tilknyttede egenskaber “udgivelsesdato”, “seneste ændringsdato”, “tidslig opløsning” osv. så henvise til definitionens ændringstidspunkter, altså hvornår man har ændret specifikationen af datasamlingen - ikke hvornår fysiske data er blevet ændret. Den information hører til under “Distribution”. Med denne forståelse får man yderligere et problem med definitionen af “Distribution”, idet den er defineret som “en specifik repræsentation af et datasæt”. Men hvis “Datasæt” betyder “definitionen af data”, så vil den specifikke repræsentation af dette jo være for eksempel en datadictionary (SQL tabellayout), en XSD-fil (specifikation af et XML-format), en dataformatbeskrivelse eller lignende. Det vil ikke være de konkrete serialiserede data. Derfor bør man i så fald også ændre definitionen af “Distribution” til “En fysisk forekomst af datasættet,...” i stedet for “En fysisk repræsentation af datasættet,...”, i tråd med klasse/instans-tanken. Hvis “Datasæt” forstås som de “konkrete data”: Her vil “Distribution” betyde serialiseringen af de faktiske data i en XML-fil, en CSV-fil, en tabel etc.. Dette harmonerer meget bedre med beskrivelsen af “Distribution” sådan som den er. Det vil også betyde, at forekomster af data med samme definition i forskellige systemer og miljøer vil være at betragte som forskellige datasæt. (Dette er den praksis der har været anvendt i KOMBT hidtil, baseret på definitionerne i DCAT 1.0). Og det vil betyde, at egenskaberne på “Datasæt” refererer til tilstanden af de konkrete data, og ikke tilstanden af definitionen.

Der synes i øvrigt også, at være forvirring i anvendelsesnoten for “Datasæt”, 4.3, omkring det her emne. Den engelske note er “A conceptual entity that represents the information published”, mens definitionen er “A collection of data,...”, hvilket peger i forskellige retninger. Den danske anvendelsesnote er anderledes, da den gentager definitionen “En samling af data,...”, og dermed peger mod de konkrete data. Endelig gøre illustrationen i 3.7 det heller ikke klart, om hvornår der illustreres konkrete data, og hvornår der illustreres definition af data. Det er vores bud, at den oprindelige hensigt med DCAT “Datasæt” nok har været at repræsentere de konkrete data. Det tyder egenskaberne på klassen også på, ligesom ordlyden af definitionerne af “Distribution” og “Datasæt”. Og det faktum, at “Datasæt” er knyttet til eksterne specifikationer (“theme” 4.3.16 , “type” 4.3.18, “conformsTo” 4.3.14), peger også på, at det ikke var meningen at “Datasæt” selvstændigt skulle repræsentere definitionen af data.

Andre bemærkninger fra KOMBIT: Vedr. 4.3.32, personoplysningskategori. Denne ville også være nyttig til at udpege GDPR-klassificeringer. Der er vel intet til hinder for, at den både kan bruges til at udpege “https://data.gov.dk/concept/core/personaldata-type/PersonalDataCategory/”-værdier men også GDPR-klassificeringer? Afsnit 4: Der er en del begreber hvor der kun findes en "Definition (en)" og ikke en tilsvarende "Definition (dk)". De links i afsnit 4 der hedder noget startende med data.gov.dk/model/ (fx https://data.gov.dk/model/core/dcat-dk/personalDataCategory) virker vist ikke? Vedr. 4.3.6, Datasætansvarlig organisation, Anvendelsesnote (da): Formuleringen “...den overordnede administration af alle forhold omkring et datasæt” er meget vag. Som diskuteret ovenfor skal der tages stilling til betydningen af “Datasæt”, og betydningen af dette felt må også afhænge af denne stillingtagen, altså om der er tale om ansvarlig for definition af data eller ansvarlig for de konkrete data.

aidig commented 3 years ago

Anvendelsesprofilen er opdateret, jf. issue #19 "dcat:Datasæt (dansk anvendelsesnote)" og issue #22 "Ændringsforslag til afsnit 3. Modellens grundlæggende struktur". Issue lukkes.