digst / DCAT-AP-DK

DCAT-AP-DK er en dansk anvendelsesprofil til beskrivelse af datasæt og datakataloger
https://digst.github.io/DCAT-AP-DK/releases/v.2.0/docs/
9 stars 1 forks source link

Fra Miljøstyrelsen: Bidrag til begrebsafklaring #18

Closed tukof-mst closed 4 years ago

tukof-mst commented 4 years ago

Sendt til DIGST per mail d. 10.03.2020, tilføjet her af dokumentations-hensyn.

Jeg giver her mine umiddelbare kommentarer til jeres og SDFEs forslag om at definere ”dataset” som ”a collection of data that is regarded as a unit”.

Forslaget lægger i mine øjne unødigt vægt på ”collection”, mens definitionens afgørende element er, eller bør være, ”regarded as a unit”.

Med afsæt i matematikkens/sæt-teoriens definition af et ”sæt” vil jeg anbefale definitionen: ”en konceptuelt velafgrænset samling af data”, eller på engelsk: ”a conceptually well-defined collection of data”. En sådan definition vil tydeliggøre, at det der skaber ”datasættet”, dvs. oplevelsen af en samling af data, er ”det velafgrænsede koncept”, ikke omvendt. Eller forklaret på en anden måde; vi begynder med en masse data (dvs. med det velafgrænsede koncept/datasæt som betegner objektklassen data, dvs. per definition alle data), som vi med udgangspunkt i vores mentale modeller, dvs. begreber/koncepter inddeler i (yderligere) ”datasæt”.

Den her foreslåede definition medfører nødvendigvis også, at man aldrig kan tale om et datasæt uden altid også at afgrænse dette konceptuelt og at et katalog over datasæt derfor også altid må kundgøre, hvilke typer af datasæt, kataloget informerer om.

I Miljøstyrelsen har vi et stykke tid arbejdet ud fra den tese, at vores datasæt-katalog som minimum skal informerer om fysisk velafgrænsede datasæt, såsom konkrete filsystemer, datafiler, databaser eller databaseobjekter. Vi har dog sideløbende været opmærksomme på nødvendigheden af mere abstrakte datasæt-typer, hvis konceptuelle afgrænsning ikke udgøres af datas fysiske opbevaringssted, men derimod afgrænses af deres forretningsmæssige informationsindhold.

Den datasæt-type, som DCAT beskriver, ligner mere sidstnævnte datasæt-type, nemlig et datasæt hvis konceptuelle afgrænsning udgøres af det forretningsmæssige informationsindhold, som dct:description specificerer. Denne datasæt-type, refererer så mere fysisk velafgrænsede datasæt-typer (datasæt-repræsentation), som tilsammen kan realisere førnævnte forretningsmæssige informationsindhold.

Førnævnte sæt-teori definerer mere specifikt et ”sæt” som, på engelsk: ”a well defined collection of distinct objects”, hvorfor det måske også kan være gavnligt for vores fælles forståelse at introducere begrebet dataelement eller dataobjekt for de distinkte objekter/elementer, som et datasæt altid består af. Et dataelement/dataobjekt kan her defineres som ”data som ikke kan opdeles yderligere uden at miste sit informationsindhold”. Vi vil her have fået fat om det mindsteelement, som vi kan registrere eller være interesseret i metadata om, herunder information om dataansvar m.m.

Jeg håber, at ovenstående vil kunne virke som et konstruktivt bidrag i vores dialog om vores konkrete individuelle og fælles behov for metadata.

aidig commented 4 years ago

OBS: Dette issue er relateret til: https://github.com/digst/DCAT-AP-DK/issues/2

Den foreslående definition udtrykker samme holdning til den aktuelle definition af 'datasæt i DCAT, nemlig at den er for snæver: (A collection of data, published or curated by a single agent, and available for access or download in one or more representations).

Digst-SDfe har i det indsendte forslag til W3C/OGC opbygget definitionen således at overbegrebet nævnes først (collection of data/samling af data) og dernæst fremhævet trækket (regarded as a unit) (iht ISO704). Der er stor lighed mellem trækkene ”conceptually well-defined’ og ”regarded as a unit” – og vi hører meget gerne interessenters tanker om dette.

tukof-mst commented 4 years ago

Hej alle

Jeg vil blot pointere, at uenigheden mellem mit forslag og det forslag, som DIGST/SDFE allerede har indsendt til W3C/OGC ikke primært går på anvendelsen af formuleringen "conceptually well-defined" i modsætning til "regarded as a unit". Mit forslag vedrører snarere, hvad der i definitionen skal stå som overbegreb.

DIGST/SDFE har foreløbigt foreslået, at et datasæt defineres som: "a collection of data that is regarded as a unit”. Definitionen giver unødigt indtryk af, at der allerede er tale om en samling. Men det afgørende er i mine øjne ikke, om der er tale om en samling/collection af data eller ej, hvilket der nemlig per definition altid er, når man har med et sæt at gøre. Det afgørende er, hvad der gør samlingen, hvad der gør sættet? Og her mener jeg, at definitionen "a conceptually well defined" gør bedre opmærksom på denne aktivitet, som afgrænser og dermed skaber datasættet. Man kan således ikke tale om et "datasæt", uden også altid at beskrive det, som afgrænser det, det som gør det til et sæt, til noget forskelligt fra andre datasæt.

Desuden vil jeg mene, at enhver "collection" per definition altid er "regarded as a unit", hvofor formuleringen som sådan fremstår tautologisk. For så vidt samme kritik kan rejses mod mit eget forslag, bør vi nok overveje en endnu mere skrabet definition på et datasæt nemlig: "a set of data"., hvilket vil tvinge os og andre til at henholde os den mest specialiserede definition af et sæt, nemlig sætteoriens, som lyder: ”a well defined collection of distinct objects”. Også her står det nemlig tydeligt, at det der gør samlingen er det, at de er veldefinerede.

Mvh

aidig commented 4 years ago

Kommentarer modtaget fra MST ifm. den offentlige kommentering af DCAT-AP-DK 2.0

Kommenteringsskema Dokumentet/dokumenter der kommenteres på: Udkast til anvendelsesprofil for DCAT-AP-DK 2.0 Organisationen der kommenterer: Miljøstyrelsen

Kommentarer: Generelt: Rigtig fint arbejde alt i alt!

Specifikt: 3.3 Jeg henviser her til tidligere dialog om en mere retvisende og anvendelig definition af begrebet ”datasæt”. Den eksisterende definition kan dog accepteres, hvis og såfremt det tilføjes, at den alene definerer en konkret specialisering, som er målrettet DCAT-AP-DK 2.0, hvorfor den altså ikke afspejler en mere generel datasæt-klasse og dennes definition (som MST, ligesom DIGST, tidligere har givet et bud). MST er fortaler for en sådan pragmatisk og tydelig typificering af DCAT-AP-DKs datasæt-klasse, selvom det også er vigtigt at udbrede kendskabet til en mere abstrakt definition, som kontrast til denne specialisering.

3.4 Her henvises igen til tidligere dialog om definitionen af klassen distribution (se mail sendt til Anna Odgaard og Peter Bruhn d. 20. maj 2020). Forholdet mellem det informationsindhold, som angives under datasættets beskrivelse og det informationsindhold som distributionen rent faktisk indeholder bør tydeliggøres i dette afsnit. Hvis og såfremt enhver distribution under ét og samme datasæt kan forventes at indeholde samme informationsindhold, kunne det måske nævnes, at den samme distribution rent logisk aldrig vil optræde under flere forskellige datasæt (jf. også multipliciteten angivet i illustrationen 3.7).

4.3.4 Det antages her, at den nævnte multiplicitet dækker over det forhold, at et givent datasæts beskrivelse kan findes på forskellige sprog. Hvis ikke, bør multipliciteten være én og kun én beskrivelse per datasæt.

4.3.29 & 4.27 Det er er givet, at der er tale om egenskaber som angiver ”metadata” for et givent datasæt. Set i det lys, synes det unødvendigt at anvende ”metadata” i egenskabens navn (med mindre der selvfølgelig er tale om metadatas egen datakvalitet). Egenskaben anbefales derfor omdøbt til Egenskab: datakvalitet. Endnu bedre ville det være, hvis de 4 datakvalitetsparametre, som DIGST anbefaler, optrådte som separate anbefalede egenskaber under DCAT-AP-DK 2.0.

4.3.34 Hjemmel kan/bør kunne afledes af oplyste FORM-kode, hvorfor det bør overvejes, om ikke denne egenskabs information er redundant.

4.3.45 Der mangler her, som andre steder, en dansk definition

4.4.22 & 4.4.23 Det forvirrer at denne egenskab, som vedrører datas informationsindhold, også findes som egenskab for Datasæt, jf. kommentaren til punkt 3.4

4.13.1 til 4.13.4 Den semantiske forskel mellem startdato og har begyndelse, samt slutdato og har slutning virker her uklar.

4.14.2 Det undrer her, at egenskabens navn står skrevet i datid.

aidig commented 4 years ago

Behandlet på følgegruppemøde og lukkes.