Vastlegging van eigenschappen dataset/schema

gabswiersma commented 1 year ago

Hiermee wordt bedoeld het specificeren van het soort data (gestructureerd/ongestructureerd, aanwezigheid van schema’s en formele informatiemodellen). Voor onderzoekers is informatie over de structuur van gegevens (en mogelijk ook kwaliteit) bijvoorbeeld belangrijk. Een voorbeeld hiervan is te vinden in: https://github.com/dataoverheid/dcat-ap-donl/issues/2.

Vanuit het statistische domein zijn er standaarden die toegepast worden om soortgelijke informatie te beschrijven. Een veelgebruikt model is SDMX. Echter brengt het gebruik van deze specificatie ook enige complexiteit met zich mee. Vanuit de W3C is hier ook ooit een voorstel voor gemaakt. De vraag is of het gebruik van zulke oplossingen gewenst is in de context van het NL profiel, want er zijn ook andere alternatieven (bijvoorbeeld: het toevoegen van een verwijzing naar documentatie van een datamodel, via een optionele dct:conformsTo attribuut).

hekl commented 1 year ago

Als je kijkt naar wat schema.org/Dataset doet, dan vind je al een handreiking. In eerste instantie is dit een eenvoudige opzet, maar men geeft wel aan welke variabelen en welke onderzoekstechnieken gebruikt worden. De vermelding van de variabelen is voor onderzoekers zeker van belang, maar is iets wat buiten de dcat standaard ligt. Ook de gebruikte dimensies van een dataset zijn vaak van groot belang (leeftijden, geslacht, geografische specificiteit). Er is ook al een schema.org uitbreiding van deze onderdelen, die de statistische populatie en de te meten objecten opneemt. Zie ook de uitwerking en praktische voorbeelden op de ontwikkelaarspagina.
Er is natuurlijk ook STAT-DCAT. Die breidt de DCAT standaard uit met dimensies , en attributen en een unitMeasure. Op zich zinvolle toevoegingen. Daarnaast zou ik als verplichte eigenschap dcat:keyword willen opnemen, maar dit lijkt mij alleen zinvol als hier ook een specifieke standaard voor wordt voorgesteld. In een andere opmerking, heb ik al aangegeven dat EuroVoc daar een goede kandidaat voor is.

Bakkej commented 1 year ago

Het lijkt mij zeer interessant om iets van een best practice op te nemen over het verwijzen naar de gehanteerde informatiemodellen voor gestructureerde data. Dit is ontzettend belangrijk om de data te kunnen begrijpen. Niet alleen voor bijvoorbeeld de BAG of de BRK; maar ook voor een 'eenvoudige' csv. DCAT geeft aan dat hiervoor dct:conformsTo gebruikt kan worden; maar dit gaat niet sec om informatiemodellen; een dct:Standard heeft dan ook een vrij brede definitie:

A basis for comparison; a reference point against which other things can be evaluated Het is wel de insteek om hiermee in ieder geval naar het informatiemodel te verwijzen: This property SHOULD be used to indicate the model, schema, ontology, view or profile that the cataloged resource content conforms to. We kunnen in DCAT-AP-NL nog een toelichting bij bieden.

We kunnen het hebben over of we hiervoor bijvoorbeeld MIM willen noemen, of alternatieven. Voor metadata over informatiemodellen, kunnen we bijvoorbeeld ADMS noemen, wel de vraag of dat in scope is.

Ik weet niet of het elders al is afgedekt maar ik kan mij voorstellen dat we datasets inderdaad verder gaan classificeren, zoals in het issue wordt gesuggereerd. Bijvoorbeeld als "Gestructureerd" (dan past een constraint als informatiemodel is verplicht) of "ongestructureerd", misschien ook "sensor data" of iets dergelijks. Dan moeten we misschien gaan kijken naar dct:type, zie ook https://github.com/w3c/dxwg/issues/64

CorMelse commented 1 year ago

is de ISO19110 hier geen werkbare optie? dan leg je het weliswaar niet in DCAT termen vast maar je kunt er wel naar verwijzen of is de ISO een te beperkte in deze discussie. heb er nog niet mee gewerkt

Geonovum / dcat2-ap-nl

Vastlegging van eigenschappen dataset/schema #6