Geonovum / dcat2-ap-nl

DCAT-AP-NL
0 stars 0 forks source link

Opname van beschrijvende (thematische) gegevens #4

Open gabswiersma opened 1 year ago

gabswiersma commented 1 year ago

DCAT bevat eigenschappen waarmee waardes kunnen worden toegekend aan een resource om de zoekbaarheid ervan te vergroten: dcat:Theme, dcat:Keywords, dct:type, dct:conformsTo. Een aantal voordelen en nadelen van het gebruik van deze eigenschappen wordt beschreven in https://dataoverheid.github.io/dcat-ap-donl/#vindbaarheid.

Het is de vraag of er extra beperkingen van toepassing zijn op het NL profiel (ten opzichte van DCAT-AP-EU, waarin het gebruik van deze eigenschappen optioneel is) .

hekl commented 1 year ago

Bij zoeken worden gebruikers enorm geholpen door het gebruik van een consistent systeem van trefwoorden, keywords en thema's. Bij het CBS gebruiken we een taxonomie voor het taggen van al onze content. Ik zou kunnen pleiten voor het gebruik van deze termen, maar vanuit meerdere perspectieven is zelfs deze uitgebreide termenset te beperkt. Gezien het feit dat dit een Nederlands project is met sterke links naar Europa, zou ik willen pleiten voor het gebruik van EuroVoc als keyword systeem voor het taggen van data. Deze thesaurus is beschikbaar in meerdere talen en zal naar diverse Europese data leiden. Dat lijkt me grote winst.

keestrautwein commented 1 year ago

Een opmerking: Het is belangrijk onderscheid te maken tussen "vrije" velden waarin gebruikers in principe alles kunnen invullen zoals titels, beschrijvingen en dcat:keyword, velden met enige beperkingen zoals conformsTo (dat heel breed ingezet kan worden) en velden die waardelijsten bevatten zoals dcat:theme.

hekl commented 1 year ago

Goed punt, @keestrautwein. Ik denk wel dat er veel te winnen valt als je een expliciete aanbeveling doet voor een standaard vocabulaire voor dcat:keyword. Hoewel ik zelf liefst verplicht zou maken. Een van doelen van DCAT is het vindbaar maken van datasets in portals en over portals heen. Een standaard keyword vocabulaire helpt daar bij.

keestrautwein commented 1 year ago

Volgens mij zitten we op dezelfde lijn @hekl. Ik zou alleen voorstellen dat als we een standaard vocabulaire kennen zoals jij hierboven beschrijft, die altijd als een thema aangeboden wordt. Dat is namelijk het verschil tussen keywords en thema's: keywords zijn vrij, thema's zijn vastgestelde lijsten.

Merk op dat een kracht van Thema's is dat er waardes uit meerdere thema-lijsten aan hetzelfde DCAT object gekoppeld kunnen worden. Eén van de mogelijkheden die dit biedt is dat een item over verschillende "assen" gelabeld kan worden en dat er zowel algemene als specifieke labels gegeven kunnen worden. In mijn ogen zijn thema's het belangrijkste middel om (automatisch) gegevens te kunnen vinden in een groot aanbod.

Omdat Thema-lijsten skos:conceptScheme's zijn kunnen ze eenvoudig gemaakt worden en bovendien eenvoudig van uitleg voorzien worden zodat het gebruik duidelijk is.

Ik zou het niet vreemd vinden als ons NL-profiel een aantal thema's verplicht stelt die altijd toegekend kunnen worden, zoals de Thema-indeling voor Officiële Publicaties (TOP-lijst) of de owms:TaxonomieBeleidsagenda (of de TOOI opvolgers hiervan(OWMS wordt uitgefaseerd)). Hiermee wordt het/de beleidsterrein(en) aangegeven.
Ee andere as zou het gebruik van de Clusterbegrippen van Stelselcatalogus zijn om aan te geven welke gegevens er worden aangeboden. Dat geeft een heel krachtig filter mechanisme. Er zijn nu nog weinig Clusterbgrippen waardoor sommige terreinen slechts bediend worden, maar daar wordt in 2023 aan gewerkt (alle input welkom!).

Naast globale lijsten is er ook veel waarde om thema-lijsten in deelgebieden toe te passen zodat er fijnmazig gefilterd kan worden.

Bovenstaande is een voorstel uit de losse pols. Ik verwacht dat er nog allerlei andere thema-lijsten beschikbaar zijn die toekomstige gebruikers kunnen helpen zowel globaal als in deelgebieden. Het is ook iets waar we met zijn allen naar toe kunnen groeien: steeds meer thema's aanbieden naarmate er meer beschikbaar komen. Rond data.overheid.nl hebben we besproken dat bijvoorbeeld het gebruik van keywords bekeken kan worden, omdat daaruit mogelijk nieuwe thema-lijsten samengesteld kunnen worden, voor hoogwaardiger "rubricering" dan met keywords.

CasperKoop commented 1 year ago

Issue #10 gaat over welke waardelijsten er voor thema gebruikt (kunnen) worden.

idevisser commented 1 year ago

Aanvullend op wat @keestrautwein in https://github.com/Geonovum/dcat2-ap-nl/issues/4#issuecomment-1612575003 al aangaf over het verschil in velden, zou ik voor de discussie over thema's en trefwoorden willen voorstellen volgende onderscheid te hanteren;

dct:subject wordt gebruikt voor onderwerpen, met of zonder URI dcat:theme (sub-property of dct:subject) wordt gebruikt voor thema's uit een controlled vocabulary, die een URI hebben dcat:theme in combi met skos:ConceptScheme voor thema's uit een controlled vocabulary die geen URI hebben dcat:keyword wordt gebruikt voor trefwoorden, die niet uit een controlled vocabulary komen.

idevisser commented 1 year ago

Het onderscheid zoals direct hierboven beschreven in https://github.com/Geonovum/dcat2-ap-nl/issues/4#issuecomment-1632309834 is vanuit geo perspectief wellicht verwarrend, omdat de trefwoorden daar vaak juist wel uit controlled vocabulary komen. Voorstel om die dan bij dcat:theme op te nemen.

skornsekj commented 1 year ago

Aanvullend. Volgens DCAT-AP zou trouwens minimaal de EU data theme vocabulary opgenomen moeten worden, om minimale interoperabiliteit te borgen.

Ter info voor het geodomein. Binnen GeoDCAT zijn mappings gemaakt om de ISO 19115 / INSPIRE thema's te mappen op de EU data-themes

aframosp commented 1 year ago

Via de RIVM we gebruiken SNOMED voor medische gegevens. We zoeken ook intern naar terminologien/themas binnen het gezondheids domain.