dataoverheid / dcat-ap-donl

Het applicatie profiel van de Europese DCAT-AP standaard voor uitwisseling met data.overheid.nl.
https://dataoverheid.github.io/dcat-ap-donl/
2 stars 1 forks source link

Informatie over de kwaliteit van gegevens in het toepassingsprofiel #5

Closed importalis closed 2 years ago

importalis commented 2 years ago

Data.overheid.nl wil haar eindgebruikers inzicht bieden in de kwaliteit van datasets, zodat zij beter in staat zijn om de voor hen gewenste dataset te selecteren. Hierbij kan worden gedacht aan een filter-optie op de website, waarmee eindgebruikers datasets kunnen filteren op bepaalde kwaliteitskenmerken.

Het Europese toepassingsprofiel van DCAT-2 heeft geen uitwerking voor dit punt. De DCAT-2 standaard beschrijft het volgende:

The Data Quality Vocabulary (DQV) offers common modelling patterns for different aspects of Data Quality. It can relate DCAT datasets and distributions with different types of quality information including:

  • dqv:QualityAnnotation, which represents feedback and quality certificates given about the dataset or its distribution.
  • dqv:QualityPolicy, which represents a policy or agreement that is chiefly governed by data quality concerns.
  • dqv:QualityMeasurement, which represents a metric value providing quantitative or qualitative information about the dataset or distribution.

Each type of quality information can pertain to one or more quality dimensions, namely, quality characteristics relevant to the consumer. The practice to see the quality as a multi-dimensional space is consolidated in the field of quality management to split the quality management into addressable chunks. DQV does not define a normative list of quality dimensions. It offers the quality dimensions proposed in ISO/IEC 25012 and [ZaveriEtAl] as two possible starting points. It also provides an RDF representation for the quality dimensions and categories defined in the latter. Ultimately, implementers will need to choose themselves the collection of quality dimensions that best fits their needs.

W3C heeft in 2016 een notitie gepubliceerd waarin ze een framework beschrijft om de kwaliteit van datasets te beschrijven [VOCAB-DQV]. Zie ook https://www.w3.org/TR/dwbp/#quality.

Tijdens de kick-off van de DCAT-A-DONL werkgroep op 7 oktober 2021 hebben we dit onderwerp kort besproken. Al snel werd duidelijk dat dit onderwerp complex is, omdat kwaliteit geen eenduidig begrip is. Als mogelijk oplossing werd geopperd om eindgebruikers op data.overheid.nl de mogelijkheid te bieden om feedback over de kwaliteit van gegevens te geven. Deze feedback bevat mogelijk interessante informatie voor toekomstige afnemers. Dit is overigens een oplossing die zou kunnen werken voor data.overheid.nl, maar die niet geschikt is voor uitwisseling met andere data-platforms.

Vragen:

  1. Is het gewenst om informatie over de kwaliteit van gegevens op te nemen in toepassingsprofiel van DCAT?
  2. Welke informatie zou dat moeten zijn?
  3. Hoe moet deze informatie worden gestructureerd?
keestrautwein commented 2 years ago

Kwaliteit wordt belangrijk gevonden, maar het blijkt moeilijk zowel voor aanbieders als voor consumenten kwaliteit correct te beschrijven en te lezen. Er zijn ook diverse methodes om kwaliteit te quantificeren, maar die lijken in onze doelgroep niet goed te zijn aangeslagen. Kwaliteit van gegevens bestaat bovendien uit verschillende aspecten: Het Raamwerk gegevenskwaliteit van Nora komt uit op 9 kwaliteitsdimensies , en daarbinnen 24 attributen, waarvan de meeste toepasbaar zijn (en sommige al in DCAT bestaan zoals "update frequentie")

Om dit raamwerk correct te modelleren zou er flinke uitbreiding nodig zijn, die waarschijnlijk slecht ingevuld en slechts begrepen zou worden. Daarom kiezen we er op dit moment voor kwaliteit met een "string" waarde weer te geven. Wij zijn er ons van bewust dat de bruikbaarheid van dit veld voor automatisch zoeken en analyse daarmee veel lager is, maar bij gebrek aan breed gedragen standaard zien wij op dit moment geen andere praktische invulling.