beeldengeluid / beng-lod-server

LOD server for B&G catalogue
MIT License
1 stars 1 forks source link

gtaa:31100 not found, but is part of service-layer #294

Closed gb-beng closed 1 year ago

gb-beng commented 2 years ago

https://data.beeldengeluid.nl/gtaa/31100 is not found, but

wmelder commented 2 years ago

Lijkt er op dat onderdelen van ConceptScheme Producties niet is geladen.

Met deze query op het SPARQL endpoint blijkt dat andere concepten wel geladen zijn:

PREFIX skos: <http://www.w3.org/2004/02/skos/core#>

SELECT *
WHERE {
    VALUES ?concept_scheme { <http://data.beeldengeluid.nl/gtaa/Productie> }
  ?concept_uri skos:prefLabel ?pref_label ;
               skos:inScheme ?concept_scheme
}

Een mogelijke oplossing is om de data opnieuw te harvesten via OAI-PMH. Momenteel worden de GTAA concepten nog geladen uit het open data endpoint. Een oplossing zou kunnen zijn om de GTAA concepten direct uit de service layer te halen, door het SPARQL endpoint te gebruiken om de RDF op te halen, net zoals het termennetwerk dat doet. Beng-lod-server gebruikt dit endpoint:

    SPARQL_ENDPOINT = "https://cat.apis.beeldengeluid.nl/sparql"

Het is niet veel werk om dit aan te passen naar een apart endpoint voor de GTAA. Dit zou ook veel beter passen bij het apart in beheer geven van de GTAA landingspagina.

We zullen echter nog steeds moeten zorgen dat de thesaurus data correct geladen is in de KG (open cat endpoint). Dit staat al op de todo lijst.

Example URIs: http://prd-skosapp-bng-01.mam.beeldengeluid.nl/gtaa/31149 http://prd-skosapp-bng-01.mam.beeldengeluid.nl/gtaa/31100

wmelder commented 2 years ago

https://github.com/beeldengeluid/beng-lod-server/issues/303

wmelder commented 2 years ago

Apparantly, the lod-importer harvests, beng:gtaa set, which is ofcourse understandable. But, when looking at the missing concepts, they come from beng:nongtaa, which is still used for the set selection mechanism for the OAI-PMH. beng:nongtaa:Zendgemachtigde On can find the sets here:

https://gtaa.apis.beeldengeluid.nl/oai-pmh?verb=ListSets

What I find puzzling is that some concepts from Zendgemachtigde, that is part of the set nongtaa, are in the triple store. On second thought, these concepts are part of more than one COnceptScheme, for example: http://data.beeldengeluid.nl/gtaa/56594, that is both in Productie (nongtaa) as in Namen (gtaa).

I think the easiest solution is to harvest the set beng, that will include both gtaa and nongtaa. Of course, when we share stuff we only provide the the part of the thesaurus that is in the GTAA. The rest is just for us internally.

wmelder commented 2 years ago

The new dump does contain the missing concept:

[wmelder@zorin ~]$  grep http://data.beeldengeluid.nl/gtaa/31100 ./data/nisv/thes/nisv_thes_gtaa_20221105.nt
<http://data.beeldengeluid.nl/gtaa/31100> <http://openskos.org/xmlns#set> <http://data.beeldengeluid.nl/set/nongtaa> .
<http://data.beeldengeluid.nl/gtaa/31100/label/819aa6e5-459e-4ed5-a0ac-023bcb96c679> <http://www.w3.org/1999/02/22-rdf-syntax-ns#type> <http://www.w3.org/2008/05/skos-xl#Label> .
<http://data.beeldengeluid.nl/gtaa/31100> <http://purl.org/dc/terms/modified> "2021-02-17T16:06:08+00:00"^^<http://www.w3.org/2001/XMLSchema#dateTime> .
<http://data.beeldengeluid.nl/gtaa/31100/label/819aa6e5-459e-4ed5-a0ac-023bcb96c679> <http://purl.org/dc/terms/modified> "2018-04-20T14:52:07+00:00"^^<http://www.w3.org/2001/XMLSchema#dateTime> .
<http://data.beeldengeluid.nl/gtaa/31100/label/b726d6a6-fa1f-4946-901e-96bf580f3024> <http://www.w3.org/2008/05/skos-xl#literalForm> "VPRO"@nl .
<http://data.beeldengeluid.nl/gtaa/31100> <http://www.w3.org/2004/02/skos/core#notation> "31100"^^<http://www.w3.org/2001/XMLSchema#long> .
etc.

Next thing to do is to load it to the triple store. This needs to be scheduled, so we can load the latest cat dump as well.

wmelder commented 2 years ago

Will be fixed with https://github.com/beeldengeluid/x-omgeving/issues/675

gb-beng commented 1 year ago

Let's close this once new triples are loaded (https://github.com/beeldengeluid/x-omgeving/issues/675) and we verify the gtaa concept shows up. Will read the explanation later.

wmelder commented 1 year ago

The gtaa concept show up, but it misses a preflabel. It does have a skosxl:prefLabel with a skosxl:literalForm, but it seems to be missing a skos:prefLabel, where other concepts do have it.

Apparantly, the skos:prefLabel comes from the /cat graph, so from the catalog data. The /thes graph contains skosxl data from coming from the OAI-PMH endpoint only.

https://github.com/beeldengeluid/beng-lod-server/issues/318