EPIC: kickstart the open data lab

wmelder commented 3 years ago

Context Deze Epic beschrijft hoe we vanuit de huidige kennis en infrastructuur komen tot een werkende oplossing die het mogelijk maakt om de vraag naar de data van Beeld en Geluid in een open omgeving.

Hierbij moet rekening gehouden worden met vooral de informatievoorziening richting het netwerk van digitale erfgoedinstellingen waar beeld en Geluid deel van uit maakt. Zie overzichtsplaatje

Verder moet er ook goed gekeken worden naar huidige oplossingen ne de mogelijkheden en beperkingen daarvan.

Taken

DAAN als LD: geschikt voor het open data lab (cc0 & schema.org)

Doel: Perfectioneren van het DAAN LD formaat tbv het ODL en een monster (LD files) op te leveren voor verdere ontwikkelingen.

[x] perfectioneer de cc0 versie in schema.org formaat middels de LOD server aan te sluiten op de Flexstore API. zie deze issue
[x] implementeer een simpel scriptje om een LD file dump (monster) te maken op basis van de LOD server. zie issue hier COMMENT WM: uitzoeken hdt dump
[x] publiceer het monster op in de opendatalab GH (ook voor devops) COMMENT WM: Het lijkt me niet zinvol om het monster op GH te plaatsen, omdat het data is. En heel veel data. Een link naar een file op een server moet voldoende zijn.
[x] stel het NOB op de hoogte van het monster
[x] (optioneel) pas profile negotiation toe om beide schema.org en het B&G schema opvraagbaar te maken

DAAN LD in een triple store (devops)

Doel: automatisch uitrollen van VMs met cliopatria triple stores + het geautomatiseerd importeren van linked data files

[x] beeldengeluid/labs.beeldengeluid.nl#180
[x] importeer het monster (via GH) in de cliopatria store COMMENT WM: ik zie geen toegevoegde waarde om dit via GH te doen. Een gewone file link is voldoende. Suggestie: publiceer de file link op de CKAN instance van de mediasuite. Dan kunnen we daar ook de updates bijhouden.
[x] gebruik postman om de SPARQL endpoint te testen (met een query die iets uit het monster opdiept)
[ ] gebruik postman om de service te monitoren

DAAN cc0 collectie gekoppeld aan search API (Elasticsearch)

Doel: in ODL is de DAAN beschikbaar als ES collectie, welke via de search API doorzocht kan worden. De daan-catalogue-aggr index dient als basis (wordt gevuld via de DAAN importer).

[ ] onderzoek of het nodig is daan-catalogue-aggr te filteren of dat het nodig is een alias aan te maken om bepaalde resources uit te sluiten
[ ] implementeer een nieuwe search API mapping (voor een nieuwe indexnaam daan-catalogue-aggr-cc0) die ervoor zorgt dat de geretourneerde resources cc0 zijn (b.v. omschrijvingen inkorten en bepaalde velden uitsluiten)
[ ] reindex de nieuwe alias (of de hele index) naar het AWS ES7 cluster naar het nieuwe daan-catalogue-aggr-cc0

Implementatie DAAN LD importer

Doel: lange termijn voorziening bouwen welke LD kan voorzien welke in sync is met de DAAN catalogus

[x] implementeer een nieuwe importer die gebruik maakt van dezelfde cc0 mapping welke gebruikt is bij de LOD server koppeling met de flexstore
[ ] zorg dat de importer automatisch gedeployed wordt via GitHub actions
[x] zorg dat de output eenvoudigweg in LD files wordt opgeslagen OF direct in een AWS triplestore
[ ] verzin een manier om om te gaan met binnenkomende updates en deletes (hoe wijzig je reeds opgeslagen triples in files; bij triplestore wel vrij eenvoudig)

DAAN geaggregeerde index GTAA links fixen

Doel: Op dit moment zijn er geen GTAA URIs aanwezig in de daan-catalogue-aggr index die door de DAAN importer wordt gevuld... Voor een betere link met het LD werk is het wenselijk deze URIs wel te hebben.

[x] pas de DAAN importer aan, zodat de URIs standaard worden meegenomen
[x] implementeer een script dat ontbrekende URIs kan bijvoegen in de index
[ ] zorg dat de index_template (mapping) wordt bijgewerkt

B&G LOD server voor algemeen publiek

Doel: Resolven van B&G DAAN URIs voor het algemene publiek. Waarschijnlijk pas op te leveren als de kopie van de Flexstore beschikbaar is

[x] zorg dat de LOD server is aangesloten op de kopie van de Flexstore
[x] zorg ervoor dat er een duidelijke afspraak is dat de kopie Flexstore gekoppeld mag worden tbv het ODL
[x] test het geheel binnen het domein data.rdlabs.beeldengeluid.nl (in AWS in het ODL)
[x] zorg dat het allemaal draait op HTTPS

Finale versie

[x] zorg dat het data.beeldengeluid.nl domein gekoppeld is aan de LOD server

wmelder commented 3 years ago

beeldengeluid/labs.beeldengeluid.nl#2

wmelder commented 3 years ago

beeldengeluid/labs.beeldengeluid.nl#3

jblom commented 3 years ago

Hierbij de oude omschrijving van deze issue ter referentie:

stap 1: Koppel de beng-lod-server aan de API van de flex datastore.

[OLD] - Willem koppelt beng LOD server aan index van Johannes (de huidige “importer index” => daan-aggregated-prod-2020)

stap 2: Genereer 'on-the-fly' cc0 data in schema.org formaat en maak een dumpfile.

a) Creeër een mapping voor data uit DAAN naar schema.org. Begin met meest basale velden. Filter op basis van cc0. b) Download alle RDF voor de catalogus items in één file. c) Importeer deze file in een triple store en biedt deze aan aan de testgebruiker (NOB). [OLD] Bij deze koppeling past Willem een filter toe om “on the fly” de cc0 versie van de metadata terug te geven (hier alvast een alias met filter voor maken, bedoel je dat?)

stap 3: Creeër een ES alias op de daan-aggr daat die alleen cc0 toont. Gebruik deze index om te reindexen in AWS.

[OLD] hetzelfde filter kan Johannes nu gebruiken om een reindex te doen op de “importer index” naar AWS (op deze manier hebben we de cc0 index publiekelijk toegankelijk)

stap 4: Jaap configureert de search API (die ook draait in AWS) en maakt een code voorbeeld voor het harvesten van de hele “cc0 index”

Hiermee kunnen we dus data ophalen, per ID, zoeken, en alle data ophalen met scroll endpoint

stap 5: Build & Deploy van een beng-lod-server voor algemeen publiek in AWS.

[OLD] Willem/Martijn zorgen ervoor dat de beng LOD server nu aangesloten is op de cc0 index en op AWS draait, zodat er vanaf ook geresolved kan worden (door het algemene publiek)

stap 6: Aanbieden linked data op data.beeldengeluid.nl domein.

[OLD] nadenken over het subdomein van de URIs, …. TODO

Acceptance criteria beeldengeluid/labs.beeldengeluid.nl#3

wmelder commented 3 years ago

mooie stap gemaakt @jblom hierbij nog een linkeje naar een interessante ontwikkeling op het gebied van linked data:

NB neem profile negotiation mee in de ontwikkeling. Dit kan een oplossing zijn om data in meerdere modellen (eigen NISV en schema.org) beschikbaar te maken.

jblom commented 3 years ago

@wmelder ah tof, het bestaat dus toch! (die Ruben toch). Ok heb het toegevoegd als een optie om mee te nemen bij de LOD server

wmelder commented 3 years ago

het betreft dus profile en niet content negotiation.

jblom commented 3 years ago

ah natuurlijk, check. Ik pas het aan

jblom commented 3 years ago

oh nee had het al goed :P

wmelder commented 2 years ago

we zijn er bijna. vanwege het moeten filteren van items die niet voor algemeen publiek beschikbaar zijn is het nog even wachten op de laatste updates van de beng-lod-server en de data van de lod-importer in de AWS endpoint.

wmelder commented 2 years ago

beng-lod deel is klaar. Er zijn alleen nog wat kleine redirect issues open.
Verder zijn de updates voor sparql endpoint zijn niet dynamisch, maar kan er frequent een nieuwe dump galaden worden (met enige downtime).
deze epic refereert ook aan de mediasuite aggregated index. deze zou wellicht beter naar nieuwe/andere issue kunnen verplaatsen. dan kunnen we deze epic afsluiten.

wmelder commented 2 years ago

voor de updates zouden we kunnen kijken naar de importer voor de media suite. Deze wordt nu omgebouwd naar een OAI-PMH harvester en een multithreaded download, die alle data nu in 5 dagen ophaalt. Dit zouden we voor de lod-importer moeten kunnen hergebruiken. Dan de keus: of a) wekelijks/maandelijks de hele catalogus opnieuw harvesten en catalogus laden ('s nachts), b) met hoge frequentie incrementele updates downloaden en via PSARQL update bijwerken in triple store (dit moet 's nachts).

Mijn voorkeur is a).

mwigham commented 2 years ago

Wekelijks/maandelijks lijkt mij prima. We horen het vast als iemand met een use case komt die frequentere updates vereist.

wmelder commented 2 years ago

@jblom is het ok om deze Epic the closen? Er staat alleen nog wat open rondom de search endpoints voor open data lab, maar dat werk staat dan eigenlijk weer los van het linked data gebeuren.

jblom commented 2 years ago

@wmelder als we deze sluiten wil ik wel graag een nieuwe Epic maken voor het in beheer nemen van het geheel (meer gericht op mijzelf en @MartijnBNG), want dat is nog niet helemaal rond. (o.a. nieuwe importer volledig aangesloten, code kwaliteit en devops nalopen; sowieso alle punten in deze epic nalopen om tot de nieuwe epic te komen).

Ik zou zeggen: maak een afspraak met Martijn en ik, dan lopen we dit door en kunnen we deze sluiten.

beeldengeluid / data.beeldengeluid.nl