beeldengeluid / data.beeldengeluid.nl

data.beeldengeluid.nl website
https://data.beeldengeluid.nl
0 stars 0 forks source link

EPIC: kickstart the open data lab #64

Open wmelder opened 3 years ago

wmelder commented 3 years ago

Context Deze Epic beschrijft hoe we vanuit de huidige kennis en infrastructuur komen tot een werkende oplossing die het mogelijk maakt om de vraag naar de data van Beeld en Geluid in een open omgeving.

Hierbij moet rekening gehouden worden met vooral de informatievoorziening richting het netwerk van digitale erfgoedinstellingen waar beeld en Geluid deel van uit maakt. Zie overzichtsplaatje

Verder moet er ook goed gekeken worden naar huidige oplossingen ne de mogelijkheden en beperkingen daarvan.

Taken

DAAN als LD: geschikt voor het open data lab (cc0 & schema.org)

Doel: Perfectioneren van het DAAN LD formaat tbv het ODL en een monster (LD files) op te leveren voor verdere ontwikkelingen.

DAAN LD in een triple store (devops)

Doel: automatisch uitrollen van VMs met cliopatria triple stores + het geautomatiseerd importeren van linked data files

DAAN cc0 collectie gekoppeld aan search API (Elasticsearch)

Doel: in ODL is de DAAN beschikbaar als ES collectie, welke via de search API doorzocht kan worden. De daan-catalogue-aggr index dient als basis (wordt gevuld via de DAAN importer).

Implementatie DAAN LD importer

Doel: lange termijn voorziening bouwen welke LD kan voorzien welke in sync is met de DAAN catalogus

DAAN geaggregeerde index GTAA links fixen

Doel: Op dit moment zijn er geen GTAA URIs aanwezig in de daan-catalogue-aggr index die door de DAAN importer wordt gevuld... Voor een betere link met het LD werk is het wenselijk deze URIs wel te hebben.

B&G LOD server voor algemeen publiek

Doel: Resolven van B&G DAAN URIs voor het algemene publiek. Waarschijnlijk pas op te leveren als de kopie van de Flexstore beschikbaar is

Finale versie

wmelder commented 3 years ago

beeldengeluid/labs.beeldengeluid.nl#2

wmelder commented 3 years ago

beeldengeluid/labs.beeldengeluid.nl#3

jblom commented 3 years ago

Hierbij de oude omschrijving van deze issue ter referentie:

stap 1: Koppel de beng-lod-server aan de API van de flex datastore.

[OLD] - Willem koppelt beng LOD server aan index van Johannes (de huidige “importer index” => daan-aggregated-prod-2020)

stap 2: Genereer 'on-the-fly' cc0 data in schema.org formaat en maak een dumpfile.

a) Creeër een mapping voor data uit DAAN naar schema.org. Begin met meest basale velden. Filter op basis van cc0. b) Download alle RDF voor de catalogus items in één file. c) Importeer deze file in een triple store en biedt deze aan aan de testgebruiker (NOB). [OLD] Bij deze koppeling past Willem een filter toe om “on the fly” de cc0 versie van de metadata terug te geven (hier alvast een alias met filter voor maken, bedoel je dat?)

stap 3: Creeër een ES alias op de daan-aggr daat die alleen cc0 toont. Gebruik deze index om te reindexen in AWS.

[OLD] hetzelfde filter kan Johannes nu gebruiken om een reindex te doen op de “importer index” naar AWS (op deze manier hebben we de cc0 index publiekelijk toegankelijk)

stap 4: Jaap configureert de search API (die ook draait in AWS) en maakt een code voorbeeld voor het harvesten van de hele “cc0 index”

Hiermee kunnen we dus data ophalen, per ID, zoeken, en alle data ophalen met scroll endpoint

stap 5: Build & Deploy van een beng-lod-server voor algemeen publiek in AWS.

[OLD] Willem/Martijn zorgen ervoor dat de beng LOD server nu aangesloten is op de cc0 index en op AWS draait, zodat er vanaf ook geresolved kan worden (door het algemene publiek)

stap 6: Aanbieden linked data op data.beeldengeluid.nl domein.

[OLD] nadenken over het subdomein van de URIs, …. TODO

Acceptance criteria beeldengeluid/labs.beeldengeluid.nl#3

wmelder commented 3 years ago

mooie stap gemaakt @jblom hierbij nog een linkeje naar een interessante ontwikkeling op het gebied van linked data:

jblom commented 3 years ago

@wmelder ah tof, het bestaat dus toch! (die Ruben toch). Ok heb het toegevoegd als een optie om mee te nemen bij de LOD server

wmelder commented 3 years ago

het betreft dus profile en niet content negotiation.

jblom commented 3 years ago

ah natuurlijk, check. Ik pas het aan

jblom commented 3 years ago

oh nee had het al goed :P

wmelder commented 2 years ago

we zijn er bijna. vanwege het moeten filteren van items die niet voor algemeen publiek beschikbaar zijn is het nog even wachten op de laatste updates van de beng-lod-server en de data van de lod-importer in de AWS endpoint.

wmelder commented 2 years ago
wmelder commented 2 years ago

voor de updates zouden we kunnen kijken naar de importer voor de media suite. Deze wordt nu omgebouwd naar een OAI-PMH harvester en een multithreaded download, die alle data nu in 5 dagen ophaalt. Dit zouden we voor de lod-importer moeten kunnen hergebruiken. Dan de keus: of a) wekelijks/maandelijks de hele catalogus opnieuw harvesten en catalogus laden ('s nachts), b) met hoge frequentie incrementele updates downloaden en via PSARQL update bijwerken in triple store (dit moet 's nachts).

Mijn voorkeur is a).

mwigham commented 2 years ago

Wekelijks/maandelijks lijkt mij prima. We horen het vast als iemand met een use case komt die frequentere updates vereist.

wmelder commented 2 years ago

@jblom is het ok om deze Epic the closen? Er staat alleen nog wat open rondom de search endpoints voor open data lab, maar dat werk staat dan eigenlijk weer los van het linked data gebeuren.

jblom commented 2 years ago

@wmelder als we deze sluiten wil ik wel graag een nieuwe Epic maken voor het in beheer nemen van het geheel (meer gericht op mijzelf en @MartijnBNG), want dat is nog niet helemaal rond. (o.a. nieuwe importer volledig aangesloten, code kwaliteit en devops nalopen; sowieso alle punten in deze epic nalopen om tot de nieuwe epic te komen).

Ik zou zeggen: maak een afspraak met Martijn en ik, dan lopen we dit door en kunnen we deze sluiten.