Open wmelder opened 3 years ago
beeldengeluid/labs.beeldengeluid.nl#2
beeldengeluid/labs.beeldengeluid.nl#3
Hierbij de oude omschrijving van deze issue ter referentie:
[OLD] - Willem koppelt beng LOD server aan index van Johannes (de huidige “importer index” => daan-aggregated-prod-2020)
a) Creeër een mapping voor data uit DAAN naar schema.org. Begin met meest basale velden. Filter op basis van cc0. b) Download alle RDF voor de catalogus items in één file. c) Importeer deze file in een triple store en biedt deze aan aan de testgebruiker (NOB). [OLD] Bij deze koppeling past Willem een filter toe om “on the fly” de cc0 versie van de metadata terug te geven (hier alvast een alias met filter voor maken, bedoel je dat?)
[OLD] hetzelfde filter kan Johannes nu gebruiken om een reindex te doen op de “importer index” naar AWS (op deze manier hebben we de cc0 index publiekelijk toegankelijk)
Hiermee kunnen we dus data ophalen, per ID, zoeken, en alle data ophalen met scroll endpoint
[OLD] Willem/Martijn zorgen ervoor dat de beng LOD server nu aangesloten is op de cc0 index en op AWS draait, zodat er vanaf ook geresolved kan worden (door het algemene publiek)
[OLD] nadenken over het subdomein van de URIs, …. TODO
Acceptance criteria beeldengeluid/labs.beeldengeluid.nl#3
mooie stap gemaakt @jblom hierbij nog een linkeje naar een interessante ontwikkeling op het gebied van linked data:
@wmelder ah tof, het bestaat dus toch! (die Ruben toch). Ok heb het toegevoegd als een optie om mee te nemen bij de LOD server
het betreft dus profile en niet content negotiation.
ah natuurlijk, check. Ik pas het aan
oh nee had het al goed :P
we zijn er bijna. vanwege het moeten filteren van items die niet voor algemeen publiek beschikbaar zijn is het nog even wachten op de laatste updates van de beng-lod-server en de data van de lod-importer in de AWS endpoint.
voor de updates zouden we kunnen kijken naar de importer voor de media suite. Deze wordt nu omgebouwd naar een OAI-PMH harvester en een multithreaded download, die alle data nu in 5 dagen ophaalt. Dit zouden we voor de lod-importer moeten kunnen hergebruiken. Dan de keus: of a) wekelijks/maandelijks de hele catalogus opnieuw harvesten en catalogus laden ('s nachts), b) met hoge frequentie incrementele updates downloaden en via PSARQL update bijwerken in triple store (dit moet 's nachts).
Mijn voorkeur is a).
Wekelijks/maandelijks lijkt mij prima. We horen het vast als iemand met een use case komt die frequentere updates vereist.
@jblom is het ok om deze Epic the closen? Er staat alleen nog wat open rondom de search endpoints voor open data lab, maar dat werk staat dan eigenlijk weer los van het linked data gebeuren.
@wmelder als we deze sluiten wil ik wel graag een nieuwe Epic maken voor het in beheer nemen van het geheel (meer gericht op mijzelf en @MartijnBNG), want dat is nog niet helemaal rond. (o.a. nieuwe importer volledig aangesloten, code kwaliteit en devops nalopen; sowieso alle punten in deze epic nalopen om tot de nieuwe epic te komen).
Ik zou zeggen: maak een afspraak met Martijn en ik, dan lopen we dit door en kunnen we deze sluiten.
Context Deze Epic beschrijft hoe we vanuit de huidige kennis en infrastructuur komen tot een werkende oplossing die het mogelijk maakt om de vraag naar de data van Beeld en Geluid in een open omgeving.
Hierbij moet rekening gehouden worden met vooral de informatievoorziening richting het netwerk van digitale erfgoedinstellingen waar beeld en Geluid deel van uit maakt. Zie overzichtsplaatje
Verder moet er ook goed gekeken worden naar huidige oplossingen ne de mogelijkheden en beperkingen daarvan.
Taken
DAAN als LD: geschikt voor het open data lab (cc0 & schema.org)
Doel: Perfectioneren van het DAAN LD formaat tbv het ODL en een monster (LD files) op te leveren voor verdere ontwikkelingen.
DAAN LD in een triple store (devops)
Doel: automatisch uitrollen van VMs met cliopatria triple stores + het geautomatiseerd importeren van linked data files
DAAN cc0 collectie gekoppeld aan search API (Elasticsearch)
Doel: in ODL is de DAAN beschikbaar als ES collectie, welke via de search API doorzocht kan worden. De
daan-catalogue-aggr
index dient als basis (wordt gevuld via de DAAN importer).daan-catalogue-aggr
te filteren of dat het nodig is een alias aan te maken om bepaalde resources uit te sluitendaan-catalogue-aggr-cc0
) die ervoor zorgt dat de geretourneerde resources cc0 zijn (b.v. omschrijvingen inkorten en bepaalde velden uitsluiten)daan-catalogue-aggr-cc0
Implementatie DAAN LD importer
Doel: lange termijn voorziening bouwen welke LD kan voorzien welke in sync is met de DAAN catalogus
DAAN geaggregeerde index GTAA links fixen
Doel: Op dit moment zijn er geen GTAA URIs aanwezig in de
daan-catalogue-aggr
index die door de DAAN importer wordt gevuld... Voor een betere link met het LD werk is het wenselijk deze URIs wel te hebben.B&G LOD server voor algemeen publiek
Doel: Resolven van B&G DAAN URIs voor het algemene publiek. Waarschijnlijk pas op te leveren als de kopie van de Flexstore beschikbaar is
Finale versie