Use shorter interval for updates

TobiasNx commented 9 months ago

By W.G. from UB Müster came the request to use a shorter interval for the updates. Daily updates would not be suffixient for them and DNB provides updates all 10 min.

Perhaps we adjust our updates updates even if we do not meet 10 min.

TobiasNx commented 9 months ago

@acka47 says we have to check if dnb offers 10 min updates as rdf

dr0i commented 9 months ago

~~As it turns out the problem is: DNB doesn't update their RDF data this frequently but only the MARC-XML - so we would have to write some ETL (where is the DNB's morph - we could reuse it?).~~ Last comment from @TobiasNx was not shown as I made this claim. So go on check ! :+1:

TobiasNx commented 9 months ago

"

Der Abfragezeitraum sollte nicht zu weit reichen, um eine Treffermenge über 100.000 Datensätzen zu vermeiden. Empfehlung bei nicht zeitkritischen Verfahren für Abfragezeitraum/Frequenz: 30 Minuten. Bei kleinen Sets (z. B. Online-Dissertationen) reicht ein einmal tägliches oder einmal wöchentliches Harvesting aus, da dadurch ein Datensatz, der in diesem Zeitraum mehrfach geändert wurde, nur einmal bezogen und die Treffermenge trotzdem nicht zu groß wird. Wir empfehlen zudem als Wiederaufsetzzeitpunkt ("from") die Zeitangabe im Element "responseDate", z. B. 2017-08-30T08:12:54Z zu nutzen, da diese Zeitangabe der aktuellen Verfügbarkeit der Daten in unserem Repository am besten entspricht. Zusätzlich empfehlen wir das Harvesten mit einer geringen zeitlichen Überlappung ("responseDate" minus eine Minute = "from"). "

From: https://www.dnb.de/DE/Professionell/Metadatendienste/Datenbezug/OAI/oai_node.html

acka47 commented 9 months ago

Also in Der Linked-Data-Service der Deutschen Nationalbibliothek: Auslieferung der Metadaten it reads:

Die RDF-Daten sind über die DNB-Schnittstellen OAI 24 , SRU 25 und den Datenshop 26 zu beziehen. Die auf diesen Wegen ausgelieferten Metadaten befinden sich auf dem aktuellen zeitlichen Stand.

So we should just try out shorter update intervals, I guess.

TobiasNx commented 8 months ago

Hourly seems to be possible:

https://services.dnb.de/oai/repository?verb=ListIdentifiers&from=2023-10-10T07:08:23Z&until=2023-10-10T08:08:23Z&set=authorities&metadataPrefix=RDFxml (228 Records)

https://services.dnb.de/oai/repository?verb=ListIdentifiers&from=2023-10-10T08:08:23Z&until=2023-10-10T09:08:23Z&set=authorities&metadataPrefix=RDFxml (286)

https://services.dnb.de/oai/repository?verb=ListIdentifiers&from=2023-10-10T10:08:23Z&until=2023-10-10T11:08:23Z&set=authorities&metadataPrefix=RDFxml (332)

https://services.dnb.de/oai/repository?verb=ListIdentifiers&from=2023-10-10T11:08:23Z&until=2023-10-10T12:08:23Z&set=authorities&metadataPrefix=RDFxml (101)

https://services.dnb.de/oai/repository?verb=ListIdentifiers&from=2023-10-10T12:08:23Z&until=2023-10-10T13:08:23Z&set=authorities&metadataPrefix=RDFxml (0 Records)