Bei OAI-Repositories, die keine Informationen über Löschungen publizieren (siehe http://www.openarchives.org/OAI/openarchivesprotocol.html#DeletedRecords), können regelmässig oder unregelmässig Listen mit zu löschenden Records erstellt werden. Aktuell besteht ein Mechanismus, der diese Listen auf CBS einstellt, damit die Records dort gelöscht werden. Die Records verbleiben dabei aber im Rohdatenspeicher / MongoDB. Diese enthält damit weiterhin eigentlich gelöschte Sätze.
Task
[ ] Erstelle einen Mechanismus, der basierend auf einer Liste mit Identifiern die entsprechenden Sätze entweder physisch aus Mongo löscht, oder diese als gelöscht markiert.
[ ] Stelle sicher, dass die entsprechenden Löschmeldungen auch an CBS geschickt werden.
Hinweise
Akut ist der Fall SNL. Wir erhalten monatlich eine Liste mit n Aufnahmen des Status deleted:
Zwei Records per Mail
Record ID: 732319
Username: yb
Timestamp: 15-JUL-2015 09:29:46
Bibliographic Level: m
Record Type: a
Record State: Deleted
Record ID: 1787785
Username: sib
Timestamp: 15-JUL-2015 11:10:58
Bibliographic Level: m
Record Type: a
Record State: Deleted
Daraus erstellte delete-Liste für CBS
(Skript zur Erstellung dieser xml-Struktur liegt im internen Repo 'cbs')
Konfigurationen für 'alle' repositories erweitert. Auch für Alex repository auf coai2 (zur Zeit nicht aif coai1) Hintergrund, warum für alle erweitert: Die Impementierung ist generell und erwartet ein bestimmtes Konfigurationstag, auch wenn der Mechanismus für das Repository gar nicht angewendet wird. Dies könnte man durch vererbbare Konfigurationen vereinfachen. Erfordert aber eine Erweiterung
crontab auf coai1 eingerichtet. Es wird täglich ein Prozess gestartet (20:00). Dieser ist aktuell so konfiguriert, dass er für snb und ecod nach files im konfigurierten Verzeichnis mit IDs zum Löschen sucht. Wie von uns beiden getestet.
Problem
Bei OAI-Repositories, die keine Informationen über Löschungen publizieren (siehe http://www.openarchives.org/OAI/openarchivesprotocol.html#DeletedRecords), können regelmässig oder unregelmässig Listen mit zu löschenden Records erstellt werden. Aktuell besteht ein Mechanismus, der diese Listen auf CBS einstellt, damit die Records dort gelöscht werden. Die Records verbleiben dabei aber im Rohdatenspeicher / MongoDB. Diese enthält damit weiterhin eigentlich gelöschte Sätze.
Task
Hinweise
Akut ist der Fall SNL. Wir erhalten monatlich eine Liste mit n Aufnahmen des Status deleted: Zwei Records per Mail
Daraus erstellte delete-Liste für CBS (Skript zur Erstellung dieser xml-Struktur liegt im internen Repo 'cbs')