ubtue / DatenProbleme

0 stars 0 forks source link

Dateneinspielung 12./13. 01. 2021 KrimDok fehlende Sätze #1313

Closed kdr154 closed 3 years ago

kdr154 commented 3 years ago

Laut krimdok_zotero_210112_001.xml wurden an diesem Tag 843 Sätze ans BSZ geliefert. Eingespielt wurden aber nur 250. Wo ist der Rest? Von unserer Seite sehe ich keine Probleme. Vgl. z. B. Acta Criminologica ISSN 1012-8093 Zeder-ID 382 (Krim) auf nu, Zeder, enhancement-maps und xml-Datei auf Default_Test

jriedl commented 3 years ago

Nur als Hypothese: Bezieht sich die Zahl 250 auf echte Neueinspielungen? Hat eventuell Match-And-Merge gegriffen? Besteht in der Testdatenbank die Möglichkeit, neben der dem Datum der Erstellung (in MARC ist das 008) auch nach dem Änderungsdatum (in MARC 005) zu filtern.

kdr154 commented 3 years ago

Das ist die Lösung. Tatsächlich wurden gestern 250 neu eingespielt. 12 waren schon drin von einer Einspielung am 11.1., bei den anderen wurde entweder der Lokalsatz ergänzt oder der vorhandene mit einem neuen Datum versehen. Oder wie ist das Match-And-Merge zu verstehen? Die Anzahl stimmt exakt mit den Log-Dateien überein.

jriedl commented 3 years ago

Super :-). Ja genau, Match-And-Merge ist die Deduplizierungsstrategie des BSZ und dann ist das das zu erwartende Ergebnis. Was das wohl, wie wir ja schon vermutet hatten, leider auch zeigt, ist, dass das mit der Datenlöschung "unserer" Daten durch das BSZ nicht vollständig funktioniert hat. Da ist zumindest für mich noch ein Fragezeichen dahinter, wieso. Lässt sich erkennen, ob bei Datensätzen, die geändert wurden, diese eventuell im Vorfeld aus einer ganz anderen Datenquelle eingespielt wurden?

kdr154 commented 3 years ago

Die Sachlage ist eine andere. Der Unterschied ergibt sich dadurch, dass 573 Sätze mit der Printausgabe verknüpft wurde. Es handelt sich in diesem Fall um die Zeitschrift "Social Justice", ISSN 1043-1578, die auf Ebsco gehostet wird. Plus die 250 neuen Einspielungen, die an Online-Ausgaben hängen, ergibt die 823 Sätze von gestern plus 20, die im Januar bereits existierten, ergibt die 843. Das heißt dann aber auch, dass die Datenlöschung durch das BSZ funktioniert hat, denn die 20 sind im Januar hinzugekommen. Für mich stellt sich nun die Frage, wo sich die Mapping-Tabellen der KrimDok befinden, oder über welche Routine bei den Daten der KrimDok verfahren wird, um die Daten mit der Online- oder der Druckausgabe zu verknüpfen. In der ISSN_to_physical_form.map befindet sich kein Eintrag zu Social Justice, aber auch keiner zu der Zeitschrift "Journal of interpersonal violence". Und diese Zeitschrift wird mit der Online-Ausgabe verknüpft. Wie alle anderen der KrimDok bei der Einspielung von gestern/heute. Es würde aber auch Sinn machen, "Social Justice" mit der Online-Ausgabe zu verknüpfen, da eine solche existiert.

kdr154 commented 3 years ago

Die Frage nach den Datensätzen konnte gekärt werden.

jriedl commented 3 years ago

Die Zuordnung zur Printausgabe scheint bereits auf unserer Seite stattzufinden (vgl. die 773-Felder in krimdok_zotero_210112_001.xml). Grund ist vermutlich, dass als ISSN von Zotero die Print-ISSN 1043-1578 ausgelesen zurückgeliefert wird. Gab es so einen Fall in der Vergangenheit schon einmal und wie wurde damit umgegangen?

mtrojan-ub commented 3 years ago

@jriedl, wie telefonisch besprochen: Die höchste Prio hat immer die Online ISSN. Ist diese nicht gesetzt, wird die Print ISSN verwendet. Theoretisch existiert noch eine von Zotero ausgelesene ISSN, diese spielt aber keine Rolle da der Code hart abbricht falls es zu einer Zeitschrift weder Online noch Print ISSN gibt.

Hier der Link zum Code: https://github.com/ubtue/ub_tools/blob/926a6588f27a3db53ccb8bb799be67623dc5d0cc/cpp/lib/src/ZoteroHarvesterConversion.cc#L661

Es sei denn natürlich, es war etwas in Zeder falsch eingetragen.

kdr154 commented 3 years ago

Habe alle Sätze von "Social Justice" zurückgesetzt und einige auf dem Testserver gelöscht. Nach dem Post von @mtrojan-ub sollten die ja morgen neu eingespielt werden.

kdr154 commented 3 years ago

Das Eintragen einer ISSN in das Zeder-Feld essn und das ändern der QA-Settings war in beiden Fällen, bei "Social Justice" und bei "Eguzkilore" erfolgreich. Die Daten wurden heute eingespielt und mit der Online-Ausgabe verknüpft.