hbz / nwbib

Die Nordrhein-Westfälische Bibliographie
http://nwbib.de
3 stars 2 forks source link

NWBib-Ressourcen mit nicht-existenten/fehlerhaften Notationen und URIs #595

Open acka47 opened 1 year ago

acka47 commented 1 year ago

Wie berichtet in https://github.com/hbz/lobid-resources/issues/1542:

Es gibt zur Zeit 872 NWBib-Titel, die entweder gar keine keine Systematik-URIs, sondern nicht-existierende Notationen enthalten oderSystematik-URIs, die es nicht gibt.

Beispiele aus der ZDB:

Wie bei Beispiel 2 zu sehen, sind teilweise sogar URIs vorhanden. Gemein ist den Einträgen, dass es in den NWBib-Systematiken keine korrespondierenden Einträge gibt (weder gibt es die Sachnotation "582000" noch gibt es keine Raumnotation "97" mehr). Aus diesem Grund ist keine automatische Bearbeitung möglich und die Einträge müssen manuell bereinigt werden.

acka47 commented 1 year ago

Es gibt aber in den Alma-Daten auch solche Fälle wie dieses Beispiel (MARC21, JSON):

<datafield tag="084" ind1=" " ind2=" ">
  <subfield code="a">Westfalen ; https://nwbib.de/spatial#N04</subfield>
  <subfield code="2">nwbib</subfield>
</datafield>
<datafield tag="084" ind1=" " ind2=" ">
  <subfield code="a">Rheinland ; https://nwbib.de/spatial#N03</subfield>
  <subfield code="2">nwbib</subfield>
</datafield>
<datafield tag="084" ind1=" " ind2=" ">
  <subfield code="a">Köln ; https://nwbib.de/spatial#Q365</subfield>
  <subfield code="2">nwbib</subfield>
</datafield>
<datafield tag="084" ind1=" " ind2=" ">
  <subfield code="a">Handschriften ; https://nwbib.de/subjects#N861020</subfield>
  <subfield code="2">nwbib</subfield>
</datafield>

Keine Ahnung, wie das zustandekommt. Vielleicht Katalogisierungsfehler?

acka47 commented 1 year ago

Am 08.12.22 um 13:56 schrieb U.P. (an nwbib@listen.hbz-nrw.de):

Dann gibt es Fälle, bei denen die NWBib-Auswertung für das E-Book oder Digitalisat (hier von Kn28) von der Printausgabe übernommen wurde, z.B. https://nwbib.de/CT007000247 Ich vermute, dass dabei in der Notation der Link nicht in ein zweites Unterfeld geschrieben wurde, sondern mit in das erste Unterfeld geschrieben wurde. Aber warum, erschließt sich mir nicht. Vermutlich ist das schon in Aleph passiert und wurde so in Alma übernommen. Ebenso bei dem Aufsatz https://nwbib.de/CT007001464 den auch die Dom- und Diözesanbibl. Köln digitalisiert hat.

Bei der Zeitschrift Krune un Flamme https://test.lobid.org/resources/99370697313306441 in der Liste liegt der Fehler wohl in dem Datensatz der Gemeinschaftszone, 995280000000199622, von der USB Köln digitalisiert. Die TA ist sowohl in der NZ wie in der CZ zu finden.

acka47 commented 1 year ago

On 16.12.22 08:38, U.P. wrote:

Ein großer Teil des Titelmaterials scheint aus elektronischen Zeitschriften zu bestehen, bei denen in der ZDB, in HBZ01 und in der NWBib selbst die Notationen korrekt dargestellt werden. Der Fehler ist nur bei der entsprechenden TA zu finden in der CZ. Ich vermute diese Titel sind deshalb in die CZ gelangt, weil es sich dabei um frei zugängliche elektronische Zeitschriften handelt, die daher auch in die CZ gewandert sind. Müssen auch diese TA von uns händisch korrigiert werden? Zum Beispiel:

image

Mit der in der URL ganz oben angegebenen Identnr. komme ich dann in Alma bei der Suche in der NZ zur folgenden TA, obwohl diese Identnr. sonst in der dann angezeigten TA nicht auftaucht:

image

Das ist die TA in der CZ. Wie gesagt, die TA in der NZ sind vollkommen korrekt und somit auch in unserer NWBib selbst. In der CZ fehlt außerdem unser NWBib-Abrufzeichen, was ja vielleicht sogar ein Segen ist. Wie sollen wir mit solchen Fällen verfahren, da es sich ja um einen erheblichen Anteil an dieser Liste zu handeln scheint? Wäre es vielleicht eine Lösung, unsere Notationen maschinell gänzlich aus diesen TA in der CZ zu löschen? Oder hätte das Rückwirkungen auf die entsprechende TA in der NZ?

acka47 commented 1 year ago

Wie U.P. schrieb, handelt es sich bei den Titeln um elektronische Zeitschriften. Die Vermutung liegt nahe, dass das eben die schlecht/veraltet aus der ZDB angereicherten Conser-Titel sind (siehe https://service-wiki.hbz-nrw.de/x/ZwDsNg). Damit ist das Ticket verwandt mit #613 . Offensichtlich trat das Problem also bereits im Dezember 2022 zu Tage, wir haben bisher aber nicht die Verbindung hergestellt. /cc @TobiasNx

maipet commented 3 months ago

Durch ein anderes Projekt sind einige Titel aufgefallen, bei denen zum einen das Marc-Feld 084 falsch befüllt ist (zB https://lobid.org/resources/990008528280206441), zum anderen die Notationen nicht in der Systematik vorhanden sind (zB https://lobid.org/resources/990155711020206441). NWBIB_MARC084_falsche_Eingaben.csv NWBIB_MARC084_notationen_nicht_in_Systematik.csv

Ggf. gibt es eine Schnittmenge zum schon bekannten Problem

TobiasNx commented 3 months ago

Ergänzend zu den neuen gefundenen Fehlern von Petra, habe ich nochmal die alten Fehler geprüft:

Es gibt eine etwas andere Ausgangslage als zuletzt: In der Zwischenzeit haben wir die CZ-Titel aus der NW-Bib geschmissen und nur "genuine" NZ Titel als NW-Bib Titel ermöglicht.

https://github.com/hbz/lobid-resources/blob/4935759dd18b93870ae34380ec47936a04af9e2b/src/main/resources/alma/fix/relatedRessourcesAndLinks.fix#L461-L496

Wenn man auf den alten Fehler testet, erhält man weiterhin 346 Fehlerhafte Einträge: Abfrage auf nwbib und Abfrage auf lobid [zum Vergleich ohne die Begrenzung der nwbib collection sind es 755 ) Dabei sind die Einträge alles mögliche, Zeitschriftenartikel, E-Resourcen, Bücher.

TobiasNx commented 3 months ago

@maipet Du kannst gerne mal prüfen, ob es Schnittmengen zwischen den Fehlerlisten gibt.

maipet commented 2 months ago

Ich habe die MMS-IDs aus den Dateien mit den IDs aus der Abfrage verglichen: es gibt keine Schnittmenge.

TobiasNx commented 2 months ago

https://metafacture.org/playground/?flux=%22https%3A//lobid.org/resources/search%3Fq%3D%2528subject.source.id%253A%2522nwbib%2522%2BOR%2Bsubject.label%253A%2522https%253A%252F%252Fnwbib.de%252Fsubjects%2522%2529%2BAND%2BinCollection.id%253A%2522http%253A%252F%252Flobid.org%252Fresources%252FHT014176012%2523%2521%2522%26size%3D600%26format%3Djson%22%0A%7C+open-http%0A%7C+as-records%0A%7C+decode-json%28recordPath%3D%22%24.member%22%29%0A%7C+fix%28transformationFile%29%0A%7C+encode-yaml%0A%7C+print%0A%3B%0A&transformation=set_array%28%22wrongNwBibsubject%5B%5D%22%29%0A%0Ado+list%28path%3A%22subject%5B%5D%22%2C%22var%22%3A%22%24subjects%22%29%0A++++if+any_match%28%22%24subjects.label%22%2C%22https%3A//nwbib.de/subjects.%2A%22%29%0A++++++++copy_field%28%22%24subjects%22%2C%22wrongNwBibsubject%5B%5D.%24append%22%29%0A++++elsif+any_equal%28%22%24subjects.source.id%22%2C%22nwbib%22%29%0A++++++++copy_field%28%22%24subjects%22%2C%22wrongNwBibsubject%5B%5D.%24append%22%29%0A++++end%0Aend%0Aretain%28%22almaMmsId%22%2C+%22wrongNwBibsubject%5B%5D%22%29