hbz / lobid-resources

Transformation, web frontend, and API for the hbz catalog as LOD
http://lobid.org/resources
Eclipse Public License 2.0
7 stars 7 forks source link

ALMA: Error in metafacture-fix transformation #1547

Closed hagbeck closed 1 year ago

hagbeck commented 1 year ago

We've observed some book records with type Book and Periodical where Periodical is wrong. It seems the transformation rule uses keywords in the title information of the record for adding this type.

Examples:

This results in conflicts interpreting the data correctly.

acka47 commented 1 year ago

This is because of these entries in 689:

990069462830206441:

<datafield tag="689" ind1="0" ind2="0">
  <subfield code="a">Zeitschrift</subfield>
  <subfield code="D">s</subfield>
  <subfield code="0">(DE-588)4067488-5</subfield>
  <subfield code="0">
(uri) https://portal.dnb.de/opac.htm?method=simpleSearch&cqlMode=true&query=idn=040674886
</subfield>

990208210430206441:

<datafield tag="689" ind1="0" ind2="0">
  <subfield code="a">Wissenschaftliche Zeitschrift</subfield>
  <subfield code="D">s</subfield>
  <subfield code="0">(DE-588)4121932-6</subfield>
  <subfield code="0">http://viaf.org/viaf/sourceID/DNB|041219325</subfield>
  <subfield code="B">GND-041219325</subfield>
</datafield>

See these lines in the fix: https://github.com/hbz/lobid-resources/blob/9bf7bb6cb607f92f84edced3430002fb679bfd28/src/main/resources/alma/fix/mediumAndType.fix#L627-L630

According to Arbeitshilfe Normierte Begriffe zur Beschreibung des Inhalts RDA 7.2.1.3, D-A-CH (PDF) there are only two "Formschlagwörter" allowed that contain "Zeitschrift" in their preferred name:

So we could adjust the fix accordingly, using the IDs and not the string "Zeitschrift" and this would at least fix the second example (990208210430206441). However, the other resource would remain typed as Periodical. May this be a cataloging error then as the Formschlagwort is apparently used for indicating the content of the resource and not its form?

TobiasNx commented 1 year ago

This was taken from ALEPH-Moprh:

https://github.com/hbz/lobid-resources/blob/9bf7bb6cb607f92f84edced3430002fb679bfd28/src/main/resources/morph-hbz01-to-lobid.xml#L1816-L1818

I am wondering why the first example was not mapped as Periodical in ALEPH Morph. I think @acka47 idea to map only the URIs of Formschlagwörter is a very good idea.

TobiasNx commented 1 year ago

Also found a way to filter out if it decribes the content OR the form of a resource: $$A must have the value f:

https://github.com/hbz/lobid-resources/blob/9bf7bb6cb607f92f84edced3430002fb679bfd28/src/test/resources/alma/(DE-605)HT000312236.xml#L156-L161

https://alma.lobid.org/marcxml/990069462830206441

<datafield tag="689" ind1="0" ind2="0">
<subfield code="a">Zeitschrift</subfield>
<subfield code="D">s</subfield>
<subfield code="0">(DE-588)4067488-5</subfield>
<subfield code="0">
(uri) https://portal.dnb.de/opac.htm?method=simpleSearch&cqlMode=true&query=idn=040674886
</subfield>
<subfield code="0">(uri) http://viaf.org/viaf/sourceID/DNB|040674886</subfield>
</datafield>

The first example does not have this

TobiasNx commented 1 year ago

Perhaps this is no true safe guard:

https://wiki.obvsg.at/Katalogisierungshandbuch/Kategorienuebersicht689SE

$A | GND-Indikator - ohne Verknüpfung zur GND in $0 | f - Formschlagwort (Achtung: nach RAK, wird seit 2016 nicht mehr vergeben.) g - geographischer Unterbegriff z - Zeitschlagwort***

Perhaps we ask Verbund if they can help.

TobiasNx commented 1 year ago

This is due to the switch to RDA:

Das führte zu einer Veränderung bei der Erfassung von Formschlagwörtern. Diese werden mit dem RDA-Umstieg nicht mehr als Teil der Schlagwortfolge, sondern als eigene Facetten sowie kooperativ mit der Formalerschließung erfasst.

All Formschlagwörter are if newly indexed now Formangaben. We should have a look at: https://d-nb.info/1126513032/34

TobiasNx commented 1 year ago

Formschlagwörter which are allowed in ALEPH:

https://service-wiki.hbz-nrw.de/pages/viewpage.action?pageId=510164996&preview=/510164996/510918781/F8_Liste_9%23%23_UFf.txt

9##    L f Adressbuch
9##    L f Altkarte
9##    L f Amtliche Publikation
9##    L f Anleitung
9##    L f Anthologie
9##    L f Antiquariatskatalog
9##    L f Anzeigenblatt
9##    L f Atlas
9##    L f Audiovisuelles Material
9##    L f Audiovisuelles Material <für Kinder>
9##    L f Aufgabensammlung
9##    L f Aufsatzsammlung
9##    L f Auktionskatalog
9##    L f Ausstellungskatalog
9##    L f Autobiografie
9##    L f Backbuch
9##    L f Beispielsammlung
9##    L f Bericht
9##    L f Bestimmungsbuch
9##    L f Bibliografie
9##    L f Bild
9##    L f Bildband
9##    L f Bilderbogen
9##    L f Bilderbuch
9##    L f Bildplatte
9##    L f Bildwörterbuch
9##    L f Biografie
9##    L f Blindendruck
9##    L f Briefsammlung
9##    L f CD
9##    L f CD <für Kinder>
9##    L f CD-ROM
9##    L f CD-ROM <für Kinder>
9##    L f Comic
9##    L f Datensammlung
9##    L f Dia
9##    L f Diagramm
9##    L f Diskette
9##    L f Diskette <für Kinder>
9##    L f Diskografie
9##    L f Drehbuch
9##    L f DVD-Audio
9##    L f DVD-Audio <für Kinder>
9##    L f DVD-ROM
9##    L f DVD-ROM <für Kinder>
9##    L f DVD-Video
9##    L f DVD-Video <für Kinder>
9##    L f Einblattdruck
9##    L f Einführung
9##    L f Elektronische Publikation
9##    L f Elektronische Publikation <für Kinder>
9##    L f Entscheidungssammlung
9##    L f Enzyklopädie
9##    L f Erlebnisbericht
9##    L f Fachkunde
9##    L f Fahrplan
9##    L f Fallsammlung
9##    L f Fallstudiensammlung
9##    L f Festschrift
9##    L f Fiktionale Darstellung
9##    L f Film
9##    L f Film <für Kinder>
9##    L f Film 8mm
9##    L f Film Super-8
9##    L f Film 16mm
9##    L f Film 35mm
9##    L f Film 65mm
9##    L f Film 70mm
9##    L f Filmografie
9##    L f Flugblatt
9##    L f Formelsammlung
9##    L f Formularsammlung
9##    L f Forschungsbericht
9##    L f Fotografie
9##    L f Führer
9##    L f Fundstellenverzeichnis
9##    L f Genealogische Tafel
9##    L f Gespräch
9##    L f Globus
9##    L f Grafik
9##    L f Graphzine
9##    L f Haushaltsplan
9##    L f Hochschulschrift
9##    L f Hörbuch
9##    L f Hörspiel
9##    L f Humoristische Darstellung
9##    L f Interview
9##    L f Inventar
9##    L f Jugendbuch
9##    L f Jugendsachbuch
9##    L f Kalender
9##    L f Karikatur
9##    L f Karte
9##    L f Katalog
9##    L f Kinderbuch
9##    L f Kindersachbuch
9##    L f Kochbuch
9##    L f Kolumnensammlung
9##    L f Kommentar
9##    L f Konferenzschrift
9##    L f Konkordanz
9##    L f Künstlerbuch
9##    L f Kunstführer
9##    L f Laudatio
9##    L f Lehrbuch
9##    L f Lehrerhandbuch
9##    L f Lehrmittel
9##    L f Lehrplan
9##    L f Lernsoftware
9##    L f Lesebuch
9##    L f Liederbuch
9##    L f Literaturbericht
9##    L f Medienkombination
9##    L f Mehrsprachiges Wörterbuch
9##    L f Mikroform
9##    L f Mitgliederverzeichnis
9##    L f Modell
9##    L f Monografische Reihe
9##    L f Musikdruck
9##    L f Nachruf
9##    L f Norm
9##    L f Online-Publikation
9##    L f Ortsverzeichnis
9##    L f Patentschrift
9##    L f Plakat
9##    L f Plan
9##    L f Postkarte
9##    L f Praktikum
9##    L f Predigthilfe
9##    L f Pressendruck
9##    L f Pressestimme
9##    L f Programmheft
9##    L f Puzzle
9##    L f Quelle
9##    L f Ratgeber
9##    L f Regest
9##    L f Reisebericht
9##    L f Reportagensammlung
9##    L f Rezension
9##    L f Richtlinie
9##    L f Röntgenbild
9##    L f Rückläufiges Wörterbuch
9##    L f Sachbilderbuch
9##    L f Schallplatte
9##    L f Schallplatte <für Kinder>
9##    L f Schematismus
9##    L f Schulbuch
9##    L f Software
9##    L f Spiel
9##    L f Sprachatlas
9##    L f Sprachführer
9##    L f Stadtplan
9##    L f Statistik
9##    L f Tabelle
9##    L f Tafel
9##    L f Tagebuch
9##    L f Technische Zeichnung
9##    L f Telefonbuch
9##    L f Testmaterial
9##    L f Text
9##    L f Theaterstück
9##    L f Thesaurus
9##    L f Tonbildreihe
9##    L f Tonkassette
9##    L f Tonkassette <für Kinder>
9##    L f Tonträger
9##    L f Tonträger <für Kinder>
9##    L f Übungssammlung
9##    L f Umfrage
9##    L f Unterrichtseinheit
9##    L f Verkaufskatalog
9##    L f Verzeichnis
9##    L f Videokassette
9##    L f Videokassette <für Kinder>
9##    L f Vorlesungsverzeichnis
9##    L f Website
9##    L f Weltkarte
9##    L f Werkverzeichnis
9##    L f Wörterbuch
9##    L f Zeichnung
9##    L f Zeitschrift
9##    L f Zeittafel
9##    L f Zeitung
9##    L f Zitatensammlung

and Formangaben in 655

Formangabe  GND-IDN GND-NID
Adressbuch  041414519   4141451-2
Altkarte    960106200   4611904-8
Amtliche Publikation    041423003   4142300-8
Anleitung   041425278   4142527-3
Anthologie  040022145   4002214-6
Antiquariatskatalog 041427386   4142738-5
Anzeigenblatt   041427610   4142761-0
Atlas   041433033   4143303-8
Aufgabensammlung    041433890   4143389-0
Aufsatzsammlung 041434137   4143413-4
Auktionskatalog 04143482X   4143482-1
Ausstellungskatalog 041354672   4135467-9
Autobiografie   040039390   4003939-0
Autograf    040039420   4003942-0
Backbuch    1071926306  1071926306
Beispielsammlung    041443845   4144384-6
Bericht 041280229   4128022-2
Bestimmungsbuch 041449509   4144950-2
Bibliografie    040064328   4006432-3
Bild    040065685   4006568-6
Bildband    041453956   4145395-5
Bilderbogen 041454022   4145402-9
Bilderbuch  040066045   4006604-6
Bildnis 040066274   4006627-7
Bildwörterbuch  041455053   4145505-8
Biografie   040068048   4006804-3
Blindendruck    042825040   4282504-0
Briefsammlung   041466098   4146609-3
Checkliste  94656860X   4398750-3
Comic   040104273   4010427-8
Datenbank   040111199   4011119-2
Datensammlung   04148875X   4148875-1
Diagramm    040120449   4012044-2
Diskografie 1071864416  1071864416
Drehbuch    04127976X   4127976-1
Einblattdruck   041512367   4151236-4
Einführung  041512782   4151278-9
Entscheidungssammlung   04152408X   4152408-1
Enzyklopädie    040149862   4014986-9
Erlebnisbericht 041332547   4133254-4
Fachkunde   041534883   4153488-8
Fahrplan    041535634   4153563-7
Faksimile   04153591X   4153591-1
Fallsammlung    041536169   4153616-2
Fallstudiensammlung 955154278   4522595-3
Festschrift 040169286   4016928-5
Fiktionale Darstellung  1071854844  1071854844
Film    040171027   4017102-4
Filmografie 1071861980  1071861980
Flugblatt   04071280X   4071280-1
Flugschrift 041547705   4154770-6
Formelsammlung  041550080   4155008-0
Formularsammlung    04155034X   4155034-1
Forschungsbericht   041550439   4155043-2
Forschungsdaten 1098579690  1098579690
Fotografie  040458954   4045895-7
Führer  041555694   4155569-7
Fundstellenverzeichnis  041556429   4155642-2
Genealogische Tafel 041565827   4156582-4
Gespräch    040207137   4020713-4
Globus  041576330   4157633-0
Grafik  040218457   4021845-4
Graphzine   1032889837  1032889837
Handschrift 040232875   4023287-6
Haushaltsplan   040723496   4072349-5
Hochschulschrift    041139372   4113937-9
Hörbuch 940089343   4329497-2
Hörspiel    040254356   4025435-5
Humoristische Darstellung   041607996   4160799-5
Inkunabel   040270416   4027041-5
Interview   040275035   4027503-6
Inventar    04027540X   4027540-1
Jugendbuch  043062520   4306252-0
Jugendsachbuch  040289338   4028933-3
Kalender    040292908   4029290-3
Karikatur   040296709   4029670-2
Karte   040297837   4029783-4
Katalog 041634179   4163417-2
Kinderbuch  043032516   4303251-5
Kindersachbuch  041638549   4163854-2
Kochbuch    041142403   4114240-8
Kolumnensammlung    1071862448  1071862448
Kommentar   041367103   4136710-8
Konferenzschrift    1071861417  1071861417
Konkordanz  041650018   4165001-3
Kunstführer 041660293   4166029-8
Künstlerbuch    042290538   4229053-3
Laudatio    941101215   4339326-3
Lehrbuch    041236238   4123623-3
Lehrerhandbuch  041671686   4167168-5
Lehrmittel  040741117   4074111-4
Lehrplan    040351173   4035117-8
Lernsoftware    041264649   4126464-2
Lesebuch    040354350   4035435-0
Liederbuch  041676343   4167634-8
Literaturbericht    041678702   4167870-9
Loseblattsammlung   941475360   4343271-2
Mehrsprachiges Wörterbuch   953075109   4491366-7
Mitgliederverzeichnis   041701739   4170173-2
Modell  04039798X   4039798-1
Monografische Reihe 041799984   4179998-7
Musikhandschrift    040408477   4040847-4
Nachruf 041285409   4128540-2
Norm    94827171X   4419668-4
Ortsverzeichnis 040678709   4067870-2
Papyrus 040445712   4044571-9
Patentschrift   041735366   4173536-5
Plakat  04046198X   4046198-1
Plan    041885554   4188555-7
Postkarte   040469026   4046902-5
Praktikum   04127380X   4127380-1
Predigthilfe    041756010   4175601-0
Pressendruck    041590430   4159043-0
Pressestimme    041756622   4175662-9
Programmheft    944257690   4373950-7
Puzzle  041240057   4124005-4
Quelle  041359526   4135952-5
Ratgeber    040484769   4048476-2
Rede    040488829   4048882-2
Referateorgan   041773225   4177322-6
Regest  040490076   4049007-5
Reisebericht    040766454   4076645-7
Reportagensammlung  107186257X  107186257X
Rezension   040497127   4049712-4
Richtlinie  041378148   4137814-3
Röntgenbild 042275903   4227590-8
Rückläufiges Wörterbuch 041786459   4178645-2
Sachbilderbuch  042218608   4221860-3
Satzung 040517780   4051778-0
Schematismus    041794842   4179484-9
Schulbuch   040534588   4053458-3
Schulprogramm   04077211X   4077211-1
Software    040553825   4055382-6
Spiel   040562182   4056218-9
Sprachatlas 040564460   4056446-0
Sprachführer    041300106   4130010-5
Stadtplan   041298454   4129845-7
Statistik   040569950   4056995-0
Tabelle 041843037   4184303-4
Tafel   041843355   4184335-6
Tagebuch    040589005   4058900-6
Technische Zeichnung    041339142   4133914-9
Telefonbuch 041846435   4184643-6
Testmaterial    041848349   4184834-2
Theaterstück    043040802   4304080-9
Thesaurus   041851722   4185172-9
Übungssammlung  042222087   4222208-4
Umfrage 040052273   4005227-8
Unterrichtseinheit  041870743   4187074-8
Urkunde 040621324   4062132-7
Verkaufskatalog 041877888   4187788-3
Verzeichnis 041881710   4188171-0
Vorlesungsverzeichnis   041886844   4188684-7
Weblog  964066505   4678688-0
Website 959344357   4596172-4
Weltkarte   040653684   4065368-7
Werkverzeichnis 041896807   4189680-4
Werkzeitschrift 041896823   4189682-8
Wörterbuch  040667243   4066724-8
Zeichnung   04127900X   4127900-1
Zeitschrift 040674886   4067488-5
Zeittafel   041906314   4190631-7
Zeitung 040675106   4067510-5
Zitatensammlung 04117724X   4117724-1
TobiasNx commented 1 year ago

So I introduced a quick fix, I will now check for the valuie f in subfield $A. Checking the URI would narrow the results since the GND id is not always provided: https://github.com/hbz/lobid-resources/pull/1548

Also opend another ticket: #1549 for a deeper dive into Formschlagwörter and Formangaben.

TobiasNx commented 1 year ago

We've observed some book records with type Book and Periodical where Periodical is wrong. It seems the transformation rule uses keywords in the title information of the record for adding this type.

Examples:

* http://test.lobid.org/resources/990069462830206441.json

* http://test.lobid.org/resources/990208210430206441.json

This results in conflicts interpreting the data correctly.

@hagbeck we got rid of the Periodical. We could close this ticket.

TobiasNx commented 1 year ago

@hagbeck I am closing this issue. If not sufficiently solved, please reopen it.