Open IxKo opened 4 years ago
Gleiches trifft auf die Zs Z=540 1476-6728 Journal for the study of the Old Testament (Sage)
Diese Aufsätze sind eine Art Sammelrezension. Wenn in dieser Zeitschrift das DC.Type "other" <meta name="dc.Type" content="other" />
ausschließlich für solche Aufsätze verwendet werden, könnte man "other" als Selektionsmerkmal für Rezension nehmen. Können Sie bitte dies überprüfen?
Es scheint nur bei diesen Heften vergeben worden zu sein, für alles (Contributors, Series Abbreviations, Index of... etc.)
In Marc-XML müsste es so aussehen:
<datafield tag="246" ind1="1" ind2=" ">
<subfield code="i">Rubrikentitel</subfield>
<subfield code="a">Booklist JJJJ</subfield>
</datafield>
Das gilt ganz allgemein und nicht nur für diese Sage-Zeitschriften. Wo in $a dann der Titel stehen müsste.
auf Benu sieht wie folgt aus. Ist das so korrekt?
<record>
<leader>00000nab a22004452 4500</leader>
<controlfield tag="001">
IxTheo#2020-12-04#CB647D4BB538DBB55B8A995026CF3E5BEDF67950
</controlfield>
<controlfield tag="003">DE-Tue135</controlfield>
<controlfield tag="007">cr|||||</controlfield>
<datafield tag="024" ind1="7" ind2=" ">
<subfield code="a">10.1177/0142064X20928711</subfield>
<subfield code="2">doi</subfield>
</datafield>
<datafield tag="040" ind1=" " ind2=" ">
<subfield code="a">DE-627</subfield>
<subfield code="b">ger</subfield>
<subfield code="c">DE-627</subfield>
<subfield code="e">rda</subfield>
</datafield>
<datafield tag="041" ind1=" " ind2=" ">
<subfield code="a">eng</subfield>
</datafield>
<datafield tag="084" ind1=" " ind2=" ">
<subfield code="a">1</subfield>
<subfield code="2">ssgn</subfield>
</datafield>
<datafield tag="245" ind1="0" ind2="0">
<subfield code="a">1. New Testament General</subfield>
</datafield>
<datafield tag="246" ind1="3" ind2=" ">
<subfield code="a">Booklist 2020 </subfield>
<subfield code="i">Rubrikentitel</subfield>
</datafield>
<datafield tag="264" ind1=" " ind2=" ">
</datafield>
<datafield tag="520" ind1=" " ind2=" ">
<subfield code="a">, , ,</subfield>
</datafield>
<datafield tag="655" ind1=" " ind2="7">
<subfield code="a">Rezension</subfield>
<subfield code="0">(DE-588)4049712-4</subfield>
<subfield code="0">(DE-627)106186019</subfield>
<subfield code="2">gnd-content</subfield>
</datafield>
<datafield tag="773" ind1="0" ind2="8">
<subfield code="i">In: </subfield>
<subfield code="t">Journal for the study of the New Testament : JSNT</subfield>
<subfield code="x">1745-5294</subfield>
<subfield code="w">(DE-627)341347906</subfield>
<subfield code="g">42 (2020), 5, Seite 1-3</subfield>
</datafield>
<datafield tag="852" ind1=" " ind2=" ">
<subfield code="a">DE-Tue135</subfield>
</datafield>
<datafield tag="856" ind1="4" ind2="0">
<subfield code="u">https://doi.org/10.1177/0142064X20928711</subfield>
</datafield>
<datafield tag="935" ind1=" " ind2=" ">
<subfield code="a">mteo</subfield>
</datafield>
<datafield tag="935" ind1=" " ind2=" ">
<subfield code="a">ixzs</subfield>
<subfield code="2">LOK</subfield>
</datafield>
<datafield tag="935" ind1=" " ind2=" ">
<subfield code="a">zota</subfield>
<subfield code="2">LOK</subfield>
</datafield>
<datafield tag="936" ind1="u" ind2="w">
<subfield code="d">42</subfield>
<subfield code="e">5</subfield>
<subfield code="h">1-3</subfield>
<subfield code="j">2020</subfield>
</datafield>
<datafield tag="JOU" ind1=" " ind2=" ">
<subfield code="a">Journal for the study of the New Testament : JSNT</subfield>
</datafield>
<datafield tag="URL" ind1=" " ind2=" ">
<subfield code="a">
https://journals.sagepub.com/doi/full/10.1177/0142064X20928711
</subfield>
</datafield>
<datafield tag="ZID" ind1=" " ind2=" ">
<subfield code="a">539</subfield>
<subfield code="b">ixtheo</subfield>
</datafield>
</record>
Der erste Indikator in 246 müsste "1" lauten und nicht "3" Ich hoffe, es macht keinen Unterschied, in welcher Reihenfolge die Subfields angegeben werden. Und das Feld wiederholt sich mit leerem Inhalt darauf.
520 (Abstract) muss noch raus, da es kein Abstract gibt, obwohl es einen Link "View Abstract" gibt. Der führt jedoch nur zu einer PDF-Ansicht der ersten Seite.
264 $c, das Jahr für Pica 1000 fehlt.
auf Nu ist das Jahr vorhanden.
Es wird immer noch ein überflüssiges Abstract erzeugt: https://journals.sagepub.com/doi/full/10.1177/0142064X20928815 Etwa so:
Sieht auf Nu gut aus. Da hier ein neues Marc-feld benutzt wird, müsste das in den QA-Settings speziell bei der Zs ergänzt werden (und auch bei dem Alten-Testament-Pendant).
Ich öffne das Issue wieder, da man noch nicht sagen kann, ob es auch in der Test-DB so eingepsielt wird wie wir es möchten. Außerdem fehlt in den QA-Settings noch das Feld, oder dürfen wir neue Felder selbst ergänzen?
Die beiden Zss sind noch nicht auf zota gestellt.
Die eingangs beschriebene Problembeschreibung ist nicht ganz korrekt. Es sollten nicht alle Artikel das Form-Schlagwort "Rezension" erhalten, sondern nur die, die tatsächlich auch Rezensionen enthalten. Nun fallen die meisten, die keine sind, unter das Ausschlusskriterium und können mit "exclude_if_marc_field_245a=..." entfernt werden. https://journals.sagepub.com/toc/jnta/42/5 Der Artikel "Series Abbreviations" https://journals.sagepub.com/doi/full/10.1177/0142064X20928692 ist jedoch erwünscht und sollte erhalten bleiben. Bei diesem sollte das Form-Schlagwort "Rezension" weggelassen werden. Die Zeitschrift ISSN 1476-6728 Journal for the study of the Old Testament (Sage) ist davon nicht betroffen.
@jriedl ein Test mit den QA-Settings auf nu war erfolgreich. Die Änderungen könnten auf ub28 übernommen werden. Betroffen sind die Zeitschriften ISSN 1476-6728 Journal for the study of the Old Testament ISSN 1745-5294 Journal for the study of the New Testament
Kann wie vorhin besprochen einfach auf ub28 eingetragen werden.
Der Rubrikentitel wurde bei der heutigen Live-Einspielung nicht in den K10plus übertragen, obwohl die XML-Daten im Default-Ordner so aussehen:
IxTheo#2021-07-06#1B1723EB767D35EDB734B17D084E69D631D839DE
<datafield tag="246" ind1="1" ind2=" ">
<subfield code="a">Booklist 2021 </subfield>
<subfield code="i">Rubrikentitel</subfield>
</datafield>
Eine Überprüfung von Test-Einspielungen fand scheinbar nicht statt, bevor die Zss auf zota gesetzt wurde. (https://github.com/ubtue/DatenProbleme/issues/1197#issuecomment-783179351)
Es betrifft immer das Heft 5 siehe auch #1197
Originally posted by @IxKo in https://github.com/ubtue/DatenProbleme/issues/1521#issuecomment-875429092
Unser Kooperationspartner aus Innsbruck bearbeitet die 5. Hefte momentan manuell und ergänzt 1131 Literaturbericht. Falls das Problem nicht gelöst werden kann, sollte die Zs. eventuell aus dem zota-Verfahren genommen werden?
Heft 5 scheint nun als Rezensionen eingespielt worden zu sein - allerdings jeder Eintrag aus dem Heft, auch wenn es augenscheinlich keine Rezension ist wie "Index of Publishers" (IxTheo#2024-06-07#3747AAAE5D35F09E73AA477C0C92AB9865D623C5)
Der Rubrikentitel ist auch vorhanden.
Hier wurde in der Vergangenheit offenbar einmal die Regel eingeführt, dass der Artikeltyp "Other" als Rezension zu interpretieren ist, womit natürlich "alles andere" auch darunterfällt. Denkbar wäre die Einführung eines Titelmusters im QA zur Identifikation von Titeln, die mit "Index" anfangen.
Eventuell könnten die 11 Titel in die Review-Regex speziell nur für diese Zs., da sie sich nach ein paar Stichproben jedes Jahr wiederholen.
Hatte ich auch überlegt - ist ein Abwägungsprozess, wieviel Codechaos mit Sonderfällen wir über die nächsten Jahre so mitschleppen wollen.
Wäre das korrekt (zumindest funktioniert es im Tester, allerdings verstehe ich nicht so recht, wieso ich {0} angeben soll, obwohl ich genau eine Zahl zwischen 1 und 9 erlauben will):
^\d[1-9]{0}(\d[0-1]{0})?\.\s(General|Archeology|History|Texts|Studies|Hermeneutics|Law|The\sLife|Apocrypha|The\sDead|Philology)
Normalerweise geben die geschweiften Klammern die Anzahl der Wiederholungen des linksstehenden Ausdrucks an (vgl. https://techbyexample.com/curly-braces-quantifier-regex/). Insofern bedeutet Ihr Ausdruck offenbar, dass erst eine Zahl kommt, dann 1-9 null bis beliebig oft vorkommen kann, dann wieder eine Zahl und dann noch 0-1 null mal bis beliebig oft. Eine Zahl ohne führende Null am Anfang des Ausdrucks sollte sich aber auch so formulieren lassen: ^[1-9][0-9]*
. Vermutlich ist die Mischung von \d
und [x-y]
das Problem, da sie in diesem Fall zwei Ausdrucksweisen eines sehr ähnlichen Sachverhalts sind, der damit doppelt formuliert und durch {0}
z.T. wieder optional gemacht wird. Ich hätte jetzt im konkreten Fall (JOT?) aber ohnehin eher an einen negativen Regex für die Rezensionen in der QA gedacht: ^(?!Index)
.
Ach so, dann müssten jedoch auch diese Titel ausgeschlossen werden:
Demnach so, oder: ^(?!Index)|(?!Society for Old Testament Study)
Das müsste dann aber in die conf und nicht in die QA? Sonst landen sie in den Errors, oder verstehe ich da was falsch?
Demnach so, oder: ^(?!Index)|(?!Society for Old Testament Study)
Ja, oder auch ^(?!(Index|Society for Old Testament Study))
.
Ich hatte es so verstanden, dass es darum geht, einen Weg zu finden, zu vermeiden, dass die oben gemachten Anpassungen etwas fälschlicherweise Rezensionen einspielen. Weil das verwendete Kriterium "other", eben zu generisch und damit brüchig ist. Insofern war meine Annahme tatsächlich, dass es in der Errors landen soll.
Was über die Conf machbar wäre, ist die Verwendung von remove_marc_field_655a = REGEX
auf Zeitschriftenebene. Dann müsste der Regex aber wieder umgedreht, d.h. positiv formuliert werden, also remove_marc_field_655a = ^(Index|Society for Old Testament Study)
. Dieser Ansatz geht implizit der Annahme aus, dass 655 nur für die Kennzeichnung von Rezensionen verwendet wird. Das ist aktuell für unser Setup richtig, könnte sich aber später ändern. Aber wir verwenden es so auch bereits an anderen Stellen.
Habe es für JSOT nun so in der Conf eingetragen.
^(Index|Society for Old Testament Study)
Danke, jedoch würde das den Titel "The Society for Old Testament Study" nicht mit einschließen, da es nicht mit "Society" beginnt.
Ich würde daher zu ^Index|Society\sfor\sOld\sTestament\sStudy
ändern, wenn das okay ist.
\s
ist nicht erforderlich?
Sehe die spätere Editierung leider erst jetzt: Habe gerade eine Version ohne Klammern eingecheckt, bei dem sich das Anchoring nur auf den linken Teil bezieht. Für einen Titel würde ich davon ausgehen, dass sie Spaces richtig sind.
\s
ist nicht erforderlich?
Sollte mit normalem Leerzeichen passen.
Vielen Dank! Für "Journal for the study of the New Testament" schaue ich mir das Rezensionsheft noch an und werde es dann entsprechend ähnlich einrichten.
Ich muss das Issue wieder öffnen, denn bei der Zs. "Journal for the study of the New Testament" ist Heft 5 eingespielt worden, doch Titel, die in der conf stehen, um 655 Rezension entfernt zu bekommen:
conf:
remove_marc_field_655a = "^(Index|Contributors|Series Abbreviations|Books received)"
sind in einer neuen Einspielung diesen Monat wieder mit 1131 Rezension eingespielt: Beispiel: IxTheo#2024-09-05#9B63F92C2901946C8A5E7C8F015AE52F9152B888
Zudem ist der "Rubrikentitel Booklist 20XX" nur bei 3 Datensätzen eingespielt worden:
IxTheo#2024-09-05#5C72649D034D85832FFDFBF2E2CB5E32B3E878EA IxTheo#2024-09-05#D55B4F56B663099EED08F114899FD519B4BC0B4D IxTheo#2024-09-05#9B63F92C2901946C8A5E7C8F015AE52F9152B888
Bei allen restlichen Einträgen des Heftes jedoch nicht.
Da ist der Lösungsansatz bei der letzten Diskussion in die falsche Richtung gelaufen: Der Match bei remove_field_655a
geht auf 655a selbst und nicht auf den Titel, so dass dieses Vorgehen so nicht funktionieren kann. Wie es scheint, wird aber bei den neueren Ausgaben von JSNT nun ohnehin der dc.Type
für Rezensionen richtig gesetzt (vgl. https://journals.sagepub.com/toc/jnta/46/5), was hoffentlich dann auch für die zukünftigen Sonderhefte von JSOT der Fall ist. Deshalb wurde die diesbezügliche Sonderlogik nun aus dem zotaut-ubtue_SAGE
-Translator entfernt.
Für die Booklist wird das Date-Field ausgewertet, hier wurde das Jahr bislang nur extrahiert, wenn tatsächlich auscchließlich ein Jahr hinterlegt war. Der zugehörige Regex wurde jetzt entsprechend abgeschwächt, um auch mit Datumsangaben mit Monat und Jahr umgehen zu können.
Der aktuelle Stand findet sich auf nu. Nachtrag: Allerdings scheinen sich Einträge des Heft 5 nicht mehr im aktuellen RSS-Feed zu finden, sondern bereits die nächste Ausgabe mit Heft 1 von Band 47.
Ich habe mit TRY URL Stichproben gemacht und es scheint auf nu korrekt zu laufen. Danke, es kann auf ub28 implementiert werden.
EDIT: Getestet bei der Zs. "Journal for the study of the NEW Testament"
Bei der Zs. mit Titel OLD Testament scheinen die Rezensionen noch nicht als solche gekennzeichnet zu werden: https://doi.org/10.1177/03090892241240269
Die DOI https://doi.org/10.1177/03090892241240269 gehört noch zu einem Band, bei dem alle Artikel noch mit dem Typ "Other" gekennzeichnet sind (vgl. https://journals.sagepub.com/toc/jota/48/5). Mit Band 49 scheint die Auszeichnung aber korrekt zu sein (vgl. https://journals.sagepub.com/toc/jota/49/1), deshalb die obige Annahme, dass es sich für zukünftige Sonderhefte korrekt verhält. Da #2144 nun ebenfalls getestet ist, würde ich nun ein Update auf ub28 mit allen letzte Woche vorgenommenen Änderungen machen.
Ok, ja, dann ist zu hoffen, dass es sich bei Heft 5 ebenso verhält.
Da https://github.com/ubtue/DatenProbleme/issues/2144 nun ebenfalls getestet ist, würde ich nun ein Update auf ub28 mit allen letzte Woche vorgenommenen Änderungen machen.
Ja, bitte und danke!
Ist jetzt alles auf ub28.
URL https://journals.sagepub.com/toc/jnta/42/5
Ausführliche Problembeschreibung Die Zs bringt jährlich ein besonderes Heft (Nr. 5) heraus, in welchem die Artikel aus mehreren Review Essays bestehen, die jeweils von unterschiedlichen Autor:innen geschrieben wurden.
Die Artikel müssten alle das Form-Schlagwort Rezension erhalten, was evtl. über eine Regex-Regel lösbar wäre. Wobei hier eine Regelung mit zwei Ziffern und Punkt möglicherweise zu allgemein ist und es vorkommen könnte, dass auch ein normaler Artikel in einem regulären Heft der Zs mal so beginnt.
Es müsste aber auch der Rubrikentitel in Pica-4212 erscheinen. 4212 Rubrikentitel: Booklist JJJJ
Lösungsansatz Die Zs wegen diesem jährlichen Heft nicht in das automatische Verfahren aufzunehmen, wäre schade. Eventuell könnte hier eine technische Lösung gefunden werden, dass das 5. Heft eines Jahrgangs im Error-Verzeichnis landet und dann intellektuell erfasst werden müsste.