ubtue / DatenProbleme

0 stars 0 forks source link

1745-5294 | Journal for the study of the New Testament | besonderes Heft Booklist #1197

Open IxKo opened 4 years ago

IxKo commented 4 years ago

URL https://journals.sagepub.com/toc/jnta/42/5

Ausführliche Problembeschreibung Die Zs bringt jährlich ein besonderes Heft (Nr. 5) heraus, in welchem die Artikel aus mehreren Review Essays bestehen, die jeweils von unterschiedlichen Autor:innen geschrieben wurden.

Die Artikel müssten alle das Form-Schlagwort Rezension erhalten, was evtl. über eine Regex-Regel lösbar wäre. Wobei hier eine Regelung mit zwei Ziffern und Punkt möglicherweise zu allgemein ist und es vorkommen könnte, dass auch ein normaler Artikel in einem regulären Heft der Zs mal so beginnt.

Es müsste aber auch der Rubrikentitel in Pica-4212 erscheinen. 4212 Rubrikentitel: Booklist JJJJ

Lösungsansatz Die Zs wegen diesem jährlichen Heft nicht in das automatische Verfahren aufzunehmen, wäre schade. Eventuell könnte hier eine technische Lösung gefunden werden, dass das 5. Heft eines Jahrgangs im Error-Verzeichnis landet und dann intellektuell erfasst werden müsste.

IxKo commented 4 years ago

Gleiches trifft auf die Zs Z=540 1476-6728 Journal for the study of the Old Testament (Sage)

socheres commented 4 years ago

Diese Aufsätze sind eine Art Sammelrezension. Wenn in dieser Zeitschrift das DC.Type "other" <meta name="dc.Type" content="other" /> ausschließlich für solche Aufsätze verwendet werden, könnte man "other" als Selektionsmerkmal für Rezension nehmen. Können Sie bitte dies überprüfen?

IxKo commented 4 years ago

Es scheint nur bei diesen Heften vergeben worden zu sein, für alles (Contributors, Series Abbreviations, Index of... etc.)

IxKo commented 4 years ago

In Marc-XML müsste es so aussehen:

<datafield tag="246" ind1="1" ind2=" ">
<subfield code="i">Rubrikentitel</subfield>
<subfield code="a">Booklist JJJJ</subfield>
</datafield>
kdr154 commented 4 years ago

Das gilt ganz allgemein und nicht nur für diese Sage-Zeitschriften. Wo in $a dann der Titel stehen müsste.

socheres commented 3 years ago

auf Benu sieht wie folgt aus. Ist das so korrekt?

<record>
<leader>00000nab a22004452 4500</leader>
<controlfield tag="001">
IxTheo#2020-12-04#CB647D4BB538DBB55B8A995026CF3E5BEDF67950
</controlfield>
<controlfield tag="003">DE-Tue135</controlfield>
<controlfield tag="007">cr|||||</controlfield>
<datafield tag="024" ind1="7" ind2=" ">
<subfield code="a">10.1177/0142064X20928711</subfield>
<subfield code="2">doi</subfield>
</datafield>
<datafield tag="040" ind1=" " ind2=" ">
<subfield code="a">DE-627</subfield>
<subfield code="b">ger</subfield>
<subfield code="c">DE-627</subfield>
<subfield code="e">rda</subfield>
</datafield>
<datafield tag="041" ind1=" " ind2=" ">
<subfield code="a">eng</subfield>
</datafield>
<datafield tag="084" ind1=" " ind2=" ">
<subfield code="a">1</subfield>
<subfield code="2">ssgn</subfield>
</datafield>
<datafield tag="245" ind1="0" ind2="0">
<subfield code="a">1. New Testament General</subfield>
</datafield>
<datafield tag="246" ind1="3" ind2=" ">
<subfield code="a">Booklist 2020 </subfield>
<subfield code="i">Rubrikentitel</subfield>
</datafield>
<datafield tag="264" ind1=" " ind2=" ">
</datafield>
<datafield tag="520" ind1=" " ind2=" ">
<subfield code="a">, , ,</subfield>
</datafield>
<datafield tag="655" ind1=" " ind2="7">
<subfield code="a">Rezension</subfield>
<subfield code="0">(DE-588)4049712-4</subfield>
<subfield code="0">(DE-627)106186019</subfield>
<subfield code="2">gnd-content</subfield>
</datafield>
<datafield tag="773" ind1="0" ind2="8">
<subfield code="i">In: </subfield>
<subfield code="t">Journal for the study of the New Testament : JSNT</subfield>
<subfield code="x">1745-5294</subfield>
<subfield code="w">(DE-627)341347906</subfield>
<subfield code="g">42 (2020), 5, Seite 1-3</subfield>
</datafield>
<datafield tag="852" ind1=" " ind2=" ">
<subfield code="a">DE-Tue135</subfield>
</datafield>
<datafield tag="856" ind1="4" ind2="0">
<subfield code="u">https://doi.org/10.1177/0142064X20928711</subfield>
</datafield>
<datafield tag="935" ind1=" " ind2=" ">
<subfield code="a">mteo</subfield>
</datafield>
<datafield tag="935" ind1=" " ind2=" ">
<subfield code="a">ixzs</subfield>
<subfield code="2">LOK</subfield>
</datafield>
<datafield tag="935" ind1=" " ind2=" ">
<subfield code="a">zota</subfield>
<subfield code="2">LOK</subfield>
</datafield>
<datafield tag="936" ind1="u" ind2="w">
<subfield code="d">42</subfield>
<subfield code="e">5</subfield>
<subfield code="h">1-3</subfield>
<subfield code="j">2020</subfield>
</datafield>
<datafield tag="JOU" ind1=" " ind2=" ">
<subfield code="a">Journal for the study of the New Testament : JSNT</subfield>
</datafield>
<datafield tag="URL" ind1=" " ind2=" ">
<subfield code="a">
https://journals.sagepub.com/doi/full/10.1177/0142064X20928711
</subfield>
</datafield>
<datafield tag="ZID" ind1=" " ind2=" ">
<subfield code="a">539</subfield>
<subfield code="b">ixtheo</subfield>
</datafield>
</record>
IxKo commented 3 years ago

Der erste Indikator in 246 müsste "1" lauten und nicht "3" Ich hoffe, es macht keinen Unterschied, in welcher Reihenfolge die Subfields angegeben werden. Und das Feld wiederholt sich mit leerem Inhalt darauf.

520 (Abstract) muss noch raus, da es kein Abstract gibt, obwohl es einen Link "View Abstract" gibt. Der führt jedoch nur zu einer PDF-Ansicht der ersten Seite.

kdr154 commented 3 years ago

264 $c, das Jahr für Pica 1000 fehlt.

socheres commented 3 years ago

auf Nu ist das Jahr vorhanden.

kdr154 commented 3 years ago

Es wird immer noch ein überflüssiges Abstract erzeugt: https://journals.sagepub.com/doi/full/10.1177/0142064X20928815 Etwa so: grafik

IxKo commented 3 years ago

Sieht auf Nu gut aus. Da hier ein neues Marc-feld benutzt wird, müsste das in den QA-Settings speziell bei der Zs ergänzt werden (und auch bei dem Alten-Testament-Pendant).

IxKo commented 3 years ago

Ich öffne das Issue wieder, da man noch nicht sagen kann, ob es auch in der Test-DB so eingepsielt wird wie wir es möchten. Außerdem fehlt in den QA-Settings noch das Feld, oder dürfen wir neue Felder selbst ergänzen?

Die beiden Zss sind noch nicht auf zota gestellt.

kdr154 commented 3 years ago

Die eingangs beschriebene Problembeschreibung ist nicht ganz korrekt. Es sollten nicht alle Artikel das Form-Schlagwort "Rezension" erhalten, sondern nur die, die tatsächlich auch Rezensionen enthalten. Nun fallen die meisten, die keine sind, unter das Ausschlusskriterium und können mit "exclude_if_marc_field_245a=..." entfernt werden. https://journals.sagepub.com/toc/jnta/42/5 Der Artikel "Series Abbreviations" https://journals.sagepub.com/doi/full/10.1177/0142064X20928692 ist jedoch erwünscht und sollte erhalten bleiben. Bei diesem sollte das Form-Schlagwort "Rezension" weggelassen werden. Die Zeitschrift ISSN 1476-6728 Journal for the study of the Old Testament (Sage) ist davon nicht betroffen.

kdr154 commented 3 years ago

@jriedl ein Test mit den QA-Settings auf nu war erfolgreich. Die Änderungen könnten auf ub28 übernommen werden. Betroffen sind die Zeitschriften ISSN 1476-6728 Journal for the study of the Old Testament ISSN 1745-5294 Journal for the study of the New Testament

jriedl commented 3 years ago

Kann wie vorhin besprochen einfach auf ub28 eingetragen werden.

IxKo commented 3 years ago

Der Rubrikentitel wurde bei der heutigen Live-Einspielung nicht in den K10plus übertragen, obwohl die XML-Daten im Default-Ordner so aussehen:

IxTheo#2021-07-06#1B1723EB767D35EDB734B17D084E69D631D839DE

<datafield tag="246" ind1="1" ind2=" ">
<subfield code="a">Booklist 2021 </subfield>
<subfield code="i">Rubrikentitel</subfield>
</datafield>

Eine Überprüfung von Test-Einspielungen fand scheinbar nicht statt, bevor die Zss auf zota gesetzt wurde. (https://github.com/ubtue/DatenProbleme/issues/1197#issuecomment-783179351)

Es betrifft immer das Heft 5 siehe auch #1197

Originally posted by @IxKo in https://github.com/ubtue/DatenProbleme/issues/1521#issuecomment-875429092

IxKo commented 1 year ago

Unser Kooperationspartner aus Innsbruck bearbeitet die 5. Hefte momentan manuell und ergänzt 1131 Literaturbericht. Falls das Problem nicht gelöst werden kann, sollte die Zs. eventuell aus dem zota-Verfahren genommen werden?

IxKo commented 5 months ago

Heft 5 scheint nun als Rezensionen eingespielt worden zu sein - allerdings jeder Eintrag aus dem Heft, auch wenn es augenscheinlich keine Rezension ist wie "Index of Publishers" (IxTheo#2024-06-07#3747AAAE5D35F09E73AA477C0C92AB9865D623C5)

Der Rubrikentitel ist auch vorhanden.

jriedl commented 5 months ago

Hier wurde in der Vergangenheit offenbar einmal die Regel eingeführt, dass der Artikeltyp "Other" als Rezension zu interpretieren ist, womit natürlich "alles andere" auch darunterfällt. Denkbar wäre die Einführung eines Titelmusters im QA zur Identifikation von Titeln, die mit "Index" anfangen.

IxKo commented 5 months ago

Eventuell könnten die 11 Titel in die Review-Regex speziell nur für diese Zs., da sie sich nach ein paar Stichproben jedes Jahr wiederholen.

jriedl commented 5 months ago

Hatte ich auch überlegt - ist ein Abwägungsprozess, wieviel Codechaos mit Sonderfällen wir über die nächsten Jahre so mitschleppen wollen.

IxKo commented 5 months ago

Wäre das korrekt (zumindest funktioniert es im Tester, allerdings verstehe ich nicht so recht, wieso ich {0} angeben soll, obwohl ich genau eine Zahl zwischen 1 und 9 erlauben will):

^\d[1-9]{0}(\d[0-1]{0})?\.\s(General|Archeology|History|Texts|Studies|Hermeneutics|Law|The\sLife|Apocrypha|The\sDead|Philology)

jriedl commented 5 months ago

Normalerweise geben die geschweiften Klammern die Anzahl der Wiederholungen des linksstehenden Ausdrucks an (vgl. https://techbyexample.com/curly-braces-quantifier-regex/). Insofern bedeutet Ihr Ausdruck offenbar, dass erst eine Zahl kommt, dann 1-9 null bis beliebig oft vorkommen kann, dann wieder eine Zahl und dann noch 0-1 null mal bis beliebig oft. Eine Zahl ohne führende Null am Anfang des Ausdrucks sollte sich aber auch so formulieren lassen: ^[1-9][0-9]* . Vermutlich ist die Mischung von \d und [x-y] das Problem, da sie in diesem Fall zwei Ausdrucksweisen eines sehr ähnlichen Sachverhalts sind, der damit doppelt formuliert und durch {0} z.T. wieder optional gemacht wird. Ich hätte jetzt im konkreten Fall (JOT?) aber ohnehin eher an einen negativen Regex für die Rezensionen in der QA gedacht: ^(?!Index).

IxKo commented 5 months ago

Ach so, dann müssten jedoch auch diese Titel ausgeschlossen werden:

Demnach so, oder: ^(?!Index)|(?!Society for Old Testament Study)

Das müsste dann aber in die conf und nicht in die QA? Sonst landen sie in den Errors, oder verstehe ich da was falsch?

jriedl commented 5 months ago

Demnach so, oder: ^(?!Index)|(?!Society for Old Testament Study)

Ja, oder auch ^(?!(Index|Society for Old Testament Study)).

Ich hatte es so verstanden, dass es darum geht, einen Weg zu finden, zu vermeiden, dass die oben gemachten Anpassungen etwas fälschlicherweise Rezensionen einspielen. Weil das verwendete Kriterium "other", eben zu generisch und damit brüchig ist. Insofern war meine Annahme tatsächlich, dass es in der Errors landen soll.

Was über die Conf machbar wäre, ist die Verwendung von remove_marc_field_655a = REGEX auf Zeitschriftenebene. Dann müsste der Regex aber wieder umgedreht, d.h. positiv formuliert werden, also remove_marc_field_655a = ^(Index|Society for Old Testament Study) . Dieser Ansatz geht implizit der Annahme aus, dass 655 nur für die Kennzeichnung von Rezensionen verwendet wird. Das ist aktuell für unser Setup richtig, könnte sich aber später ändern. Aber wir verwenden es so auch bereits an anderen Stellen.

jriedl commented 5 months ago

Habe es für JSOT nun so in der Conf eingetragen.

IxKo commented 5 months ago

^(Index|Society for Old Testament Study)

Danke, jedoch würde das den Titel "The Society for Old Testament Study" nicht mit einschließen, da es nicht mit "Society" beginnt.

Ich würde daher zu ^Index|Society\sfor\sOld\sTestament\sStudy ändern, wenn das okay ist.

\s ist nicht erforderlich?

jriedl commented 5 months ago

Sehe die spätere Editierung leider erst jetzt: Habe gerade eine Version ohne Klammern eingecheckt, bei dem sich das Anchoring nur auf den linken Teil bezieht. Für einen Titel würde ich davon ausgehen, dass sie Spaces richtig sind.

jriedl commented 5 months ago

\s ist nicht erforderlich?

Sollte mit normalem Leerzeichen passen.

IxKo commented 5 months ago

Vielen Dank! Für "Journal for the study of the New Testament" schaue ich mir das Rezensionsheft noch an und werde es dann entsprechend ähnlich einrichten.

IxKo commented 2 months ago

Ich muss das Issue wieder öffnen, denn bei der Zs. "Journal for the study of the New Testament" ist Heft 5 eingespielt worden, doch Titel, die in der conf stehen, um 655 Rezension entfernt zu bekommen:

conf: remove_marc_field_655a = "^(Index|Contributors|Series Abbreviations|Books received)"

sind in einer neuen Einspielung diesen Monat wieder mit 1131 Rezension eingespielt: Beispiel: IxTheo#2024-09-05#9B63F92C2901946C8A5E7C8F015AE52F9152B888 image

Zudem ist der "Rubrikentitel Booklist 20XX" nur bei 3 Datensätzen eingespielt worden:

IxTheo#2024-09-05#5C72649D034D85832FFDFBF2E2CB5E32B3E878EA IxTheo#2024-09-05#D55B4F56B663099EED08F114899FD519B4BC0B4D IxTheo#2024-09-05#9B63F92C2901946C8A5E7C8F015AE52F9152B888

Bei allen restlichen Einträgen des Heftes jedoch nicht.

jriedl commented 1 month ago

Da ist der Lösungsansatz bei der letzten Diskussion in die falsche Richtung gelaufen: Der Match bei remove_field_655a geht auf 655a selbst und nicht auf den Titel, so dass dieses Vorgehen so nicht funktionieren kann. Wie es scheint, wird aber bei den neueren Ausgaben von JSNT nun ohnehin der dc.Type für Rezensionen richtig gesetzt (vgl. https://journals.sagepub.com/toc/jnta/46/5), was hoffentlich dann auch für die zukünftigen Sonderhefte von JSOT der Fall ist. Deshalb wurde die diesbezügliche Sonderlogik nun aus dem zotaut-ubtue_SAGE-Translator entfernt.

Für die Booklist wird das Date-Field ausgewertet, hier wurde das Jahr bislang nur extrahiert, wenn tatsächlich auscchließlich ein Jahr hinterlegt war. Der zugehörige Regex wurde jetzt entsprechend abgeschwächt, um auch mit Datumsangaben mit Monat und Jahr umgehen zu können.

Der aktuelle Stand findet sich auf nu. Nachtrag: Allerdings scheinen sich Einträge des Heft 5 nicht mehr im aktuellen RSS-Feed zu finden, sondern bereits die nächste Ausgabe mit Heft 1 von Band 47.

IxKo commented 1 month ago

Ich habe mit TRY URL Stichproben gemacht und es scheint auf nu korrekt zu laufen. Danke, es kann auf ub28 implementiert werden.

EDIT: Getestet bei der Zs. "Journal for the study of the NEW Testament"

Bei der Zs. mit Titel OLD Testament scheinen die Rezensionen noch nicht als solche gekennzeichnet zu werden: https://doi.org/10.1177/03090892241240269

jriedl commented 1 month ago

Die DOI https://doi.org/10.1177/03090892241240269 gehört noch zu einem Band, bei dem alle Artikel noch mit dem Typ "Other" gekennzeichnet sind (vgl. https://journals.sagepub.com/toc/jota/48/5). Mit Band 49 scheint die Auszeichnung aber korrekt zu sein (vgl. https://journals.sagepub.com/toc/jota/49/1), deshalb die obige Annahme, dass es sich für zukünftige Sonderhefte korrekt verhält. Da #2144 nun ebenfalls getestet ist, würde ich nun ein Update auf ub28 mit allen letzte Woche vorgenommenen Änderungen machen.

IxKo commented 1 month ago

Ok, ja, dann ist zu hoffen, dass es sich bei Heft 5 ebenso verhält.

Da https://github.com/ubtue/DatenProbleme/issues/2144 nun ebenfalls getestet ist, würde ich nun ein Update auf ub28 mit allen letzte Woche vorgenommenen Änderungen machen.

Ja, bitte und danke!

jriedl commented 1 month ago

Ist jetzt alles auf ub28.