ubtue / DatenProbleme

0 stars 0 forks source link

ISSN 1475-5629 | Culture and religion (T&F) | nicht eingespielte Einträge #2120

Closed IxKo closed 2 months ago

IxKo commented 2 months ago

URL

(+ letztes HASH-Datum)

  1. https://doi.org/10.1080/14755610.2023.2196083 IxTheo#2023-12-06#E6DA406116DC715C88B5EAAA37A6008BE50BA183

  2. https://doi.org/10.1080/14755610.2023.2201462 IxTheo#2023-12-04#489B1E16143F860D18FA55A0CF3643490067EC89

  3. https://doi.org/10.1080/14755610.2023.2253332 IxTheo#2023-12-06#EC140B0BC94AA9C6CA47B09AE5A6CE84D93B850D

Problembeschreibung

Die Einträge waren mehrfach in den OF-Dateien (default-Ordner). Demnach müssten sie auf ub28 geführt worden sein. Sie wurden jedoch nie eingespielt und sind auch nicht mehr auf ub28 gelistet. Was könnte mit ihnen passiert sein?

jriedl commented 2 months ago

Die OF-Einträge werden ja automatisch nach Ablauf des Zeitfensters gelöscht, deshalb tauchen sie auf ub28 nicht mehr auf. Heruntergeladen und eingespielt worden sein können sie bei einer RSS-Zeitschrift nur, weil sie dort einmal vorhanden waren. Denkbar ist allerdings immer der Fall, dass sie (absichtlich oder unabsichtich) mit Erscheinen des Hefts aus dem RSS-Feed entfernt wurden, oder, da das bei T&F in der Vergangeheit ja öfter vorkam, wir mal wieder in einer Sperrung waren. Der Feed selbst (https://www.tandfonline.com/feed/rss/rcar20) scheint aber ohnehin ungewöhnlich kurz. Und Z.B. https://doi.org/10.1080/14755610.2023.2201462 scheint ja schon 2021 erschienen zu sein (vgl. https://www.tandfonline.com/toc/rcar20/22/3?nav=tocList), laut dem TOC wurde es aber erst 2023 online publiziert. Evenutell ist hier tatsächlich einfach der Erscheinungsverlauf nicht sauber im Feed abgebildet.

IxKo commented 2 months ago

Der Erscheinungsverlauf der Zs. hinkt immer hinterher: Das aktuelle Heft 2023,2 ist auch erst im Januar diesen Jahres erschienen, und die Zs. gibt jährlich 4 Hefte raus. Es folgen für 2023 also noch 2 Hefte. Weshalb es wahrscheinlich nicht am zeitversetzten Erscheinungsverlauf liegt.

Ich benötige Nachhilfe bei den OF-Artikeln: Die 3 OF-Artikel tauchten mehrfach auf ub28 auf. Ich dachte, wenn sie einmal dort geführt wurden, werden sie alle 2 Wochen entfernt und gleichzeitig findet eine neue Abfrage der Links statt. Falls dem so ist, dann wäre eine Sperrung der Grund, sodass ein wiederholtes Herunterladen gescheitert ist?

jriedl commented 2 months ago

Weshalb es wahrscheinlich nicht am zeitversetzten Erscheinungsverlauf liegt.

Der "echte "Erscheinungsverlauf der Hefte ist ja aber nur indirekt damit korreliert, was tatsächlich im Feed auftaucht und welche Daten dann auf der Website nachgewiesen werden. Wenn der Artikel bereits 2021 erschienen ist, ist es ja seltsam, dass er im Dezember 2023 noch keine ausreichenden Heftangaben hat und ins OF rutscht. Im Prinzip würde man dann ja davon ausgehen, dass alle notwendigen Informationen vorhanden sind und er regulär heruntergeladen werden kann.

Das mit der Sperrung ging von der Überlegung aus, dass eventuell der Link ganz kurzzeitig doch im Feed war und wir dieses "Fenster" (alle Angaben vorhanden, Link im Feed, OF-Nachweis bei uns gerade gelöscht) verpasst haben, weil, je nachdem, wieviel von anderen T&F Zeitschriften heruntergeladen wurde, hier die verlagsseitigen "Schutzmechanismen" greifen (das geht ja eher auf der Ebene der Domains, nicht der Zeitschriftenseite) - das scheint aber kein sehr wahrscheinlicher Fall.

IxKo commented 2 months ago

Der Artikel aus dem 1. Beispiel ist erst 2023 erschienen ("Published online: 30 May 2023"). Er taucht auch zum ersten Mal in den OF-Dateien am 31.05.2023 auf: image (Und zuletzt am 06.12.2023.)

Das Berichtsjahr des Heftes ist allerdings 2021. Der Zs.-Verlauf ist einfach nur sehr hinterher zu unserer momentanen Zeitrechnung. In der Vergangenheit wurde entschieden, keine Unterscheidung zwischen Berichts- und Erscheinungsjahr zu machen (#1078). Hier ist nur ein umgekehrter Fall: Statt dass ein OF-Artikel ein früheres Jahr hat als das Berichtsjahr der Zs., ist hier das Berichtsjahr früher datiert. Bei Erfassung des Aufsatzes, wäre also als Erscheinungsjahr 2021 erfasst worden.

Kann es dann trotzdem etwas mit dem Erscheinungsverlauf zu tun haben?

Ist es überhaupt möglich, herauszufinden, was mit diesen drei Beiträgen passiert ist?

jriedl commented 2 months ago

Aber die Frage Erscheinungs/Berichtsjahr bezieht sich doch darauf, mit welcher Jahresangabe der Record eingespielt werden soll. Hier geht es doch darum, dass ein Artikel in der Vergangenheit im Feed nachgewiesen war, aber offenbar nie der Zustand erreicht wurde, bei dem er sowohl im Feed verlinkt als auch die hinterlegten Metadaten vollständig waren, so dass eine reguläre Einspielung erreicht wurde. Die Vermutung war: Mit dem Hinterlegen der Bandangabe (das Fehlen ist zumindest bei den beiden ersten Artikeln beim letzten Auftreten der Grund) ist es auch aus dem Feed herausgefallen (zu dem unwahrscheinlichen Grenzfall s.o.). Und das ist eben seltsam, da ja die Bandangabe zum Zeitpunkt der Veröffentlichung im Netz bereits bekannt war und deshalb eigentlich nicht hätte fehlen sollen. Da sich der entsprechende Translator auch im fraglichen Zeitraum nicht geändert hat, liegt die Vermutung nahe, dass die Information zu diesem Zeitpunkt wirklich auf der Website gefehlt hat (denn ein aktuelles tryURL z.B. mit dem ersten Artikel liefert die Heftnummer mit).

Realistischerweise liegen nur noch die Informationen aus dem Default-Ordner vor, für alles weitere liegt das einfach schon zu lange zurück. Da hier eben immer sehr viele externe Faktoren hereinspielen über die wir keine Kontrolle haben (z.B. welche Artikel sind wann im Feed), lässt sich das in diesem Fall wohl nicht abschließend klären. Man kann natürlich bei T&F anfragen, ob sie den Zeitraum der im Feed nachgewiesenen Artikel erhöhen, das würde die Wahrscheinlichkeit einer Wiederholung zukünftig senken, aber wie gesagt, das Vorgehen kann auch Absicht sein.

IxKo commented 2 months ago

Ich wollte sicherstellen, dass Sie verstehen, dass kein Artikel von dem Heft schon 2021 erschienen ist, weil Sie schrieben: "scheint ja schon 2021 erschienen zu sein." und "Wenn der Artikel bereits 2021 erschienen ist,".

Alle 6 Artikel des Heftes sind im Zeitraum März bis Dezember 2023 online erschienen (OF-Datum). Die drei Problemfälle im Apr, Mai und Dez. Die 3 anderen, die eingespielt worden sind, sind im März (1) und Dezember (2) erschienen. Es ist also ein Beitrag vor den anderen OF-Problemfällen bereits als OF erschienen, der dann normal am 13.12.2023 eingespielt worden ist.

Müssen die Beiträge immer erneut im Feed erscheinen? Wäre es nicht möglich - da wir sowieso eine Art OF-Datenbank im Hintergrund haben - die DOIs selber (unabhängig vom RSS) in Zeitständen zu prüfen? Ich dachte ehrlich gesagt, dass wir das schon so betreiben.

jriedl commented 2 months ago

Für RSS-Zeitschriften ist der Feed seit Beginn die einzige Quelle um die Downloadkandidaten zu bestimmen. Falls ein Artikel erfolgreich Richtung BSZ geliefert wurde, wird kein neuer Downloadversuch unternommen, fehlerhafte Artikel werden erneut heruntergeladen, solange sie sich im Feed befinden, für OF gilt die bekannte Logik. Das gesonderte OF-Handling dient dazu, nicht sinnloserweise jeden Abend wieder Artikel herunterzuladen, die wir dann nur wegwerfen können. Wir haben auch keine OF-Datenbank, sondern in der Datenbank der gelieferten Records verwalten wir die OF-Records mit und löschen die Einträge in regelmäßigen Abständen wieder, um eben eine sich über Jahre aufsummierende Anzahl irrelevanter "Artikelleichen" zu verhindern.

Deshalb erscheint es auch nicht sinnvoll, zu versuchen, um eine unsaubere Datenhaltung auf Anbieterseite herumzuarbeiten und jede DOI, die irgendwann einmal aufgetaucht ist, bis in alle Ewigkeit auf Verdacht immer wieder herunterzuladen - der Fall, dass OF-Artikel nie in einem Heft auftauchen, scheint im Allgemeinen ja nicht so selten. Weiterhin würde so ein Ansatz die gesamte bisherige Architektur aufbrechen und den von uns verursachten Traffic erhöhen.

Da der März-Artikel offenbar auch erst im Dezember eingespielt wurde und genau in diesem Monat auch neue Artikel hinzugekommen sind, ist es wahrscheinlich, dass die anderen drei Artikel einfach aus dem Feed herausgeschoben wurden. Warum hier ein früher veröffentlichter Artikel davon nicht betroffen war, ist natürlich unklar. Für die Zeitschrift ist eine Print-ISSN angegeben - mir ist aktuell nicht klar, ob die gedruckte Ausgabe noch erscheint, aber falls ja, wird das ja nicht jeweils mit Jahren Verzögerung geschehen, deshalb ist es einfach seltsam, dass erst Ende 2023 feststehen soll, welche Artikel in den 2021-Heften enthalten sind.

IxKo commented 2 months ago

Danke für die Erläuterungen. Womöglich sind die 3 Artikel einfach im Dezember aus dem Feed herausgeschoben worden, wie sie schreiben. Das können wir selbst nicht prüfen.