ubtue / tuefind

Tuebingen University's derivatives of VuFind. Contains former versions like IxTheo, RelBib and KrimDok.
GNU General Public License v2.0
6 stars 4 forks source link

Leeres Schaubild "Veröffentlichungen" trotz fast 1000 verknüpften Titeln #1918

Open thefass opened 2 years ago

thefass commented 2 years ago

Hier erscheint auf einmal ein überflüssiges Feld "Veröffentlichungen"

https://www.ixtheo.de/Authority/134330315

Bildschirmfoto 2021-11-30 um 08 13 36

thefass commented 2 years ago

sorry, falsch bezeichnet.

mtrojan-ub commented 2 years ago

... trotzdem ist es eine berechtigte Frage, wieso in diesem Fall die "Publication Timeline" leer ist obwohl es über 600 Titel gibt. Ist auf ptah auch so: https://ptah.ub.uni-tuebingen.de/Authority/134330315

Daher würde ich den Issue wieder öffnen + umbenennen.

@LysogorAndGmail: Could you please check why the publication timeline is empty in this case?

LysogorAndGmail commented 2 years ago

Labels = .....1966,1969,1970,1971,1971$n2006,1972,1973,1974.........

mtrojan-ub commented 2 years ago

In folgendem Titel gibt es ein Datenproblem: https://ptah.ub.uni-tuebingen.de/Record/1603120343

Sowohl 008 als auch 534 enthalten folgenden Wert: 1971$n2006

Aktuell führt das zu einem JavaScript Fehler, weil das in einen Datentyp durchgereicht wird, der nur Ganzzahlen erlaubt. Wir werden hierfür eine Prüfung einbauen, damit solche Titel im Fehlerfall für das Schaubild übersprungen werden.

Müsste das ggf. zusätzlich im Datensatz korrigiert werden?

mtrojan-ub commented 2 years ago

Der Datensatz wurde von @IxTheoKm korrigiert. Außerdem hat @LysogorAndGmail eine Toleranz eingebaut, so dass es beim nächsten Mal dennoch möglich ist das Schaubild darzustellen, wobei dann nur einzelne ungültige Datensätze vom Schaubild ausgeschlossen werden.

=> ready for testing auf ptah!

thefass commented 2 years ago

sieht gut aus. Könnten wir solche falschen Datensätze irgendwie finden? Es war ja nur ein Zufallsfund

mtrojan-ub commented 2 years ago

Es gibt bereits ein Skript in unserer Pipeline, welches auffällige PPNs findet und eine Liste generiert (zum 1. jedes Monats). Diese Mail ist allerdings experimentell und wird bislang nur an uns Entwickler verschickt (Stichwort marc_check Found Rule Violations). Dort wird z.B. auf ungültige Zeitbereiche geprüft. Aktuell hat die Liste ohnehin nur 23 Einträge:

1333330537: "200" does not match "\d{4}"
1679132482: "2" does not match "\d{4}"
1763458989: "200" does not match "\d{4}"
32602350X: "18XX" does not match "\d{4}"
1170751474: "o. J." does not match "\d{4}"
1443667188: "19XX" does not match "\d{4}"
1443667196: "19XX" does not match "\d{4}"
1443874078: "Ill." does not match "\d{4}"
149333672X: "19XX" does not match "\d{4}"
1493357743: "19XX" does not match "\d{4}"
1570282048: "017" does not match "\d{4}"
1631203193: "0/91" does not match "\d{4}"
163667500X: "[s.a.]" does not match "\d{4}"
1636715044: "19XX" does not match "\d{4}"
164928103X: "19XX" does not match "\d{4}"
1649281374: "19XX" does not match "\d{4}"
1649334354: "19XX" does not match "\d{4}"
1649336020: "19XX" does not match "\d{4}"
1649337302: "19XX" does not match "\d{4}"
1649347227: "19XX" does not match "\d{4}"
1649348851: "19XX" does not match "\d{4}"
1649375395: "19XX" does not match "\d{4}"
1649535880: "19XX" does not match "\d{4}"

Grundsätzlich könnten wir natürlich auch weitere Regeln hinzufügen. Die Frage ist nur => welche genau? Sollen wir in dem Fall prüfen, ob 008 oder 534 ein Dollar-Zeichen enthält? Und wäre es einen Versuch Wert, diese Liste auch in Zukunft an die Bibliothekare zu schicken? Wenn ja, an wen genau?

thefass commented 2 years ago

Die Liste ist sinnvoll und von erfahrenen Metadatenspezialisten auch schnell bearbeitbar. Es sind ja offensichtliche Fehler. Ob wir weitere Kriterien aufnehmen sollten, müssen wir nach Weihnachten einmal überlegen

IxTheoKm commented 2 years ago

Die o.g. PPNs sind bis auf zwei korrigiert, für die Mailboxen nötig waren. Wenn Überlegungen zu Bereinigungslisten angestellt werden, sollten die nicht an bestimmte BearbeiterInnen gehen, sondern in einem Pool von Datenbereinigungen gehen (z.B. https://github.com/ubtue/DatenProbleme/issues?q=is%3Aopen+is%3Aissue+label%3ADatenbereinigungen)

thefass commented 1 year ago

@mtrojan-ub Bitte Datenbereinigungen in den Pool laufen lassen wie von @IxTheoKm vorgeschlagen