ubtue / tuefind

Tuebingen University's derivatives of VuFind. Contains former versions like IxTheo, RelBib and KrimDok.
GNU General Public License v2.0
6 stars 4 forks source link

Normdatenanzeige: Wikipedia-Link hinzufügen #1570

Open mtrojan-ub opened 3 years ago

mtrojan-ub commented 3 years ago

Ähnlich #1544

In den bestehenden Normdaten gibt es auch Hinweise zu bereits hinterlegten Wikipedia-Links. Diese sind allerdings i.d.R. sehr heterogen, daher kann die Information (aus 670) nicht sinnvoll verwendet werden.

Beispiele: Datensatz-URL auf ptah Wert aus 670a Hinweis
https://ptah.ub.uni-tuebingen.de/Authority/1755974353/Details https://nl.wikipedia.org/wiki/Catharina_Cool URL ist korrekt, allerdings kein Hinweis dass es sich um eine URL handelt
https://ptah.ub.uni-tuebingen.de/Authority/692860312/Details http://nl.wikipedia.org/wiki/Franz_Courtens (12.11.2010) Das Datum in Klammern ist ein Suffix, welches die URL unbrauchbar macht, müsste vermutlich in separatem Unterfeld gepflegt werden
https://ptah.ub.uni-tuebingen.de/Authority/1759416258/Details nl.wikipedia Hinweis, dass dieser Datensatz in der nl.wikipedia vorkommt, allerdings ohne konkrete ID oder URL
https://ptah.ub.uni-tuebingen.de/Authority/794410324/Details LCAuth; Wikipedia: https://nl.wikipedia.org/wiki/Jaap_Kruithof Mehrere Werte im selben Unterfeld, Regeln für weitere Auswertung unklar

@IxTheoKm: Können Sie einschätzen wieso diese Werte so heterogen sind? Wie müssten die Informationen korrekt erfasst werden bzw. was wäre hier der SOLL-Zustand?

mtrojan-ub commented 3 years ago

... Ist es korrekt so wie in diesem ("prominenten") Beispiel?: https://134.2.67.9/Authority/1745190449/Details

grafik Wobei hier wahrscheinlich auch nur die Struktur stimmt, wieso genau diese URL in 670u steht ist mir schleierhaft...

IxTheoKm commented 3 years ago

Für die Erfassung der Quellen in Feld 670 gilt aktuell diese Vorgabe: 670.pdf

Allerdings war die Erfassung früher deutlich unstrukturierter. Links wurden nach meiner Erinnerung anfangs gar nicht erfasst. Nur die vorgeschriebenen Abkürzungen der offiziellen Liste der Nachschlagewerke oder bibliografische Angaben anderer Quellen (siehe Datei 670.pdf). Einiges wurde maschinell angepasst, anderes muss ggf. "im Ereignisfall" korrigiert werden, d.h. wenn der Satz anderweitg bearbeitet wird. Ob da immer auch die Quelle angepasst wird, bezweifle ich.

Welche (Wikipedia-)Links dort abgelegt werden, hängt vom Rechercheergebnis des jeweiligen Bearbeiters ab. Als Quelle wird halt angegeben, was der Bearbeiter bei den Recherchen auftreiben kann. Wenn das die Webseite von RelBib ist, kann es auch diese Quelle sein.

thefass commented 3 years ago

@mtrojan-ub $u kannst Du immer auswerten, egal ob wikipedia oder etwas anderes.

Darüber hinaus solltest Du schauen, ob es auch in den unstrukturierten Angaben einen wikipedia Link gibt. Den könntest du dann verwenden. Denn der Erfasser hat ja diesen Artikel als Quelle für die Angaben zum Autor verwendet und somit ist das intellektuell geprüft.

Über die Wikidata Daten hinaus könnte das somit eine Ergänzung sein

mtrojan-ub commented 3 years ago

Der Wikipedia-Link wird jetzt auch unter "External References" angezeigt => ready for testing, Beispiel: https://ptah.ub.uni-tuebingen.de/Authority/035286210

thefass commented 3 years ago

ja, Link wird angezeigt. das ist ok

thefass commented 3 years ago

Können auch die URLs von oben aus der Liste noch genutzt werden? Das wäre bei Datensatz 1, 2 und 4 wünschenswert, da dort folgende Bedingungen vorhanden sind: Ein String fängt mit "http ..." an und enthält "wikipedia.org"

mtrojan-ub commented 3 years ago

Es gibt nur 237 Einträge auf die diese Bedingung zutrifft, und manche davon sind trotzdem noch unbrauchbar weil sie Suffixe wie Datumsangaben beinhalten die man noch entfernen müsste damit der Link tatsächlich funktioniert. Von daher halte ich das nicht für einen gangbaren Weg.

thefass commented 3 years ago

Ok, da es nur wenige Datensätze sind, lassen wir das @mtrojan-ub Ist es möglich eine Liste auszugeben, in der "falsche" Wikipedia Links in der 670 sind? Dann könnten wir die bereinigen

mtrojan-ub commented 3 years ago

670a.txt

=> Aktuell 289 Einträge. Es könnte aber sein, dass manche davon beim nächsten Komplettabzug nicht mehr in IxTheo auftauchen.

Notiz fürs nächste Mal, Liste wurde mit diesem Befehl erzeugt: marc_grep Normdaten-fully-augmented-210921.mrc 'if "670a"=="http://.*ikipedia" extract "670"' > /tmp/670a.txt

thefass commented 3 years ago

Ok. Bevor wir nun allgemeine Datensätze für den K1oplus bereinigen, stellen wir die Bearbeitung bis nach dem nächsten Komplettabzug zurück.

mtrojan-ub commented 3 years ago

Der SA wurde heute eingespielt. Es sind jetzt noch 112 Datensätze betroffen: 670a.txt

(Vorsicht: Die Datei hat insgesamt 226 Zeilen, mehrere aufeinanderfolgende Zeilen können dabei zur selben PPN gehören.)

IxTheoKm commented 3 years ago

@thefass Bitte hier die Priorität festlegen, da wir in Bezug auf Normsätze noch tausende Fälle haben, die überhaupt erst angelegt werden müssen.

Da eine Prüfung und Aufarbeitung zum Teil aufwändig werden kann (auch wenn es "nur" 112 Datensätze sind), halte ich es nicht für prioritär, für Einzel-Problemfälle dafür zu sorgen, dass man aus dem IxTheo-Satz nach Wikipedia kommt. Die kann im Notfall jeder direkt in Wikipedia aufrufen.

Oder hängen andere Funktionalitäten daran? Dann müsste eine Routine aufgebaut werden, die neu hinzu kommende Fälle berücksichtigt.

IxTheoKm commented 3 years ago

@mtrojan-ub Die Liste 670a.txt enthält die K10plus PPNs. Normsätze müssen aber direkt in der GND bearbeitet werden. Daher brauchen wir für eine Bearbeitung die GND PPN 035 $a(DE-588), sonst muss jeder einzelne Datensatz zuerst im K10plus aufgerufen, die GND-Nummer kopiert und dann nochmal in der GND aufgerufen werden. Die GND-Nummer ist sowohl im K10plus als auch in der GND recherchierbar.

mtrojan-ub commented 3 years ago

Hier die Liste der PPNs mit zugehöriger GND Nummer: 035.txt

thefass commented 2 years ago

@IxTheoKm Die Liste ist nicht mehr sonderlich lang. Bitte von jemanden bereinigen lassen

IxTheoKm commented 2 years ago

@mtrojan-ub Zum Verständnis: es geht in den gelisteten Normsätzen um die Prüfung und Anpassung aller URLs in den 670er Feldern, nicht nur um die Wikipedia-Links, richtig?

thefass commented 2 years ago

es geht nur um die Wikipedia Links, die anderen links können wir nicht nachhalten, wenn sie nicht mehr auflösen

IxTheoKm commented 2 years ago

Korrektur der Wikipedia-Links in den Normsätzen der Liste ist beauftragt.

IxTheoKm commented 2 years ago

Korrektur erledigt. Ausnahme: PPN 101651562 = GND 2009323-8 (Bearbeitungssperre Top500-Normsatz). Redaktionsanfrage an DNB läuft. Ablehnung der Korrektur ist aber möglich.

thefass commented 2 years ago

Danke

IxTheoKm commented 2 years ago

Die Datensätze in denen in der GND ein Wikipedia-Link enthalten ist, scheinen nun eine doppelte Wikipedia-Anzeige zu haben:

https://ptah.ub.uni-tuebingen.de/Authority/061939080

Wikipedia

  1. https://de.wikipedia.org/wiki/Hans_K%C3%BCng
  2. https://de.wikipedia.org/w/index.php?title=Hans_K%C3%BCng

Diejenigen ohne Wikipedia-Link im Normsatz haben nur einen Eintrag:

https://ptah.ub.uni-tuebingen.de/Authority/079429378

Wikipedia2

  1. https://de.wikipedia.org/wiki/Desmond_Tutu
mtrojan-ub commented 2 years ago

Gleiche Problematik wie bei #1544.