ubtue / tuefind

Tuebingen University's derivatives of VuFind. Contains former versions like IxTheo, RelBib and KrimDok.
GNU General Public License v2.0
6 stars 4 forks source link

BEACON für "External Ressources" #1708

Closed mtrojan-ub closed 2 years ago

mtrojan-ub commented 3 years ago

Wie im Meeting besprochen: Weitere Beacon-Dateien harvesten und mit Normdaten abgleichen, bei Treffer einen Link in "External References" aufnehmen.

Beachten: Wenn #1706 umgesetzt wird muss es in der passenden Untersektion landen.

@socheres, wie besprochen: BEACONs bitte in diesem Issue posten.

socheres commented 3 years ago

https://github.com/ubtue/tuefind/issues/1019

mtrojan-ub commented 3 years ago

Im Meeting besprochen:

thefass commented 3 years ago

@mtrojan-ub bitte bei @socheres direkt nachfragen

mtrojan-ub commented 3 years ago

Eben besprochen mit @socheres:

mtrojan-ub commented 3 years ago

Heute im Teammeeting besprochen: Wir werden erstmal experimentell Ansatz 2b verfolgen (ähnlich alter Wikidata Bild Proxy) und sehen wie gut das funktioniert.

mtrojan-ub commented 3 years ago

Erste Version jetzt auf ptah => ready for testing, Beispiel: https://ptah.ub.uni-tuebingen.de/Authority/035286210

Ein paar Hinweise dazu:

thefass commented 3 years ago
  • Design OK? (z.B. Grafiken sind jetzt kleiner geworden, da der Platz an der Seite benötigt wird)

Ja, ist ok

  • Sortierung OK? (nach Anzahl absteigend, dann alphabetisch aufsteigend)

Ja, ist ok

  • Was passiert mit dem alten "External Ressources"? rausnehmen?

nein, sondern in der Spalte rechts ausschließen. Diese sollen hervorgehoben werden

  • Über die API kommen auch verschiedene Referenzen auf IxTheo und RelBib mit. Sollen diese gefiltert werden?

Ja, auf jeden Fall

thefass commented 3 years ago

Insgesamt kommen sehr viele Links mit, die Mist sind. Wir müßten viel ausfiltern m.E. alle Bibliothekslinks (manche sind zweimal da, z.B. HBZ-Verbundkatalog) Mist ist z.B. discogs, allmusic.com etc. dann die ganzen ID-Beacon wie Cultureel Woordenboek ID etc. Dann gibt es etliche mit Fehlermelungen, z.B. Encyclopædia Britannica (2) Links auf Bezahlseiten: Munizinger funktioniert nur, wenn man Abo hat

Es stellt sich die Frage, ob wir nicht doch lieber eine kleine, gepflegte Beacon Sammlung anbieten. Das wäre ein Mehrwert für den Nutzer, da er sich nicht durch viele sinnlose klicken muss.

Meinungen? @socheres

mtrojan-ub commented 3 years ago

Einige Referenzen werden nun gefiltert (IxTheo, RelBib, Kalliope, Archivportal-D), siehe ptah. Je nach weiterer Vorgehensweise bitte vollständige Positiv- oder Negativliste bereitstellen.

socheres commented 3 years ago

Ich hätte zwei konkrete Frage:

  1. Kann man die beaconfindbuch-Datei direkt bearbeiten? D.h. können wir unsere eigene modifizierte beaconfindbuch-Datei erstellen? Bei Mehrfacheinträgen muss man darauf achten, welche Datei man löscht. Z.B.:
  1. Ist es außerdem möglich, eine zusätzliche BEACON-Datei einzubinden, die nicht in beaconfindbuch enthalten ist? Z.B. fehlt die Sächsisch Biographie bei https://ptah.ub.uni-tuebingen.de/Authority/079319769 Hier enthalten > https://www.deutsche-biographie.de/pnd118517406.html#indexcontent
socheres commented 3 years ago

Zu. 1. Oder besser statt beacon-datei zu ändern nur vorhandene Target-URL ein- bzw. ausschließen. @mtrojan-ub Sind diese Target-URL irgendwo hinerlegt?

mtrojan-ub commented 3 years ago

Die von mir erstellte Blacklist bezieht sich bisher auf die Labels, man könnte aber auch eine URL Blacklist führen.

Weitere BEACON-Dateien einzubinden wäre nur dann möglich, wenn wir zusätzlich zum existierenden Lösungsansatz 2 den Lösungsansatz 3 umsetzen, und dann entweder alles darüber abbilden oder eine Kombination aus beidem implementieren.

socheres commented 3 years ago

@mtrojan-ub Eine Blacklist ist nicht erforderlich. Denn die API > hier Bsp.-URL mit 5 Ausschlusskriterien bietet bereits bei der Abfrage die Möglichkeit "Treffer zu den korrespondierenden BEACON-Dateien aus den Ergebnissen in den Formaten seealso und redirect herauszufiltern". Das interne Kürzel findet man hier. Ich werde eine URL erstellen, die irrelevante Ressourcen herausfiltert. Außerdem bietet pnd-aks_beacon.txt BEACON-Datei die meisten aggregierten BEACONs!

Zu 1 oben:

Z.B. mit folgendem URL wird der erste Link ohne Trefferergebnis herausgefiltert:

https://beacon.findbuch.de/seealso/pnd-aks/-gvk;-bsb/-hebis/-ixtheo/-nwbib-c?format=seealso&id=118517406

Zu 2:

  1. Ist es außerdem möglich, eine zusätzliche BEACON-Datei einzubinden, die nicht in beaconfindbuch enthalten ist? Z.B. fehlt die Sächsisch Biographie bei https://ptah.ub.uni-tuebingen.de/Authority/079319769 Hier enthalten > https://www.deutsche-biographie.de/pnd118517406.html#indexcontent

Ressourcen, die in pnd-aks_beacon.txt können wir aufnehmen lassen.

ToDO:

relhei commented 3 years ago

Insgesamt kommen sehr viele Links mit, die Mist sind. Wir müßten viel ausfiltern m.E. alle Bibliothekslinks (manche sind zweimal da, z.B. HBZ-Verbundkatalog) Mist ist z.B. discogs, allmusic.com etc. dann die ganzen ID-Beacon wie Cultureel Woordenboek ID etc. Dann gibt es etliche mit Fehlermelungen, z.B. Encyclopædia Britannica (2) Links auf Bezahlseiten: Munizinger funktioniert nur, wenn man Abo hat

Es stellt sich die Frage, ob wir nicht doch lieber eine kleine, gepflegte Beacon Sammlung anbieten. Das wäre ein Mehrwert für den Nutzer, da er sich nicht durch viele sinnlose klicken muss.

Meinungen? @socheres

Richtig sinnvoll scheint @Gazeller und mir die Anzeige der Ergebnisse in den Verbundkatalogen auch nicht. Schließlich haben wir ja auch noch die Verfügbarkeitsanzeige, die die Nutzer*innen viel präziser an den gewünschten Standort führt. Und wir wollen die Nutzenden ja nicht an andere Systeme „verlieren“. HBZ zweimal ist komisch, führt aber tatsächlich auf 2 verschiedene Seiten, jedenfalls in einem getesteten Beispiel. Wir hatten eigentlich auch eher daran gedacht, dass in den externen Ressourcen Links z. B. auf die Deutsche Biografie o.ä. Suchsysteme angezeigt werden, nicht in Bibliothekskataloge.. Außerdem ist das auch ein bisschen verwirrend, dass in der Vollanzeige „Externe Referenzen“ steht und daneben dann noch der Kasten mit „Externe Ressourcen“. Ist den Nutzenden möglicherweise nicht ganz klar, worin der Unterschied besteht…? Also ja, wir stimmen @thefass zu.

socheres commented 3 years ago

ja, wegen der vielen Bezeichnungen war mein Vorschlag dies in der Relbib/IxTheo-Runde mit @mtrojan-ub zu klären. Was Verbundkataloge angeht, halte ich es für sinnvoll, auf diese Kataloge weiterzuverlinken, da wir ohnehin nicht alle Titel anderer Verbundkatalogen zu einem GND-"Personensatz" z.B. hbz, hebis, b3k etc. nachweisen. Die Fachwelt recherchiert nicht ausschließlich in einem Suchsystem, sondern konsultiert ohnehin mehrere Suchmaschienen, vor allem im Metakatalog wie der KVK. Ich schlage vor, diese Punkte in der nächsten Fachreferatssitzung gemeinsam zu klären. Alternativ könnte RelBib/IxTheo unterschiedliche "Externe Ressourcen" haben.

mtrojan-ub commented 2 years ago

Wann findet denn die nächste Fachreferatssitzung statt? Ist damit die FID-Runde am 2.11. gemeint?

Aktuell ist dies der letzte Issue, der gleichzeitig als "authority" und "high priority" gekennzeichnet ist. Somit hängt die Liveschaltung der personalisierten Seiten an diesem Thema.

Können wir das evtl bereits in dieser Woche in einer VC besprechen? (Do wäre ich zeitlich noch sehr flexibel, alternativ auch Di/Mi jeweils am Nachmittag).

(/edit: Habe ganz vergessen dass ich am Fr. Urlaub habe)

socheres commented 2 years ago

ich habe eine Terminumfrage erstellt und an alle Betroffenen zugeschickt. Sollte ich jemanden vergessen haben, teilt mir bitte mit.

socheres commented 2 years ago
  1. VORSCHLAG WIE IN https://www.deutsche-biographie.de/pnd118517406.html#indexcontent image
mtrojan-ub commented 2 years ago

Wie im Meeting besprochen:

Siehe ptah. Fürs Feintuning (genauere Erkennung von Verbundkatalogen, Ausschluss von BEACONs) warte ich noch auf die Infos von @socheres.

relhei commented 2 years ago

Vorschläge für Ausschluss von Links aus der Liste der "externen Ressourcen" - ein Anfang: (Bsp.: https://134.2.67.9/Authority/035286210)

socheres commented 2 years ago

In der Sitzung vom 26.10.2021 mit @mtrojan-ub @thefass @relhei @ja-bre @coeh @IxTheoKm wurde folgendes beschlossen.

ToDo:

ToDo:

ToDo:

@mtrojan-ub bitte testen, ob der Filterlink funktioniert.

socheres commented 2 years ago

Vorschläge für Ausschluss von Links aus der Liste der "externen Ressourcen" - ein Anfang: (Bsp.: https://134.2.67.9/Authority/035286210)

Für die nicht durchgestrichene Ressourcen habe ich entweder kein Kürzel gefunden oder ich möchte sie mir später genauer ansehen. Eventuell Diskussionsbedarf.

mtrojan-ub commented 2 years ago

@socheres: Das Ausschließen per URL habe ich jetzt umgestellt, siehe ptah.

Die URL habe ich dabei noch etwas verändert: http://beacon.findbuch.de/seealso/pnd-aks/-archivportal/-ixtheo/-kalliope/-pw_imslp/-pw_discogs/-pw_munzinger_pop/-pw_allmusic/-relbib/-wikidata/-cultword/?format=seealso&id=

mtrojan-ub commented 2 years ago

Die Sortierung der Verbundkataloge habe ich nun ebenfalls angepasst. Allerdings helfen mir da die kurzen Labels (hebis, bsb usw.) leider nicht weiter, weil die API diese Kürzel nicht zurückliefert. Ich habe jetzt stattdessen einen Regex über die Labels hinterlegt:

Bayerische Staatsbibliothek|HBZ-Verbundkatalog|HeBIS|Nordrhein-Westfälische Bibliographie|Universitätsbibliothek Heidelberg

thefass commented 2 years ago

https://ptah.ub.uni-tuebingen.de/Authority/079319769

thefass commented 2 years ago

Kann in der Zeile , wo GND steht noch Orcid und viaf ergänzt werden?

so vielleicht:

GND / ORCID / VIAF

socheres commented 2 years ago

@socheres: Das Ausschließen per URL habe ich jetzt umgestellt, siehe ptah.

Die URL habe ich dabei noch etwas verändert: http://beacon.findbuch.de/seealso/pnd-aks/-archivportal/-ixtheo/-kalliope/-pw_imslp/-pw_discogs/-pw_munzinger_pop/-pw_allmusic/-relbib/-wikidata/-cultword/-heidi/?format=seealso&id=

  • -ixtheo war doppelt, den zweiten habe ich durch -relbib ersetzt
  • -archivportal und -kalliope habe ich nun auch mit aufgenommen. Das hatten wir vorher als JavaScript Filter implementiert, den ich jetzt wieder rausgenommen habe.

@mtrojan-ub wenn du diese Ressourcen in die "Biographische Referenzen" aufgenommen hast, bitte aus der Spalte "Externe Ressourcen" ebenfalls ausschließen.

#388785 adbreg
#407074 bbkl@ap
#240158 gersac_brabis
#409242 leobw-kglbio
#409815 orcid@wd
#406308 wikidata

Den Ausschluss-Url habe ich nochmal angepasst (Heidi Katalog + Encyclopedia Britannica):

http://beacon.findbuch.de/seealso/pnd-aks/-archivportal/-ixtheo/-kalliope/-pw_imslp/-pw_discogs/-pw_munzinger_pop/-pw_allmusic/-relbib/-wikidata/-cultword/-heidi/-pw_eb/?format=seealso&id=

socheres commented 2 years ago

Kann in der Zeile , wo GND steht noch Orcid und viaf ergänzt werden?

so vielleicht:

GND / ORCID / VIAF

@thefass #409815 orcid@wd wird in "Biographische Referenzen" (="wo GND steht...") ergänzt. Für VIAF gibt es keine BEACON-Datei. Hier müsste man über Entity Facts Dump gehen. @mtrojan-ub Ist das umsetzbar?

socheres commented 2 years ago

https://ptah.ub.uni-tuebingen.de/Authority/079319769

  • Nordrhein-Westfälische Bibliographie ist noch doppelt, obwohl sie auf die selbe Seite führen

Hier müsste man sich entweder für das eine oder das andere entscheiden.

  • einzelne bibliotheken wie Heidelberg halte ich für wenig sinnvoll (darüber hiansu sind sie im K10plus)

wird ausgeschlossen.

Die Trefferanzahl muss seitens HBZ korrigiert werden. @socheres kann man das Label unsererseits ändern? z.B. "Lobid-HBZ-Verbundkatalog" und "HBZ-Verbundkatalog"

  • Titelaufnahmen des B3Kat (247) sollte runter in das Kästchen mit den Verbunddatenbanken

@mtrojan-ub Kannst du B3kat noch in den Regex einbauen?

  • wikipedia-Artikel im oberen Kästchen sollte raus, das haben wir ganz vorne. (der Link geht auf eine wmflabs.org Seite und wird von dort auf wikipedia geleitet)

@thefass was meinst du wikipdia-Artikel unter "Externe Ressourcen"? @mtrojan-ub bitte #409532 commons@pd in den Ausschluss-URL aufnehmen.

  • SWB-Verbundkatalog sollte auch raus, das sind ja wir selbst :-)

  • Open Library - Autorenseite [Rudolf Bultmann (1884-1976)] ist zweimal drin

@mtrojan-ub in https://beacon.findbuch.de/status/pnd-aks.txt ist open library nur 1x drin. Wieso wird trotzdem zweimal angezeigt?

  • National Library of Israel ID ist zweimal drin

kein Kürzel gefunden.

  • Marburger Professorenkatalog online führt leider nicht direkt zum Autor (Bultmann). ist aber sinnvoll, wenn man das findet, denn dann kann man dort noch suchen und hat mehr Infos als sonst üblich

stimme dir zu.

thefass commented 2 years ago

@thefass was meinst du wikipdia-Artikel unter "Externe Ressourcen"? @mtrojan-ub bitte #409532 commons@pd in den Ausschluss-URL aufnehmen.

Diesen Wikipeida-Link rechts unter der Facette externe Ressourcen habe ich bei Bultmann gefunden: https://ptah.ub.uni-tuebingen.de/Authority/079319769 Bildschirmfoto 2021-10-27 um 09 08 54

Wenn man mit der Maus über den Link fährt, sieht man die Adresse im Firefox unten links. Da sieht man, dass der Link auf eine Seite von wmflabs.org führt.

socheres commented 2 years ago

@thefass was meinst du wikipdia-Artikel unter "Externe Ressourcen"? @mtrojan-ub bitte #409532 commons@pd in den Ausschluss-URL aufnehmen.

Wenn man mit der Maus über den Link fährt, sieht man die Adresse im Firefox unten links. Da sieht man, dass der Link auf eine Seite von wmflabs.org führt.

Die Adresse hilft uns nicht. Der Ausschluss wird über ein Kürzel gesteuert. Siehe meine Antwort an mtrojan-ub oben.

mtrojan-ub commented 2 years ago

Kann in der Zeile , wo GND steht noch Orcid und viaf ergänzt werden?

so vielleicht:

GND / ORCID / VIAF

Das wird dort schon mit angezeigt, hier ist ein gutes Beispiel: https://ptah.ub.uni-tuebingen.de/Authority/363450750

mtrojan-ub commented 2 years ago

Soweit ich es verstehen konnte (der Issue ist schon ein ziemliches Durcheinander), habe ich nun die Ausschlussliste erweitert und auch die Sortierung angepasst (siehe ptah). (Da die Ausschlissliste immer größer wird habe ich sie alphabetisch sortiert und in ein array ausgelagert, siehe EXCLUSION_LIST.

Zu den Doppeleinträgen: Selbst wenn es nur eine einzige BEACON-Datei gibt, können darin mehrere IDs auftauchen. Beispiel Openlibrary: http://beacon.findbuch.de/downloads/openlibrary/openlibrary-konkbeacon.txt

Dann generiert die Findbuch API eben auch mehrere Links zur selben Datenbank, mit unterschiedlichen IDs als Ziel.

thefass commented 2 years ago

Kann in der Zeile , wo GND steht noch Orcid und viaf ergänzt werden? so vielleicht: GND / ORCID / VIAF

Das wird dort schon mit angezeigt, hier ist ein gutes Beispiel: https://ptah.ub.uni-tuebingen.de/Authority/363450750

ok, das hatte ich nicht gewußt. Dann ist das erledigt

mtrojan-ub commented 2 years ago

Eine Teilthematik der Doppelungen wird im Rahmen von #1779 behandelt.

socheres commented 2 years ago

@mtrojan-ub wenn du diese Ressourcen in die "Biographische Referenzen" aufgenommen hast, bitte aus der Spalte "Externe Ressourcen" ebenfalls ausschließen.

#388785   adbreg
#407074   bbkl@ap
#240158   gersac_brabis
#409242   leobw-kglbio
#409815   orcid@wd
#406308   wikidata

@mtrojan-ub die oben geannten Quellen außer orcid sind noch nicht im Bereich "Biographische Referenzen" aufgeführt. Z.B.:https://www.deutsche-biographie.de/sfzZ0682-5.html https://ptah.ub.uni-tuebingen.de/Authority/077404084 Kannst du diese hinzufügen? Außerdem bitte #411548 mghopac #216384 unibib_rub in die EXCLUSION_LIST aufnehmen.

mtrojan-ub commented 2 years ago

ORCID / VIAF / ISNI usw sind schon vorhanden, sofern es in den Daten hinterlegt ist. Beispiel: https://ptah.ub.uni-tuebingen.de/Authority/077255976

mtrojan-ub commented 2 years ago

wenn du diese Ressourcen in die "Biographische Referenzen" aufgenommen hast, bitte aus der Spalte "Externe Ressourcen" ebenfalls ausschließen.

Beim Versuch das umzusetzen bin ich über ein Problem gestolpert. Die Bezeichnungen sind nicht exakt gleich. z.B. "Wikipedia" => "Wikipedia-Artikel". Wenn ich das z.B. fuzzy mit einem Substring matche, dann wird auch folgendes gefiltert: "GND" => "REGESTA IMPERII RI OPAC GND", was wir dann wahrscheinlich behalten wollen.

Somit wäre der einzig sichere Ansatz eine Mapping-Liste. Ich schau mal was sich machen lässt.

mtrojan-ub commented 2 years ago

Für das Wikipedia-Beispiel habe ich jetzt einen Filter hinterlegt. Die Anderen konnte ich bei Stichproben nicht in den Externen Ressourcen finden.

=> ready for testing

Falls noch etwas auffällt, bitte Beispiel-PPN nennen.

socheres commented 2 years ago

ORCID / VIAF / ISNI usw sind schon vorhanden, sofern es in den Daten hinterlegt ist. Beispiel: https://ptah.ub.uni-tuebingen.de/Authority/077255976

Was bedeutet, "sofern in den Daten hinterlegt ist"? Wurde eine Liste erstellt bzw. wo finde ich diese bereits hinterlegten biographischen Quellen? Z.B. #388785 adbreg ADB/NDB Deutsche Biographie fehlt im Bereich "Biographische Referenzen".

mtrojan-ub commented 2 years ago

GND: 035 ISNI/LOC/ORCID/VIAF/Wikidata: 024 Wikipedia: 670

BEACONs sind in Biographische Referenzen bislang technisch nicht möglich. Wo genau in den MARC-Daten steht denn der ADB/NDB-Verweis?

relhei commented 2 years ago

Beispiel einer Autorin aus unserem Zweitveröffentlichungsservice: grafik https://134.2.67.9/Authority/690570848 Link auf die markierte externe Ressource führt nicht zum gewünschten Ergebnis. Evt. ausschließen?

socheres commented 2 years ago

GND: 035 ISNI/LOC/ORCID/VIAF/Wikidata: 024 Wikipedia: 670

BEACONs sind in Biographische Referenzen bislang technisch nicht möglich. Wo genau in den MARC-Daten steht denn der ADB/NDB-Verweis?

ADB/NDB ist nur in BEACONs enthalten. Kann man keine BEACONs in Biographische Referenzen integrieren? Welcher Lösungsansatz könnte es denn geben?

mtrojan-ub commented 2 years ago

Da es diese Anforderung nicht von Anfang an gab, müssten dafür beide Bereiche (Externe Ressourcen+Biografische Referenzen) nochmals komplett technisch überarbeitet werden, so dass zunächst die BEACON Abfrage per AJAX durchgeführt wird und dann basierend auf dem Ergebnis beide Teilbereiche nachträglich per JS in die Seite eingefügt werden...

Heißt soviel wie => es ginge wenn wir uns geistig ein Bein rausreißen

mtrojan-ub commented 2 years ago

Nachdem dieser Issue im letzten FID-Meeting besprochen wurde, haben wir die Maschinerie erweitert.

Die betroffene BEACON-Datei wird nun in der Pipeline heruntergeladen und die Normdaten entsprechend gekennzeichnet. "Deutsche Biographie" taucht nun auch unter "Biografische Referenzen" auf. Als Nebenprodukt gibt es jetzt auch einen Eintrag für "Deutsche Biographie" in der Facette "Externe Referenzen".

=> ready for testing auf ptah

socheres commented 2 years ago

http://ptah.ub.uni-tuebingen.de/Authority/134263391 hier taucht die Facette "Externe Referenzen" gar nicht auf. Vielleicht ein Bug?

mtrojan-ub commented 2 years ago

Wie in FID-Runde besprochen: Im vorigen Kommentar war nicht die "Facette" gemeint, sondern der rechte Bereich der von Findbuch abgefragt wird.

mtrojan-ub commented 2 years ago

@socheres: Das kommt daher, weil uns die Findbuch API für diese Datensatz-ID nichts brauchbares zurück liefert.

Beispiel: http://beacon.findbuch.de/seealso/pnd-aks/-archivportal/-commons@pd/-cultword/-heidi/-ixtheo/-kalliope/-mghopac/-pw_allmusic/-pw_discogs/-pw_eb/-pw_imslp/-pw_munzinger_pop/-relbib/-unibib_rub/?format=seealso&id=118547909

Beispiel für einen anderen Datensatz, bei dem es funktioniert (Martin Luther King): http://beacon.findbuch.de/seealso/pnd-aks/-archivportal/-commons@pd/-cultword/-heidi/-ixtheo/-kalliope/-mghopac/-pw_allmusic/-pw_discogs/-pw_eb/-pw_imslp/-pw_munzinger_pop/-relbib/-unibib_rub/?format=seealso&id=118562215

mtrojan-ub commented 2 years ago

Wie besprochen, wir schließen, falls es bei anderem Datensatz wieder auftritt bitte neuen Issue aufmachen.