ubtue / tuefind

Tuebingen University's derivatives of VuFind. Contains former versions like IxTheo, RelBib and KrimDok.
GNU General Public License v2.0
6 stars 4 forks source link

Normdaten ohne Titel #1567

Closed IxTheoKm closed 2 years ago

IxTheoKm commented 3 years ago

Ist es vorgesehen/Absicht dass auch GND-Sätze angezeigt werden, zu denen es keine Titel im IxTheo gibt?

Bsp.: https://ptah.ub.uni-tuebingen.de/Authority/1699325898 https://ptah.ub.uni-tuebingen.de/Authority/803265824

mtrojan-ub commented 3 years ago

Interessant... sollten wir diese Datensätze vom BSZ überhaupt geliefert bekommen?

Grundsätzlich wäre es möglich, dass wir die Datensätze auf unserer Seite weiter einschränken. Ich hatte z.B. auch schon nachgefragt ob wir im Falle von RelBib auch nur die Datensätze anzeigen wollen, die tatsächlich mit einem Titel in RelBib verknüpft sind. Falls ja, ließe sich ggf. die Lösung nachnutzen.

siehe auch: #1545

thefass commented 3 years ago

@IxTheoKm Nein, dass ist nicht vorgesehen. Gute Frage wie der Sportökonom zu uns in die Theologie kommt?

mtrojan-ub commented 3 years ago

Wie gestern in der FID-Runde besprochen habe ich das als Frage ans BSZ weitergegeben. Die beiden o.g. Datensätze existieren scheinbar nicht mehr. Wir haben allerdings noch weitere Beispiele gefunden und vermuten intern, dass es speziell etwas mit Sekkor-Dateien zu tun hat:

1733109854 Strasser, Philipp (Sportökonom) => WA-MARCk10comb-sekkor-210604.tar.gz 797512217 Vaidya, Janesh (Ayurveda-Praktiker) => WA-MARCk10comb-sekkor-210611.tar.gz

IxTheoKm commented 3 years ago

Die beiden o.g. Datensätze existieren scheinbar nicht mehr.

Kann ich nicht bestätigen: im K10plus finde ich sie:

Eingabe: 2012:03-06-20 Änderung: 2012:23-06-21 21:49:48 Status: 2012:03-06-20 Titel: 2 Verknüpfungen mit Normsätzen: 3
005 Tpv1 006 http://d-nb.info/gnd/1211427951 008 piz 011 f 024 wikidata: Q98925956 035 gnd/1211427951 039 gnd/1079686797 040 $erda 043 XA-DE 100 Koch, Michael 375 m 510 !102164029!Universität des Saarlandes ; ID: gnd/2024427-7$4affi 550 !10419801X!Sportökonom ; ID: gnd/4293315-8$4berc 550 !104589531!Wissenschaftlicher Mitarbeiter ; ID: gnd/4066591-4$4beru 670 $uhttp://www.swi-uni-saarland.de/mitarbeiter-detail.php?id=96 797 1699325898 798 45288439X

Eingabe: 2012:14-11-14 Änderung: 2012:30-06-21 21:28:40 Status: 2012:08-03-19 Titel: 15 Verknüpfungen mit Normsätzen: 4
005 Tpv4 006 http://d-nb.info/gnd/1060923041 008 piz 011 f 024 wikidata: Q98525756 024 viaf: 311596231 035 gnd/1060923041 040 $erda 043 XA-DE 100 Bergner, Dietrich 375 m 400 Bergner, Dietrich Albert$4navo 510 !227065689!Institut für Metallkunde$gFreiberg ; ID: gnd/5204432-4$4affi 548 1931$4datl 548 18.08.1931$4datx 550 Prof. Dr.$4akad 550 !106199870!Physiker ; ID: gnd/4045968-8$4berc 551 !104744928!Merseburg ; ID: gnd/4038749-5$4ortg 551 !104746033!Freiberg ; ID: gnd/4018266-6$4ortw 678 $b1978 Professor für Physikalische Metallkunde ; 1992-1996 Professor für Theoretische Werkstoffwissenschaften an der Bergakademie Freiberg 797 803265824 798 417037384

mtrojan-ub commented 3 years ago

Übrigens wurde gestern im FID-Meeting besprochen, dass wir die Normdatensätze zusätzlich intern filtern wollen:

Hierfür soll es zunächst eine temporäre Facette geben um zu prüfen welche Datensätze in welcher Instanz gefiltert werden würden, bevor wir in einem zweiten Schritt die Datensätze tatsächlich ausblenden.

thefass commented 3 years ago

Hier eine Liste der Berufe. Für RelBib muss @relhei noch bestätigen. https://github.com/ubtue/tuefind/wiki/Selektion-von-GND-Autoren-f%C3%BCr-die-Autoreninformation-in-IxTheo-und-Relbib

mtrojan-ub commented 3 years ago

Hinsichtlich zusätzlicher Einträge bzgl. Berufe müssen wir uns wohl eine neue Strategie überlegen.

Weitere Überlegungen dazu haben Folgendes ergeben:

Wir werden also zunächst dafür sorgen, dass nur Anpassungen aus Sekkor übernommen für bestehende Einträge übernommen werden. Das Hinzufügen zusätzlicher Autoren ohne Titel aus der GND muss ein komplett separater Prozessschritt sein. Hierzu werde ich ein separates Issue öffnen.

mtrojan-ub commented 3 years ago

Wir haben heute eine Änderung auf den Testservern eingespielt, die die Übernahme von Sekkor-Daten beeinflusst. Jetzt werden nur noch Korrekturen für Normdaten übernommen, die bereits existieren. Neue zusätzliche Normdatensätze werden also nur noch über TA/WA eingespielt.

thefass commented 3 years ago

sehr gut. Ab wann können wir das testen?

mtrojan-ub commented 3 years ago

Bei "Testen" ist natürlich die Frage, was genau getestet werden soll. Gestern wurde uns z.B. vom BSZ eine neue Sekkor-Datei geliefert: WA-MARCk10comb-sekkor-210723.tar.gz

Darin sieht man, dass nicht alle Datensätze übernommen wurden. Beispielsweise wurde dieser hier verworfen: 69858645X (Fliesser, Helmut: Facharzt für Orthopädie)

Allerdings wurden andere Datensätze übernommen weil sie schon in IxTheo vorhanden waren, Beispiel: 035148101 (Dyck, Walther von: Mathematiker) => Hat auch Titel im IxTheo, Änderungsdatum jetzt 21.07.2021.

Trotzdem tauchen immer noch alte Datensätze auf, weil wir noch keinen SA vom BSZ angefordert haben. Das wird auch wahrscheinlich erst nach der Urlaubszeit was.

mtrojan-ub commented 3 years ago

Andererseits hatten wir ja vorab noch die temporäre Facette versprochen. Ich kümmere mich drum.

mtrojan-ub commented 3 years ago

Die temporäre Facette steht auf ptah zur Verfügung (relativ weit unten): grafik

relhei commented 3 years ago

Bei Einschränkung auf Verfasser*innen mit Wikipedia-Eintrag fehlt beim zweiten Treffer in dieser Liste der Wikipedia-Link (einen Eintrag in der Wikipedia gibt es tatsächlich): grafik

Evt. sollten wir für den Reiter "VerfasserInnen" oberhalb des Suchschlitzes, mit dem wir in die Normdatensuche einsteigen, einen alternativen Begriff finden. Denn recherchierbar sind ja auch Körperschaften oder Veranstaltungen, wie hier in dem Beispiel das Kloster.

thefass commented 3 years ago

Evt. sollten wir für den Reiter "VerfasserInnen" oberhalb des Suchschlitzes, mit dem wir in die Normdatensuche einsteigen, einen alternativen Begriff finden. Denn recherchierbar sind ja auch Körperschaften oder Veranstaltungen, wie hier in dem Beispiel das Kloster.

Körperschaften können ja auhc Verfasser sein. Dass man hier nur an Personen denkt, liegt am gendern. Vielleicht sollten wir in diesem Fall einfach nur "Verfasser" sagen.

Wenn uns was besseres einfällt, ist das auch ok. Bis jetzt ist mir allerdings noch nichts eingefallen. Hättest du, @relhei eine Idee?

mtrojan-ub commented 3 years ago

Bei Einschränkung auf Verfasser*innen mit Wikipedia-Eintrag fehlt beim zweiten Treffer in dieser Liste der Wikipedia-Link (einen Eintrag in der Wikipedia gibt es tatsächlich)

Das bezieht sich auf diesen Eintrag: https://134.2.67.9/Authority/1761447084

Das liegt meines Erachtens nach am Eintrag in der GND: http://d-nb.info/gnd/1236223330

Wenn man sich dort die "MARC21-XML-Repräsentation dieses Datensatzes" anschaut dann sieht man, dass in 670a zwar "Wikipedia" gesetzt ist, aber die passende URL in Unterfeld u fehlt.

IxTheoKm commented 3 years ago

Körperschaften können ja auhc Verfasser sein. Dass man hier nur an Personen denkt, liegt am gendern. Vielleicht sollten wir in diesem Fall einfach nur "Verfasser" sagen.

Ich sehe die entrüsteten Feedbacks schon jetzt vor mir... Wir hatten ja diesbezüglich schon heftige Reaktionen, weil wir an einer Stelle in der Vollanzeige mit "Verfasser" schlicht vergessen hatten zu gendern. Allerdings auch in anderer Richtung, als sich ein Verfasser beschwert hat, dass er keine VerfasserIn sei...

Ich habe jedenfalls keine Idee, mit welcher Formulierung man niemandem auf die Füße tritt.

mtrojan-ub commented 3 years ago

Gibt es in der Zwischenzeit bereits eine Einschätzung zur Facette "Subsystem" auf ptah?

thefass commented 3 years ago

@mtrojan-ub Kannst Du mir bitte nochmal auf die Sprünge helfen. Ich weiß leider nicht mehr, welche Frage mit der Facette Subsystem zusammenhängt

mtrojan-ub commented 3 years ago

Es ging darum, dass wir im jeweiligen Subsystem nur noch die Normdaten der Autoren anzeigen wollen, mit denen mindestens 1 Titel in diesem Subsystem verknüpft ist.

thefass commented 3 years ago

Stichproben beim Subsystem bible sind richtig.

Könnte auf den Personenseiten in den Subsystemen ein Link auf "weitere Titel im IxTheo" eingerichtet werden. Bsp: Issler, Klaus 1951- ist im Index Biblicus mit einem Titel vertreten: https://bible.ixtheo.de/Search/Results?lookfor=Issler%2C+Klaus+1951-&type=AllFields&limit=20&botprotect= Im IxTheo aber mit 7 Titlen: https://ptah.ub.uni-tuebingen.de/Search/Results?lookfor=author_id:%22834614502%22%20OR%20author2_id:%22834614502%22%20OR%20author_corporate_id:%22834614502%22

thefass commented 3 years ago

Stichproben im Subsystem canonlaw sind richtig

Schönes Beispiel für einen Autoren, der sowohl in canonlaw als auch in bible vorhanden ist: Bräumer, Hansjörg 1941-

canonlaw = 2 Titel bible = 14 Titel

insgesamt im IxTheo 51 Titel

relhei commented 3 years ago

Hier schon mal ein Bsp. im Subsystem RelBib, wo ein Autor in der Normdatensuche angezeigt wird, zu dem es keinen Titel gibt: https://134.2.67.9/Authority/856301264 Auch diese Autorin hat keinen Titel im Subsystem: https://134.2.67.9/Authority/853501033 Ich habe nur wenige Titel getestet, d.h. es scheint im Subsystem noch nicht optimal zu greifen...

mtrojan-ub commented 3 years ago

Die Facette ist ja bisher noch nicht standardmäßig aktiv sondern muss manuell in aktiviert werden (zweite von unten). Wenn man die Facette aktiviert dann tauchen auch die beiden Datensätze nicht mehr im Suchergebnis auf.

Funktioniert also aus meiner Sicht. Oder gibt es weitere Beispiele?

mtrojan-ub commented 2 years ago

Der neue SA wurde eingespielt, jetzt sind alle Autoren komplett rausgeflogen zu denen es keine Titel im IxTheo gibt. Bleibt die Frage offen: Funktioniert die Facette für die Subsysteme jetzt wie gewünscht?

relhei commented 2 years ago

Im Moment wird bei mir keine Auswahlfacette für die Subsysteme angezeigt. Wenn ich eine Autorenwebseite aufrufe, wird allerdings das "Subsystem: IxTheo" angezeigt. grafik https://134.2.67.9/Authority/690570848

Die Darstellung der Corporate Relations finde ich auch noch nicht optimal: in dem Beispiel hier steht in Klammern (Affiliation), das müsste meiner Meinung nach nicht unbedingt erscheinen: Besser wäre es, die Art der Afiliation anzuzeigen ("wiss. Mitarbeiterin") - oder weglassen. Bei der ersten Affiliation fehlt zudem der Ort (Universität Leipzig) - hier müsste vmtl. das entsprechende Unterfeld noch ausgelesen werden. Warum die Körperschaften so unterschiedlich erfasst sind, weiß ich auch nicht - Frage an @IxTheoKm: Ist das so korrekt? Im vorliegenden Fall steht bei der ersten Affiliation das Institut an erster Stelle, im Unterfeld die Universität, bei der zweiten Affiliation steht zuerst die Universität, in einem Unterfeld dann die (zugeordnete) Einrichtung.

mtrojan-ub commented 2 years ago

"Subsystem: IxTheo" ist neu hinzugekommen. An dieser Stelle werden Links auf die anderen Systeme angezeigt, sofern der Normdatensatz dort ebenfalls vorhanden ist. Siehe #1656

Die Auswahlfacette für die Subsysteme ist aber definitiv vorhanden

grafik

relhei commented 2 years ago

Sorry, ich war im falschen Reiter... Unter "VerfasserInnen" ist die Facette da.

mtrojan-ub commented 2 years ago

Falls Affiliationen anders dargestellt werden sollten wäre es gut das in einem eigenen Issue zu diskutieren. Was diesen Issue angeht => nach wie vor die Frage ob die Untermengen für die verschiedenen Subsysteme so passen.

relhei commented 2 years ago

Bin gerade dabei zu prüfen. Ja, wegen der Affiliationen schreibe ich ein eigenes Issue. Wäre dann "for meeting discussion". Frage in die Runde (@IxTheoKm @thefass): Wie gehen wir mit Personen aus Tn-Sätzen um. Hier gibt es normalerweise nur sehr wenige Informationen, zumeist nur Vorname, Name. Eine personalisierte Seite ist da m.M.n. nicht so sinnvoll. Könnten diese aus der Normdatensuche ausgeschlossen werden? Ein Beispiel: grafik https://134.2.67.9/Authority/1252054947

mtrojan-ub commented 2 years ago

Ein weiterer Aspekt dazu: Aktuell werden Autoren nur dann in den Subsystemen aufgelistet, wenn sie direkt als Autor oder Nebenautor auftreten (also 100, 110, 110, 700, 710, 711). Allerdings gibt es ja auch Fälle, in denen eine Person von einem Titel aus in einem normierten Schlagwort referenziert wird (689). Soll sie dann ebenfalls in der Suche auftauchen?

/edit: @relhei, ich hoffe dass mit "Tn-Satz" etwas anderes gemeint ist... sorry, ich bin halt kein Bibliothekar :sweat_smile:

IxTheoKm commented 2 years ago

Tn-Sätze gehören m.E. auf keinen Fall da rein: es sind reine nicht-individualisierte Namenssätze, keine Personensätze, hinter denen sich verschiedene gleichnamige Personen verbergen können. Tn-Sätze sind normalerweise nur beteiligte Personen/Autoren.

Als Schlagwort darf nur ein Tp-Satz verwendet werden. (Wir haben allerdings noch eine große Zahl von aufzuarbeitenden migrierten Tn-Sätzen, die für die Sacherschließung verwendet wurden: https://github.com/ubtue/DatenProbleme/issues/960)

Im manchen Fällen könnte es zwar sein, dass alle Titel zu ein und derselben Person gehören, aber dann müsste der Tn-Satz zu einem individualisierten Tp-Satz aufgearbeitet werden. Was sich verbietet, weil man entweder keine indiviualierenden Merkmale findet, oder weil die Menge der Datensätze zu groß ist (die Zahl unserer eigenen migrierten Tn-Sätze ist schon nahezu 16.000).

Bsp. für einen Namenssatz verschiedener Personen:

Eingabe: TUIXTH:25-02-16 Änderung: BSZ:16-05-18 09:57:35 Status: TUIXTH:25-02-16 Titel: 8
005 Tnx 011 f 100 Smith, David K. 400 Smith, David 797 1526254336 798 456254331 908 ixtheo

cz a22 o 4500 001 456254331 003 DE-576 005 201805160957.3 008 160225n||aznnnabbn | abc |c 035 $a(DE-627)1526254336 035 $a(DE-576)456254331 079 $ag$bn$cx$qf 100 1 $aSmith, David K. 400 1 $aSmith, David

Smith

mtrojan-ub commented 2 years ago

Hinweis: Da wir weiter an den Systemen arbeiten ist die separate Facette nicht mehr sichtbar, wird aber dafür jetzt direkt auf die einzelnen Untersysteme angewendet d.h. wirkt sich aufs Suchergebnis aus, wie bei den Titeldaten sonst auch. Die Problematik welche Datensätze wo angezeigt / ausgeblendet werden soll können wir trotzdem in diesem Issue weiter bearbeiten.

mtrojan-ub commented 2 years ago

An welchem MARC-Feld könnte man beim oben genannten Beispiel 1252054947 denn genau erkennen, dass es sich um einen Tn-Satz handelt der ausgeschlossen werden soll?

IxTheoKm commented 2 years ago

Laut Formatdokumentation für PICA-Feld 005 sind es MARC 008 und 079. cz a22 o 4500 001 456254331 003 DE-576 005 201805160957.3 008 160225n||aznnnabbn | abc |c 035 $a(DE-627)1526254336 035 $a(DE-576)456254331 079 $ag$bn$cx$qf 100 1 $aSmith, David K. 400 1 $aSmith, David

Hier Auszüge der Exporttabelle für Normdaten - aus der ich außer für 079 allerdings nicht so wirklich schlau werde:

005c

005

005b

mtrojan-ub commented 2 years ago

@andreas-ub: Kannst Du bitte dafür sorgen, dass alle Personen mit 079b=="n" einen anderen Typ bekommen (z.B. "name" statt "person")? Dann werden sie in der Oberfläche fürs Erste ausgeblendet. Siehe TueFindAuth.getAuthorityType(). Danach können wir mal schauen ob noch weitere Sätze auftauchen und wir ggf. noch Zusatzregeln wie z.B. 008[32]=="b" oder "n" implementieren müssen.

mtrojan-ub commented 2 years ago

Die Änderung wurde auf ptah durchgeführt. Das obige Beispiel 1252054947 taucht jetzt nicht mehr auf => ready for testing!

mtrojan-ub commented 2 years ago

Im Meeting besprochen:

thefass commented 2 years ago

ist m.E. gelöst

mtrojan-ub commented 2 years ago

Nach der Mail von @IxTheoKm hatte ich den Text eingefügt. Allerdings hatte ich die Facette nicht umbenannt, da ich "Name" sehr unspezifisch finde und denke dass es Benutzer verwirren könnte. Gibt es dazu noch andere Meinungen?

(Außerdem war der Name des Tabs aus der Mail ja auch noch nicht final, aber das ist nicht unbedingt Teil dieses Issues.)

IxTheoKm commented 2 years ago

Dieses Issue ist inzwischen sehr unübersichtlich geworden, da hier viele Aspekte behandelt werden, aber mein Problem gehört zu "Normdaten ohne Titel".

https://ixtheo.de/Authority/720899435 ist ein Normsatz, der fälschlich zwei gleichnamige Personen vermischt. Die Titel des Historikers 1944- und des Semitisten 1952- waren alle mit PPN 720899425 verknüpft. Dadurch ist dieser Normsatz in den IxTheo gekommen.

Cook_Edward_M_Jr

Inzwischen wurden die IxTheo-Titel des Semitisten an den korrekten Normsatz umgehängt:

https://ixtheo.de/Authority/792711211

Der korrigierte Normsatz des Historikers https://ixtheo.de/Authority/720899435 hat keine IxTheo-Titel mehr, wird daher wohl auch nicht mehr korrigiert ausgeliefert. Er ist in der falschen Form im IxTheo stehen geblieben.

Wie verschwindet dieser falsche Normsatz aus dem IxTheo? Nur bei einer neuen Gesamtlieferung?