Open IxTheoKm opened 5 years ago
Auch hier scheint das nur indirekt mit dem Sortierzeichen zusammenzuhängen, denn schon in den ursprünglich durch den Verbund ausgespielten Datensätzen findet sich kein Sortierzeichen in 245$a. Allerdings unterscheiden sich die Titel am Anfang subtil: In einem Fall wurde "L' Impur" (mit Leerzeichen) erfasst, im anderen "L'Impur". Damit liegen im ersten Fall zwei und im zweiten Fall ein Wort vor. Nun wird aber offenbar bereits in der VuFind-eigenen Routine für die Bestimmung des Titelsortierstrings ein einzelner Buchstaben am Anfang verworfen (was auch sinnvoll erscheint), womit in einem Fall das Ergebnis, anhand dessen dann sortiert wird, "impur.." und im anderen "limpur" lautet und was schließlich zu unterschiedlichen Positionierungen führt.
Für mich sieht es nach einem Datenfehler aus wenn nach dem Apostroph ein Leerzeichen steht. Falls ja sollte man dann eben den Datensatz korrigieren und dieses Issue schließen.
Der Datenfehler ist die Erfassung mit Apostroph ohne Leerzeichen und ohne Sortierzeichen. Die Formatvorgabe für PICA-Feld 4000 = MARC 245 ist "L' @..."
In PPN 1523196262 und 1523196033 steht "L'...", was falsch ist. Nur leider sind das Verlagseinspielungen, die massenhaft vorkommen. (Zukünftig auch mit dem vollautomatischen Verfahren?)
@ruschein und @jriedl kann mit regulären Ausdrücken in der Pipeline hier etwas verbessert werden? Nur so sehe ich eine Chance auf Verbesserung. Nachträgliche Korrekturen von Verlagseinspielungen und Metadatenübernahme über unser Zotero-Verfahren sind nicht leistbar.
@thefass Wenn wir hier eine Liste der gewünschten Titeltransformationen bekämen könnten wir da etwas in der Pipeline machen. Allerdings könnte man das vermutlich auch beim BSZ machen, oder?
@IxTheoKm Ich warte immer noch auf die Liste der gewünschten Transformationen. Das mit dem L + Apostroph dürfte eventuell morgen auf Path behoben sein.
Die Sortierung durch das Apostroph-Problem ist unverändert: https://ptah.ub.uni-tuebingen.de/Search/Results?lookfor=impur&type=Title&limit=200&sort=title&botprotect=
@thefass Was meinen Sie mit Titeltransformationen? Grundsätzlich sollten alle Artikel gleich behandelt werden (ob beim Browsen oder in der Sortierung der Kurzliste. Siehe https://github.com/ubtue/tuefind/issues/833) Eine Übersicht möglicher Artikel s.u. Weitere in anderen Sprachen habe ich nicht. Reicht das für eine Umsetzung?
Die Form mit Apostroph kann nur bei "L" vorkommen. ICH KORRIGIERE: auch der unbestimmte Artikel "Un" kann mit folgendem Apostroph vorkommen! Manchmal mit, manchmal ohne folgendes Leerzeichen.
Das L+Apostroph nach K kommt ist doch korrekt, oder? Ich dachte wir wollten Artikel nicht gesondert behandeln? Und, was ich meinte, ist dass jetzt das Leerzeichen nach dem Apostroph entfernt wird.
Sorry! Ja, das ist richtig! Mir schwirrt es vor "L"s und "I"s langsam vor der Brille!
Dann ist die Artikelliste trotzdem von Belang, weil andere Artikel scheinbar nicht berücksichtigt werden (siehe https://github.com/ubtue/tuefind/issues/833)
Treffer 1 erfasst mit Apostroph, Sortierzeichen und Leerzeichen, Un' @allusione a Is 50,8-9 in Rm 8,31-34
Treffer 3 maschinell eingespielt mit Apostroph, ohne Sortierzeichen, ohne Leerzeichen Un'allusione a Is 50,8-9 in Rm 8,31-34
https://ptah.ub.uni-tuebingen.de/Alphabrowse/Home?source=title&from=allusione&botprotect= https://ptah.ub.uni-tuebingen.de/Alphabrowse/Home?source=title&from=unallusione&botprotect=
@thefass Was meinen Sie mit Titeltransformationen?
Bin ich gemeint oder @ruschein ?
@thefass @ruschein Entschuldigung, Sie beide: es geht um die regulären Ausdrücke von https://github.com/ubtue/tuefind/issues/874#issuecomment-531675256 und die Titeltransformationen von https://github.com/ubtue/tuefind/issues/874#issuecomment-531786394
Das Problem hat noch einen anderen Aspekt: im Moment wird bei Artikeln (1 Buchstabe) mit folgendem Apostroph der Anfangsbuchstabe des Folgeworts nicht sortiert, sondern immer der zweite Buchstabe des eigentlich zu sortierenden Worts. Beispiel:
L'uomo Korrekt erfasst mit "L' \@uomo" wird als "omo" unter o sortiert.
L'angelo Korrekt erfasst mit "L' \@angelo" wird als "ngelo" unter n sortiert.
L'opera Korrekt erfasst mit "L' \@opera" wird als "pera unter p sortiert.
L'attualità Korrekt erfasst mit "L' \@attualità" wird als "ttualità" unter t sortiert.
@steven-lolong: The logic is located in TueFind.java => normalizeSortableString. Please try to find out why "L'uomo..." currently gets normalized to "omo..." instead of "uomo...".
Beispiel dazu: https://ptah.ub.uni-tuebingen.de/Record/1086487656
Beim Import wird die Information aus 245 Indikator 2 ausgelesen: https://www.loc.gov/marc/bibliographic/bd245.html
Hierin ist die Information enthalten, dass die ersten 3 Zeichen sog. "Nonfiling characters" sind. Daher werden die ersten 3 Zeichen aus "L'uomo...' entfernt und für die Sortierung bleibt nur "omo..." übrig.
Die Information aus Indikator 2 scheint also aus dem K10plus zu stammen... wird das in einem PICA Feld so explizit gepflegt? (Andernfalls besteht noch die Möglichkeit, dass es beim Export auf BSZ-Seite automatisch hinzugefügt wird und da möglicherweise ein Problem vorliegt.)
Bzw hat das evtl etwas mit dem @
in Ihrem Beispiel zu tun? Da das bei uns in 245 nicht mehr ausgeliefert wird müssten evtl entweder wir oder das BSZ die Information aus dem Indikator 2 = -1 modifizieren?
Die Erfassung "4000 L' @uomo veramente uomo" ist laut https://format.k10plus.de/k10plushelp.pl?cmd=kat&val=4000&kattype=Standard korrekt (siehe dort zweites Beispiel).
Im K10plus wird im MARC-Format "245 13$aL' uomo veramente uomo" angezeigt.
Ich halte Indikator 3, also 3 zu übergehende Zeichen für korrekt :
Andere Artikel funktionieren ja auch nach diesem Muster: Bsp.: 245 14$aUne relecture [4 zu übergehende Zeichen U, n, e und Leerzeichen]. 245 13$aLa croix [3 zu übergehende Zeichen L, a und Leerzeichen] 245 12$aI papiri diplomatici [2 zu übergehende Zeichen, I und Leerzeichen] 245 13$aUn Messale per l'assemblea [3 zu übergehende Zeichen, U, n und Leerzeichen]
Im Exportformat steht
Eigentlich müsste in https://ptah.ub.uni-tuebingen.de/Record/1086487656#details zwischen "L'" und uomo ein Leerzeichen stehen. Hier wird offensichtlich der Artikel mit Apostroph wieder mit dem folgenden Wort zusammengezogen. Wenn aber der Titel mit "245 13$aL' uomo veramente uomo" ausgeliefert wird, müsste der Fehler doch vermutlich bei uns liegen, oder?
Interessant! Es sieht bei genauerem Hinsehen in der Tat so aus, als ob das Leerzeichen im Originalzustand vorhanden ist und dann während der Pipeline entfernt wird. Hierbei wird also scheinbar der Indikator nicht berücksichtigt. Müssen wir uns genauer anschauen.
Wäre ein Leerzeichen im Italienischen an dieser Stelle nicht falsch? Aber ich kann weder etwas zur Vorlage, noch zur Verarbeitung beitragen.😉😙
Von: IxTheoKm @.> Gesendet: Mittwoch, August 16, 2023 10:39:33 AM An: ubtue/tuefind @.> Cc: Subscribed @.***> Betreff: Re: [ubtue/tuefind] Sortierung der Kurzliste nach Titel - Artikel am Anfang des Titels (#874)
Die Erfassung "4000 L' @uomohttps://github.com/uomo veramente uomo" ist laut https://format.k10plus.de/k10plushelp.pl?cmd=kat&val=4000&kattype=Standard korrekt (siehe dort zweites Beispiel).
Im K10plus wird im MARC-Format "245 13$aL' uomo veramente uomo" angezeigt.
Ich halte Indikator 3, also 3 zu übergehende Zeichen für korrekt :
Andere Artikel funktionieren ja auch nach diesem Muster: Bsp.: 245 14$aUne relecture [4 zu übergehende Zeichen U, n, e und Leerzeichen]. 245 13$aLa croix [3 zu übergehende Zeichen L, a und Leerzeichen] 245 12$aI papiri diplomatici [2 zu übergehende Zeichen, I und Leerzeichen] 245 13$aUn Messale per l'assemblea [3 zu übergehende Zeichen, U, n und Leerzeichen]
Im Exportformat steht [MARC245]https://user-images.githubusercontent.com/17004223/260946580-ca074889-7dfa-4ad0-a3f0-958f288467f3.JPG
Eigentlich müsste in https://ptah.ub.uni-tuebingen.de/Record/1086487656#details zwischen "L'" und uomo ein Leerzeichen stehen. Hier wird offensichtlich der Artikel mit Apostroph wieder mit dem folgenden Wort zusammengezogen. Wenn aber der Titel mit "245 13$aL' uomo veramente uomo" ausgeliefert wird, müsste der Fehler doch vermutlich bei uns liegen, oder?
— Reply to this email directly, view it on GitHubhttps://github.com/ubtue/tuefind/issues/874#issuecomment-1680198231, or unsubscribehttps://github.com/notifications/unsubscribe-auth/AEF3USTABNIUYUNVR4N52H3XVSBLRANCNFSM4IVVRENQ. You are receiving this because you are subscribed to this thread.Message ID: @.***>
Das mag sein, aber hier geht es vermutlich darum, dass der Titel korrekt unter dem ersten Ordnungswort (ohne Artikel) sortiert werden soll. Sind halt unsere Erfassungsvorgaben. Warum das im PICA-Format so sein muss, weiß ich nicht - und liegt auch außerhalb meines Einflussbereichs... 😉 Edit Nachtrag: sind die Anzeige ohne Leerzeichen und die Sortierung nicht zwei Paar Schuhe? Oder bedingt ersteres das zweite?
Genau das verstehe ich auch nicht... Vermutlich hat @ruschein die Entfernung des Leerzeichens damals nach seinem Kommentar vom 7.7.2020 eingeführt.
In BOSS wird der Titel auch optisch inklusive Leerzeichen angezeigt: https://swb.boss.bsz-bw.de/Record/(DE-627)1086487656
Von daher werde ich die Entfernung des Leerzeichens wieder deaktivieren, damit es der Anzeige in BOSS entspricht.
Danach sollte auch die Anzahl der Zeichen wieder korrekt berücksichtigt werden.
Ready for testing auf ptah (Vorauss. ab nächstem Import morgen früh)
Die Artikelfrage https://github.com/ubtue/tuefind/issues/833 ist noch nicht vollständig entschieden. Beim Browsen haben wir entschieden, das Sortierzeichen zu ignorieren und die Artikel bei der Sortierung zu berücksichtigen.
Bei der Sortierung einer Treffermenge nach Titeln werden die Sortierzeichen aber berücksichtigt: https://ptah.ub.uni-tuebingen.de/Search/Results?lookfor=impur&type=Title&limit=200&sort=title&botprotect=
Titel mit Sortierzeichen "L'impur..." sortieren unter i. (Treffer 10 und 11) Titel ohne Sortierzeichen "L'impur..." sortieren unter l. (Treffer 16 und 17)
Hier müsste dieselbe Regel greifen, damit gleiche Titel untereinander stehen.