ubtue / tuefind

Tuebingen University's derivatives of VuFind. Contains former versions like IxTheo, RelBib and KrimDok.
GNU General Public License v2.0
6 stars 4 forks source link

Sortierung der Kurzliste nach Titel - Artikel am Anfang des Titels #874

Open IxTheoKm opened 5 years ago

IxTheoKm commented 5 years ago

Die Artikelfrage https://github.com/ubtue/tuefind/issues/833 ist noch nicht vollständig entschieden. Beim Browsen haben wir entschieden, das Sortierzeichen zu ignorieren und die Artikel bei der Sortierung zu berücksichtigen.

Bei der Sortierung einer Treffermenge nach Titeln werden die Sortierzeichen aber berücksichtigt: https://ptah.ub.uni-tuebingen.de/Search/Results?lookfor=impur&type=Title&limit=200&sort=title&botprotect=

Titel mit Sortierzeichen "L'impur..." sortieren unter i. (Treffer 10 und 11) Titel ohne Sortierzeichen "L'impur..." sortieren unter l. (Treffer 16 und 17)

impur

impur2

Hier müsste dieselbe Regel greifen, damit gleiche Titel untereinander stehen.

jriedl commented 5 years ago

Auch hier scheint das nur indirekt mit dem Sortierzeichen zusammenzuhängen, denn schon in den ursprünglich durch den Verbund ausgespielten Datensätzen findet sich kein Sortierzeichen in 245$a. Allerdings unterscheiden sich die Titel am Anfang subtil: In einem Fall wurde "L' Impur" (mit Leerzeichen) erfasst, im anderen "L'Impur". Damit liegen im ersten Fall zwei und im zweiten Fall ein Wort vor. Nun wird aber offenbar bereits in der VuFind-eigenen Routine für die Bestimmung des Titelsortierstrings ein einzelner Buchstaben am Anfang verworfen (was auch sinnvoll erscheint), womit in einem Fall das Ergebnis, anhand dessen dann sortiert wird, "impur.." und im anderen "limpur" lautet und was schließlich zu unterschiedlichen Positionierungen führt.

ruschein commented 5 years ago

Für mich sieht es nach einem Datenfehler aus wenn nach dem Apostroph ein Leerzeichen steht. Falls ja sollte man dann eben den Datensatz korrigieren und dieses Issue schließen.

IxTheoKm commented 5 years ago

Der Datenfehler ist die Erfassung mit Apostroph ohne Leerzeichen und ohne Sortierzeichen. Die Formatvorgabe für PICA-Feld 4000 = MARC 245 ist "L' @..."

In PPN 1523196262 und 1523196033 steht "L'...", was falsch ist. Nur leider sind das Verlagseinspielungen, die massenhaft vorkommen. (Zukünftig auch mit dem vollautomatischen Verfahren?)

thefass commented 5 years ago

@ruschein und @jriedl kann mit regulären Ausdrücken in der Pipeline hier etwas verbessert werden? Nur so sehe ich eine Chance auf Verbesserung. Nachträgliche Korrekturen von Verlagseinspielungen und Metadatenübernahme über unser Zotero-Verfahren sind nicht leistbar.

ruschein commented 5 years ago

@thefass Wenn wir hier eine Liste der gewünschten Titeltransformationen bekämen könnten wir da etwas in der Pipeline machen. Allerdings könnte man das vermutlich auch beim BSZ machen, oder?

ruschein commented 4 years ago

@IxTheoKm Ich warte immer noch auf die Liste der gewünschten Transformationen. Das mit dem L + Apostroph dürfte eventuell morgen auf Path behoben sein.

IxTheoKm commented 4 years ago

Die Sortierung durch das Apostroph-Problem ist unverändert: https://ptah.ub.uni-tuebingen.de/Search/Results?lookfor=impur&type=Title&limit=200&sort=title&botprotect=

sortImp2 sortImp

IxTheoKm commented 4 years ago

@thefass Was meinen Sie mit Titeltransformationen? Grundsätzlich sollten alle Artikel gleich behandelt werden (ob beim Browsen oder in der Sortierung der Kurzliste. Siehe https://github.com/ubtue/tuefind/issues/833) Eine Übersicht möglicher Artikel s.u. Weitere in anderen Sprachen habe ich nicht. Reicht das für eine Umsetzung?

Die Form mit Apostroph kann nur bei "L" vorkommen. ICH KORRIGIERE: auch der unbestimmte Artikel "Un" kann mit folgendem Apostroph vorkommen! Manchmal mit, manchmal ohne folgendes Leerzeichen.

Artikel

ruschein commented 4 years ago

Das L+Apostroph nach K kommt ist doch korrekt, oder? Ich dachte wir wollten Artikel nicht gesondert behandeln? Und, was ich meinte, ist dass jetzt das Leerzeichen nach dem Apostroph entfernt wird.

IxTheoKm commented 4 years ago

Sorry! Ja, das ist richtig! Mir schwirrt es vor "L"s und "I"s langsam vor der Brille!

Dann ist die Artikelliste trotzdem von Belang, weil andere Artikel scheinbar nicht berücksichtigt werden (siehe https://github.com/ubtue/tuefind/issues/833)

sortImp5

IxTheoKm commented 4 years ago

https://ptah.ub.uni-tuebingen.de/Search/Results?lookfor=allusione+rm&type=AllFields&limit=200&sort=title&botprotect=

Treffer 1 erfasst mit Apostroph, Sortierzeichen und Leerzeichen, Un' @allusione a Is 50,8-9 in Rm 8,31-34

Treffer 3 maschinell eingespielt mit Apostroph, ohne Sortierzeichen, ohne Leerzeichen Un'allusione a Is 50,8-9 in Rm 8,31-34

sortAllu

https://ptah.ub.uni-tuebingen.de/Alphabrowse/Home?source=title&from=allusione&botprotect= https://ptah.ub.uni-tuebingen.de/Alphabrowse/Home?source=title&from=unallusione&botprotect=

thefass commented 4 years ago

@thefass Was meinen Sie mit Titeltransformationen?

Bin ich gemeint oder @ruschein ?

IxTheoKm commented 4 years ago

@thefass @ruschein Entschuldigung, Sie beide: es geht um die regulären Ausdrücke von https://github.com/ubtue/tuefind/issues/874#issuecomment-531675256 und die Titeltransformationen von https://github.com/ubtue/tuefind/issues/874#issuecomment-531786394

IxTheoKm commented 1 year ago

Das Problem hat noch einen anderen Aspekt: im Moment wird bei Artikeln (1 Buchstabe) mit folgendem Apostroph der Anfangsbuchstabe des Folgeworts nicht sortiert, sondern immer der zweite Buchstabe des eigentlich zu sortierenden Worts. Beispiel:

L'uomo Korrekt erfasst mit "L' \@uomo" wird als "omo" unter o sortiert.

L'angelo Korrekt erfasst mit "L' \@angelo" wird als "ngelo" unter n sortiert.

L'opera Korrekt erfasst mit "L' \@opera" wird als "pera unter p sortiert.

L'attualità Korrekt erfasst mit "L' \@attualità" wird als "ttualità" unter t sortiert.

mtrojan-ub commented 1 year ago

@steven-lolong: The logic is located in TueFind.java => normalizeSortableString. Please try to find out why "L'uomo..." currently gets normalized to "omo..." instead of "uomo...".

mtrojan-ub commented 1 year ago

Beispiel dazu: https://ptah.ub.uni-tuebingen.de/Record/1086487656

grafik

Beim Import wird die Information aus 245 Indikator 2 ausgelesen: https://www.loc.gov/marc/bibliographic/bd245.html

Hierin ist die Information enthalten, dass die ersten 3 Zeichen sog. "Nonfiling characters" sind. Daher werden die ersten 3 Zeichen aus "L'uomo...' entfernt und für die Sortierung bleibt nur "omo..." übrig.

Die Information aus Indikator 2 scheint also aus dem K10plus zu stammen... wird das in einem PICA Feld so explizit gepflegt? (Andernfalls besteht noch die Möglichkeit, dass es beim Export auf BSZ-Seite automatisch hinzugefügt wird und da möglicherweise ein Problem vorliegt.)

Bzw hat das evtl etwas mit dem @ in Ihrem Beispiel zu tun? Da das bei uns in 245 nicht mehr ausgeliefert wird müssten evtl entweder wir oder das BSZ die Information aus dem Indikator 2 = -1 modifizieren?

IxTheoKm commented 1 year ago

Die Erfassung "4000 L' @uomo veramente uomo" ist laut https://format.k10plus.de/k10plushelp.pl?cmd=kat&val=4000&kattype=Standard korrekt (siehe dort zweites Beispiel).

Im K10plus wird im MARC-Format "245 13$aL' uomo veramente uomo" angezeigt.

Ich halte Indikator 3, also 3 zu übergehende Zeichen für korrekt :

  1. L, 2. Apostroph, und 3. Leerzeichen.

Andere Artikel funktionieren ja auch nach diesem Muster: Bsp.: 245 14$aUne relecture [4 zu übergehende Zeichen U, n, e und Leerzeichen]. 245 13$aLa croix [3 zu übergehende Zeichen L, a und Leerzeichen] 245 12$aI papiri diplomatici [2 zu übergehende Zeichen, I und Leerzeichen] 245 13$aUn Messale per l'assemblea [3 zu übergehende Zeichen, U, n und Leerzeichen]

Im Exportformat steht MARC245

Eigentlich müsste in https://ptah.ub.uni-tuebingen.de/Record/1086487656#details zwischen "L'" und uomo ein Leerzeichen stehen. Hier wird offensichtlich der Artikel mit Apostroph wieder mit dem folgenden Wort zusammengezogen. Wenn aber der Titel mit "245 13$aL' uomo veramente uomo" ausgeliefert wird, müsste der Fehler doch vermutlich bei uns liegen, oder?

mtrojan-ub commented 1 year ago

Interessant! Es sieht bei genauerem Hinsehen in der Tat so aus, als ob das Leerzeichen im Originalzustand vorhanden ist und dann während der Pipeline entfernt wird. Hierbei wird also scheinbar der Indikator nicht berücksichtigt. Müssen wir uns genauer anschauen.

obrandt commented 1 year ago

Wäre ein Leerzeichen im Italienischen an dieser Stelle nicht falsch? Aber ich kann weder etwas zur Vorlage, noch zur Verarbeitung beitragen.😉😙


Von: IxTheoKm @.> Gesendet: Mittwoch, August 16, 2023 10:39:33 AM An: ubtue/tuefind @.> Cc: Subscribed @.***> Betreff: Re: [ubtue/tuefind] Sortierung der Kurzliste nach Titel - Artikel am Anfang des Titels (#874)

Die Erfassung "4000 L' @uomohttps://github.com/uomo veramente uomo" ist laut https://format.k10plus.de/k10plushelp.pl?cmd=kat&val=4000&kattype=Standard korrekt (siehe dort zweites Beispiel).

Im K10plus wird im MARC-Format "245 13$aL' uomo veramente uomo" angezeigt.

Ich halte Indikator 3, also 3 zu übergehende Zeichen für korrekt :

  1. L, 2. Apostroph, und 3. Leerzeichen.

Andere Artikel funktionieren ja auch nach diesem Muster: Bsp.: 245 14$aUne relecture [4 zu übergehende Zeichen U, n, e und Leerzeichen]. 245 13$aLa croix [3 zu übergehende Zeichen L, a und Leerzeichen] 245 12$aI papiri diplomatici [2 zu übergehende Zeichen, I und Leerzeichen] 245 13$aUn Messale per l'assemblea [3 zu übergehende Zeichen, U, n und Leerzeichen]

Im Exportformat steht [MARC245]https://user-images.githubusercontent.com/17004223/260946580-ca074889-7dfa-4ad0-a3f0-958f288467f3.JPG

Eigentlich müsste in https://ptah.ub.uni-tuebingen.de/Record/1086487656#details zwischen "L'" und uomo ein Leerzeichen stehen. Hier wird offensichtlich der Artikel mit Apostroph wieder mit dem folgenden Wort zusammengezogen. Wenn aber der Titel mit "245 13$aL' uomo veramente uomo" ausgeliefert wird, müsste der Fehler doch vermutlich bei uns liegen, oder?

— Reply to this email directly, view it on GitHubhttps://github.com/ubtue/tuefind/issues/874#issuecomment-1680198231, or unsubscribehttps://github.com/notifications/unsubscribe-auth/AEF3USTABNIUYUNVR4N52H3XVSBLRANCNFSM4IVVRENQ. You are receiving this because you are subscribed to this thread.Message ID: @.***>

IxTheoKm commented 1 year ago

Das mag sein, aber hier geht es vermutlich darum, dass der Titel korrekt unter dem ersten Ordnungswort (ohne Artikel) sortiert werden soll. Sind halt unsere Erfassungsvorgaben. Warum das im PICA-Format so sein muss, weiß ich nicht - und liegt auch außerhalb meines Einflussbereichs... 😉 Edit Nachtrag: sind die Anzeige ohne Leerzeichen und die Sortierung nicht zwei Paar Schuhe? Oder bedingt ersteres das zweite?

mtrojan-ub commented 1 year ago

Genau das verstehe ich auch nicht... Vermutlich hat @ruschein die Entfernung des Leerzeichens damals nach seinem Kommentar vom 7.7.2020 eingeführt.

In BOSS wird der Titel auch optisch inklusive Leerzeichen angezeigt: https://swb.boss.bsz-bw.de/Record/(DE-627)1086487656

Von daher werde ich die Entfernung des Leerzeichens wieder deaktivieren, damit es der Anzeige in BOSS entspricht.

Danach sollte auch die Anzahl der Zeichen wieder korrekt berücksichtigt werden.

mtrojan-ub commented 1 year ago

Ready for testing auf ptah (Vorauss. ab nächstem Import morgen früh)