Volltextsuche auf der Homepage: Problem mit Zeilenwechseln in xml/html

Capitularia-sk commented 6 months ago

Bei der Suche nach mehrteiligen Ausdrücken, z.B. "de pace ecclesiarum" kann es vorkommen, dass nicht alle Handschriftenseiten, auf denen sich der Ausdruck findet, als Suchergebnisse angezeigt werden. Ursache ist wohl, dass in der Datei, die WordPress durchsucht - entweder die xml-Datei selbst, oder auch die daraus kreierte html-Fassung - bei Zeilenwechseln innerhalb des Ausdrucks dieser (auch) als eine lange Folge von Leerzeichen dargestellt ist. Evtl. ein Erbe von Einrückungen bei Oxygen?

Beispiel: Die obige Suche findet keinen Treffer auf der Seite https://capitularia.uni-koeln.de/mss/muenchen-bsb-lat-6360/ die auf der Datei muenchen-bsb-lat-6360.xml im publ/mss Ordner auf dem Server beruht. Allerdings gibt es in der html-Ansicht der Seite völlig regulär die Passage "Unter der Rubrik DE PACE ECCLESIARUM Zusammenstellung dreier Kanones ...". Wenn ich auf "Edit Page" gehe, kann ich sehen, dass nach jedem Zeilenwechsel der Text einen größeren Abstand vom linken Rand hat, und dieser Abstand offenbar durch Leerzeichen, hier ca. 15-20 Stück, erreicht wird. Ganz analog verhält es sich in Oxygen bei der xml-Fassung der Seite: Wir haben zwar manuell den Zeilenwechsel mittels Return-Taste erzeugt, worauf Oxygen automatisch eine Einrückung von Links auf das gleiche Niveau wie in der vorigen Zeile vornimmt. Diese Einrückung ist aber offenbar nicht als ein oder mehrere Tabs, sondern erneut als viele einzelne Leerzeichen in der Datei repräsentiert.

Um vollständige Suchergebnisse zu erhalten: Lässt sich die Suche so umstellen, dass sie automatisch eine vorgefundene Abfolge mehrerer Leerzeichen, ggf. auch in Kombination mit einer Absatzmarke (Return-Taste), als gleichwertig mit einem einzigen Leerzeichen interpretiert? So scheint es ja auch die html-Ausgabe selbst zu machen, die zwischen "pace" und "ecclesiarum" keinen vergrößerten Zwischenraum darstellt. (Die Suche in Oxygen erlaubt eine Option "Zusätzliche Leerzeichen ignorieren", die das Problem dort vermeiden hilft).

MarcelloPerathoner commented 6 months ago

Wir haben zwei Suchfunktionen auf der Seite: die eine ist die in Wordpress eingebaute Suchfunktion. Diese durchsucht den Text aller Seiten und wird durch die Box oben links angesprochen. Wordpress weiß aber nichts über die Einteilung der Manuskripte in Kapitularien, Entstehung etc. deshalb wird nur der Rohtext der Seite angezeigt und man kann nicht filtern.

Die zweite Suchfunktion (in der Seitenbox in Handschriftenseiten) durchsucht nur die Kapitularien. Sie greift auf die Datenbank der Texte der einzelnen Kapitel zu, dieselbe Datenbank die auch vom Kollationstool verwendet wird. Deshalb kann sie nach Kapitular, Entstehung usw. filtern. Sie kann aber keine Texte außerhalb von Kapitularien finden.

Der Text "de pace ecclesiarum" befindet sich aber nicht in einem Kapitular und kann deshalb nur durch die erste der og. Suchfunktionen gefunden werden.

Eventuell müßte man diesen Sachverhalt auf der Seite besser hervorheben.

laMischke commented 6 months ago

Vermutlich gibt es hier ein Missverständnis; ich versuche das Problem noch einmal zu schildern:

Der Text "de pace ecclesiarum" sollte tatsächlich nur in den bei Wordpress veröffentlichten Seiten gesucht werden, aber es kamen nicht alle Suchergebnisse, die wir erwartet hätten. Der betreffende Text findet sich nämlich z.B. auch auf der Seite https://capitularia.uni-koeln.de/mss/muenchen-bsb-lat-6360/ (nicht im Text der Transkription, sondern in der aus Mordek übernommenen Inhaltsbeschreibung); bei den Suchergebnissen wurde als Treffer aber nur https://capitularia.uni-koeln.de/mss/heiligenkreuz-sb-217/ angezeigt.

Woran kann das liegen?

MarcelloPerathoner commented 6 months ago

Das ist tatsächlich ein Fehler. Wordpress selber generiert keine Zeilenumbrüche innerhalb eines Absatzes, deshalb ist dieser Fall bei der Suchen nach Phrasen nicht vorgesehen. Unsere Transformation behält aber alle Zeilenumbrüche, weil es für die Fehlersuche sehr hilfreich ist wenn man TEI und HTML Seite an Seite begutachten kann.

Ich schaue mal wie wir das Problem umgehen können: entweder alle Zeilenumbrüche und Leerzeichen zusammenfalten (ungern) oder in die Suchfunktion von Wordpress eingreifen.

cceh / capitularia

Volltextsuche auf der Homepage: Problem mit Zeilenwechseln in xml/html #247