avh-bern-berlin / avh-texts

AvH texts
https://www.humboldt.unibe.ch
2 stars 0 forks source link

Leerzeichenhandling #4

Closed cthomasdta closed 3 years ago

cthomasdta commented 3 years ago

https://avh.narek.dwds.de/text/1803-Extrait_de_plusieurs-10:

ſehr genaue Beſchreibungenvom Ka ï man oder

&#x017F;ehr genaue Be&#x017F;chreibungen<lb break="yes"/>vom <hi rendition="#fr">Ka</hi>
                    <hi rendition="#aq">&#x00EF;</hi>
                    <hi rendition="#fr">man</hi> oder

Hier rutschen also Zeilenumbrüche rein, die dann wiederum zum Leerzeichenfehler führen. Ich kann ohne die Ausgangsdateien schlecht sagen, wie man das systematisch Suchen & Beheben könnte.

[edit: formatting]

haoess commented 3 years ago

Hier ist das entsprechende File. Bleibt zu hoffen, dass das bei der nächsten Lieferung behoben ist. Ansonsten überlege ich mir was, wie man solche Stellen findet.

haoess commented 3 years ago
rg -iU '</hi>\s*\r?\n\s*<hi[^>]+>(?:&#x[0-9a-f]{4};|.)</hi>\r?\n'

findet: <hi>-Element, das allein auf einer Zeile steht und nur ein Zeichen als Inhalt hat (= verdächtig), 28 Treffer im Bestand

cthomasdta commented 3 years ago

Sehr gut, @thomasnehrlich könnte das eine SHK von dir durchsehen?

thomasnehrlich commented 3 years ago

Ja, ich gebe es weiter.

thomasnehrlich commented 3 years ago

Sind das nicht zwei verschiedene Probleme?

  1. sollte bei der Auflösung des Zeilenfalls immer durch ein Leerzeichen ersetzt werden. Dann dürfte ein Fehler wie der von Christian oben zitierte ("Beſchreibungenvom" wird zu "Beſchreibungenvom" nicht mehr auftreten, oder?
  2. Hier verstehe ich nicht, wie das Problem zustande kommt. Es kommt in unserem Corpus ab und zu vor, dass einzelne Schriftzeichen oder Buchstaben innerhalb eines Frakturtexts aus Antiqua gesetzt sind, zum Beispiel wenn sie in Frakturschriften nicht existieren. Wir haben das entsprechend codiert. Wieso führt das in der Textdarstellung zu überflüssigen Leerzeichen?
haoess commented 3 years ago

Nee, ist nur ein Problem. Das <hi rendition="#aq">&#x00EF;</hi> steht in der XML-Datei allein auf einer Zeile, mit Leerraum davor und danach. Es sollte aber so sein:

<hi rendition="#fr">Ka</hi><hi rendition="#aq">&#x00EF;</hi><hi rendition="#fr">man</hi>

, damit das Wort Kaïman bei rauskommt, und nicht Ka ï man. Das kann ich im XSL-Stylesheet (= das, was die Darstellung macht) nicht automatisch korrigieren, denn es kann ja genauso gut vorkommen, dass die Leerzeichen doch so gemeint sind.

Bin dran, und werde das diese Woche alles (soweit automagisch ermittelbar) schon korrigieren.

thomasnehrlich commented 3 years ago

Alles klar, vielen Dank!

(Uns das fehlende Leerzeichen bei "Beſchreibungenvom" ist auch kein Problem, oder?)

cthomasdta commented 3 years ago

Alles klar, vielen Dank!

(Uns das fehlende Leerzeichen bei "Beſchreibungenvom" ist auch kein Problem, oder?)

Vermute, das ist ein älteres, inzwischen behobenes Problem. Das encoding an der Stelle sieht unverdächtig aus, mit @break="yes" und in der Online-Ansicht https://avh.narek.dwds.de/text/1803-Extrait_de_plusieurs-10 sehe ich es grad auch nicht mehr.

haoess commented 3 years ago

Der Fehler in 1803-Extrait_de_plusieurs-10 ist nun gelöst. Ansonsten ist das wirklich ein sehr seltenes Phänomen, ich lass das Ticket mal offen, viele andere Stellen kann ich nicht entscheiden.

V. a. in 1804-Sur_les_variations-4 isses noch ein bisschen wild, da wäre wohl sinnvoll, in diesem gesamten Abschnitt die Formeln alle zu TeXen.

thomasnehrlich commented 3 years ago

Ist inzwischen geklärt, soweit ich weiß.