Closed cthomasdta closed 3 years ago
Hier ist das entsprechende File. Bleibt zu hoffen, dass das bei der nächsten Lieferung behoben ist. Ansonsten überlege ich mir was, wie man solche Stellen findet.
rg -iU '</hi>\s*\r?\n\s*<hi[^>]+>(?:&#x[0-9a-f]{4};|.)</hi>\r?\n'
findet: <hi>
-Element, das allein auf einer Zeile steht und nur ein Zeichen als Inhalt hat (= verdächtig), 28 Treffer im Bestand
Sehr gut, @thomasnehrlich könnte das eine SHK von dir durchsehen?
Ja, ich gebe es weiter.
Sind das nicht zwei verschiedene Probleme?
Nee, ist nur ein Problem. Das <hi rendition="#aq">ï</hi>
steht in der XML-Datei allein auf einer Zeile, mit Leerraum davor und danach. Es sollte aber so sein:
<hi rendition="#fr">Ka</hi><hi rendition="#aq">ï</hi><hi rendition="#fr">man</hi>
, damit das Wort Kaïman bei rauskommt, und nicht Ka ï man. Das kann ich im XSL-Stylesheet (= das, was die Darstellung macht) nicht automatisch korrigieren, denn es kann ja genauso gut vorkommen, dass die Leerzeichen doch so gemeint sind.
Bin dran, und werde das diese Woche alles (soweit automagisch ermittelbar) schon korrigieren.
Alles klar, vielen Dank!
(Uns das fehlende Leerzeichen bei "Beſchreibungenvom" ist auch kein Problem, oder?)
Alles klar, vielen Dank!
(Uns das fehlende Leerzeichen bei "Beſchreibungenvom" ist auch kein Problem, oder?)
Vermute, das ist ein älteres, inzwischen behobenes Problem. Das encoding an der Stelle sieht unverdächtig aus, mit @break="yes"
und in der Online-Ansicht https://avh.narek.dwds.de/text/1803-Extrait_de_plusieurs-10 sehe ich es grad auch nicht mehr.
Der Fehler in 1803-Extrait_de_plusieurs-10 ist nun gelöst. Ansonsten ist das wirklich ein sehr seltenes Phänomen, ich lass das Ticket mal offen, viele andere Stellen kann ich nicht entscheiden.
V. a. in 1804-Sur_les_variations-4 isses noch ein bisschen wild, da wäre wohl sinnvoll, in diesem gesamten Abschnitt die Formeln alle zu TeXen.
Ist inzwischen geklärt, soweit ich weiß.
https://avh.narek.dwds.de/text/1803-Extrait_de_plusieurs-10:
Hier rutschen also Zeilenumbrüche rein, die dann wiederum zum Leerzeichenfehler führen. Ich kann ohne die Ausgangsdateien schlecht sagen, wie man das systematisch Suchen & Beheben könnte.
[edit: formatting]