faustedition / faust-xml

XML and other source data of the Faustedition
8 stars 2 forks source link

Broken encoding in XML data #555

Open dietmarpravida opened 6 years ago

dietmarpravida commented 6 years ago

hucke

dietmarpravida commented 6 years ago

@gerritbruening in der Datei war da kein erkennbarer Fehler; vielleicht sollten wir alle Halbgeviertstriche nochmal prüfen?

gerritbruening commented 6 years ago

Hat da wieder jemand die falsche Zeichenkodierung? Und wie ließe sich danach suchen?

thvitt commented 6 years ago

Da war irgendwo Mojibake, ja; – kommt raus, wenn man UTF-8 als cp1252 interpretiert. Ist jetzt aber repariert.

Suchen … vllt. Textsuche nach Zeichen, die bei uns eher ungewöhnlich sind? Man könnte auch mal cp1252 falsch codieren und draus eine Liste von Suchstrings basteln

thvitt commented 6 years ago

Eine Suche in meinem XML-Datenbestand nach Zeichen, die Mojibake aus Windows-CP1252 sein könnten, ergab zahlreiche Treffer in schema/tei_all_hwg.rng und ansonsten:

xml/macrogenesis/handschriftendatierung_i.xml:      <comment>Gedicht "Was in der Schenke waren heute" (West-östlicher Divan) WA I 6,212 Abschrift
xml/macrogenesis/handschriftendatierung_i.xml:         Schuchardt = Druckvorlage als Einfügung in Korrekturbogenzu KuA Bd 6 Nr 1, 1827 S 212; WA:
xml/macrogenesis/handschriftendatierung_i.xml:         H.74, I 6,350. - Notiz egh: "Tr." als Stellvertretung für die Verse 5092-5095 (zweite
xml/macrogenesis/handschriftendatierung_i.xml:         Strophe des Chors der Gärtnerinnen aus Faust II)</comment>
thvitt commented 6 years ago

das ist jetzt keine Garantie, dass alles andere OK ist, aber ein starkes Indiz dafür.

gerritbruening commented 6 years ago

Oh, sehr gut, danke, kümmere ich mich drum.