faustedition / faust-xml

XML and other source data of the Faustedition
8 stars 2 forks source link

break="no" missing in pb #40

Open gerritbruening opened 7 years ago

gerritbruening commented 7 years ago

Frei 64 heitsgesangs

From Janssen 1877 (see #39).

Due to the missing break="no" there is a unwanted blank within some tokens.

I fear we have to scan all the data that is not from zeno, i.e. everything except Biedermann and the WA.

thvitt commented 7 years ago

In that course: Between Frei and <pb break="no"/> there should probably be U+00AD SOFT HYPHEN? Won't be visible of course …

gerritbruening commented 7 years ago

@sandrakrause, können Sie herausfinden, ob bei pbs mit Wortgrenze zusätzlich ein Leerzeichen in den Dateien steht: Wort <pb/>Wort. Bei Situationen wie Wo<pb/>rt (ohne Leerzeichen) könnten wir dann automatisch break="no" antragen.

gerritbruening commented 7 years ago

Wenn sich das bestätigt, fragen wir @thvitt nach einer automatischen Umsetzung.

sandrakrause commented 7 years ago

Ich habe die testimony-xmls nun überprüft. Im Prinzip bestätigt sich die Regel Wort <pb/>Wort und Wo<pb/>rt.

Allerdings gibt es ein paar (wenige) "Spezialfälle", die bei einer Automatisierung beachtet werden müssen:

thvitt commented 7 years ago
sandrakrause commented 7 years ago

…</hi><pb/><hi>… wär eigentich besser <hi>…<pb/>…</hi>, oder?

Ja, da die Struktur momentan <hi>... </hi><pb/><hi>...</hi> ist, sind die mittleren Tags eigentlich redundant, sowie ich das sehe. Ich werde das in diesem Fall gleich beheben. Wäre evtl. noch die Frage, ob man solche Fälle trotzdem in die Automatisierung aufnimmt, falls ich was übersehen habe oder möglicherweise noch etwas dazukommt o.ä.?

thvitt commented 7 years ago

Wir müssten das mal testen, aber die o.g. Regel müsste diese Fälle eigentlich miterschlagen.

gerritbruening commented 7 years ago

Ja, wir haben soft-hyphens kodiert, aber nur in den Drucken. Ich weiß aber gar nicht, ob ich da seinerzeit das richtige Zeichen verwendet habe. Sie sehen alle so gleich aus.