Open gerritbruening opened 7 years ago
In that course: Between Frei
and <pb break="no"/>
there should probably be U+00AD SOFT HYPHEN? Won't be visible of course …
@sandrakrause, können Sie herausfinden, ob bei pb
s mit Wortgrenze zusätzlich ein Leerzeichen in den Dateien steht: Wort <pb/>Wort
. Bei Situationen wie Wo<pb/>rt
(ohne Leerzeichen) könnten wir dann automatisch break="no"
antragen.
Wenn sich das bestätigt, fragen wir @thvitt nach einer automatischen Umsetzung.
Ich habe die testimony-xmls nun überprüft.
Im Prinzip bestätigt sich die Regel Wort <pb/>Wort
und Wo<pb/>rt
.
Allerdings gibt es ein paar (wenige) "Spezialfälle", die bei einer Automatisierung beachtet werden müssen:
eberwein1853.xml: die <pb>
s sind hier gefolgt von einem <milestone ...>
und einem <cb/>
. In einem Fall betrifft das auch ein pb ohne Wortgrenze:
des Bett<pb n="340" facs="eberwein1853_0340.jpg"/><milestone n="2" unit="cols"/><cb/>lers
quz_3.xml: eine Ausnahme mit Anführungszeichen und </hi>
vor <pb>
bei Wortgrenze. Hier steht kein Leerzeichen zwischen den Wörtern:
„Maximen und Reflexionen“</hi><pb n="160" facs="quz_3_0160.jpg"/>eine
schroeer1896_1.xml : Hier steht bei einem Fall innerhalb des Wortes, links und rechts von pb jeweils ein <hi>
-Tag:
meine Bil</hi><pb n="XCIX" facs="schroeer1886_1_r0099.jpg"/><hi rend="letter-spaced">ligung
--> Hier wäre wohl auch möglich, die <hi>
-Tags zu entfernen, da sie eigentlich überflüssig sind.
werner1902.xml: Auch ein Fall mit <hi>
-Tags dazwischen. Dieser betrifft allerdings einen Fall mit Wortgrenze, der von der Änderung dann nicht betroffen sein wird.
meine Bil</hi><pb n="XCIX" facs="schroeer1886_1_r0099.jpg"/><hi rend="letter-spaced">ligung
break='no'
tragen, die ex. break='no'-Regel in emend/HTML-Transformation muss dementsprechend angepasst werden…</hi><pb/><hi>…
wär eigentich besser <hi>…<pb/>…</hi>
, oder?//(pb|cb|lb|milestone)[matches(preceding::text()[1], '(\p{L}|­)$') and matches(following::text()[1], '^\p{L}')]
, also Buchstabe (oder weicher Bindestrich) Pflicht, nicht irgendein nicht-Leerzeichen
…</hi><pb/><hi>…
wär eigentich besser<hi>…<pb/>…</hi>
, oder?
Ja, da die Struktur momentan <hi>... </hi><pb/><hi>...</hi>
ist, sind die mittleren Tags eigentlich redundant, sowie ich das sehe.
Ich werde das in diesem Fall gleich beheben.
Wäre evtl. noch die Frage, ob man solche Fälle trotzdem in die Automatisierung aufnimmt, falls ich was übersehen habe oder möglicherweise noch etwas dazukommt o.ä.?
Wir müssten das mal testen, aber die o.g. Regel müsste diese Fälle eigentlich miterschlagen.
Ja, wir haben soft-hyphens kodiert, aber nur in den Drucken. Ich weiß aber gar nicht, ob ich da seinerzeit das richtige Zeichen verwendet habe. Sie sehen alle so gleich aus.
Frei 64 heitsgesangs
From Janssen 1877 (see #39).
Due to the missing break="no" there is a unwanted blank within some tokens.
I fear we have to scan all the data that is not from zeno, i.e. everything except Biedermann and the WA.