deutschestextarchiv / copadocs

CoPaDocs – Corpus of Patient Documents – source files
https://deutschestextarchiv.github.io/copadocs/
Creative Commons Attribution Share Alike 4.0 International
3 stars 0 forks source link

Silbentrennung Zeilenende #5

Closed maschiegg closed 1 year ago

maschiegg commented 1 year ago

Unsere TEI-Codierung der Silbentrennung ist etwas "ungewöhnlich". Das hier ist ein normaler Zeilenumbruch ohne Trennstrich:

viele Fremde
<lb break="yes"/>
niedrer

Das hier ist eine Trennung mit Trennstrich:

 be
<lb break="no"/>
zieht

--> in der HTML-Leseansicht sollte als "-" erscheinen; sollte einmal eine Lemmatisierung erfolgen, dann sollte das Wort zusammengezogen werden zu "bezieht" (es können Leerzeichen vor und nach <...> sein)

haoess commented 1 year ago

Implementiert via bc5c9a9. Das macht den Bauprozess um Vieles langsamer, weil die Erkennung von Leerzeichen vor jedem <lb/> relativ teuer ist. Vermutlich ist es sinnvoll, einmal komplett in allen Quellen Leerzeichen vor und nach <lb/> zu ersetzen, dann kann der „langsame“ Code auch wieder raus.

Die „berechneten“ - werden etwas abgeblasst dargestellt.

maschiegg commented 1 year ago

Aufgabe für @nina-bro : "Vermutlich ist es sinnvoll, einmal komplett in allen Quellen Leerzeichen vor und nach zu ersetzen, dann kann der „langsame“ Code auch wieder raus."

nina-bro commented 1 year ago

habe jetzt die Leerzeichen in den Quellen vor und nach lb in den Quellen entfernt

haoess commented 1 year ago

Super, danke. Damit verkürzt sich der Bauprozess auch signifikant.