Open ybracke opened 1 year ago
ē => en/em
; see here<tt>
), which can be helpful to identify Latin sequencesSelbstbeschreibung: "Typischerweise wird als Textgrundlage eine gedruckte Vorlage oder ein zuverlässiger E-Text gewählt, wobei die Auswahl der Textgrundlage besonders sorgfältig erfolgen sollte. Ziel der möglichst originalgetreuen, nicht durch fragwürdige Normalisierungen beeinträchtigten Textwiedergabe ist es, dass nicht nur Laien, sondern auch Wissenschaftler den Text verwenden können."
14th to 16th century
Use the original data or the NoSta-D data, not the Bollmann split because in the Bollmann split individual documents are not separated - everything is in one big file
Source: https://github.com/coastalcph/histnorm/tree/master/datasets/historical/german
The orig and normalized layer are all-lowercased
The normalized layer contains some errors; is it really manually annotated?
Not split into sentences
$.
) for that?GerManC_GS_XML
and exclude headings, stage directions, etc. See:
Siehe ~/data/Overview.ods or here