haoess / hidden-kosmos

Hidden Kosmos — Reconstructing Alexander von Humboldt's »Kosmos-Lectures«
Creative Commons Attribution 4.0 International
4 stars 2 forks source link

normalisierte HTML-Fassungen #31

Open cthomasdta opened 7 years ago

cthomasdta commented 7 years ago

*.norm.xml ist für Kollation usw. absolut klasse. Unbedingt beibehalten.

ABER: das Voyant-(Norm-)XML ist für andere Dinge besser. Hintergrund: Es gibt leider ein Problem mit dem aus den *.norm.xml (via https://raw.githubusercontent.com/haoess/dta-tools/master/stylesheets/dtabf.xsl) erzeugten HTML: Dieses enthält beispielsweise noch Text in <del>; dieser wird zwar entsprechend als gestrichen formatiert/dargestellt, von Tools wie Copyfind aber als normaler Text behandelt. Lösung: HTML erzeugen aus Voyant-(Norm-)XML (wofür ja all diese Dinge schon berücksichtigt und entfernt wurden). Vorgehen am Beispiel von http://www.deutschestextarchiv.de/book/download_normxml/parthey_msgermqu1711_1828:

Das wäre dann perfekt für CopyFind et al. Diskutieren wir dann gerne später weiter!