avh-bern-berlin / avh-texts

AvH texts
https://www.humboldt.unibe.ch
2 stars 0 forks source link

maskierter (HTML-?)Quellcode in den XML-Dateien #36

Open cthomasdta opened 2 years ago

cthomasdta commented 2 years ago

Weiß nicht, ob das ein "Issue" ist, d.h. jemanden stört, aber zumindest im Bereich der Header gibt es noch (HTML-?)Zeichen, die maskiert sind.

Siehe z.B. die <hi>/</hi>- bzw. &lt;i&gt;/&lt;/i&gt-Markierungen wie in https://github.com/avh-bern-berlin/avh-texts/blob/main/xml/1795-Die_Lebenskraft_oder-1.xml:

          <title type="full">in: &lt;i&gt;Die Horen&lt;/i&gt; 1:5 (1795), S. 90–96.</title>

Ist natürlich die Frage,

haoess commented 2 years ago

Das ist momentan der Stand, auch so dokumentiert. Falls jemand die Muße hat, diese Angaben in ein vollständiges <seriesStmt> zu wandeln, nur zu, dann kann das Binnenmarkup raus (+ entsprechende Codeanpassungen für die Darstellung). Bislang ist das nur für einen Bruchteil der Dokumente getan.

Auch wenn es nicht sauber ist – mich stört es so nicht. Es einfach so rauszunehmen bedeutet Informationsverlust. Wen es für die Weiterverarbeitung stört, der kann es ja selbst mit einem einfachen Suchen+Ersetzen entfernen.

cthomasdta commented 2 years ago

Alles klar, danke! Richtig, nicht einfach so rauszunehmen; also bleibt es erstmal so. Issue kann wieder zu @thomasnehrlich , falls du es nicht als Erinnerung behalten möchtest