deutschestextarchiv / dtabf

DTA Base Format (DTABf)
https://www.deutschestextarchiv.de/doku/basisformat/
Other
14 stars 9 forks source link

DTA's //sp/p/lb into proper verse lines when verse drama #83

Open gerritbruening opened 4 years ago

gerritbruening commented 4 years ago

According to their docu, the DTA doesn't render verse lines in drama as l, but as lb within p, for example:

<sp who="#PRI">
    <speaker><hi rendition="#g"
        >Prinzeſſi<supplied>n</supplied>n</hi>.</speaker>
    <lb/>
    <p><hi rendition="#in">D</hi>u ſiehſt mich lächlend an,
        Eleonore,<lb/> Und ſiehſt dich ſelber an und
        lächelſt wieder.<lb/> Was haſt du? Laß es eine
        Freundinn wiſſen!<lb/> Du ſcheinſt
        bedenklich, doch du ſcheinſt ver-<lb/> gnügt.</p>
</sp>

(http://www.deutschestextarchiv.de/dtaq/book/view/goethe_torquato_1790?p=11&view=)

For a proper TEI encoding, one would like to have

<l><hi rendition="#in">D</hi>u ſiehſt mich lächlend an, Eleonore,</l>

etc. This was discussed with @cthomasdta from the DTA team. Maybe @mathias-goebel can give some advice, as he has worked on this kind of data. Note that not all lbs do indicate that there is a new verse line beginning: ver-<lb/> gnügt is just due to hyphenation. Note also that break="no" is missing although one could expect it since it's use is recommended. tl;dr:-)

gerritbruening commented 4 years ago

Es ist leider schwieriger, als ich seinerzeit dachte, weil es noch eine dritte Gruppe dieser lb gibt:

Schwillt immer mehr und mehr in meiner<lb/>
Hand,<lb/>
Du ha&#x017F;t mit höherm Sinn und größerm<lb/>
Herzen<lb/>

Die einen sind Versgrenzen, die andern nur Umbrüche. Ich kann immer noch nicht verstehen, warum das jemals so kodiert werden konnte, denn jetzt ist guter Rat teuer, oder?

cthomasdta commented 4 years ago

Lieber Gerrit, danke für das Ticket. Aber wohin soll es hinaus?

Der gute Rat ist jedenfalls nicht teurer als er vor Beginn der Texterfassung und Encoding gewesen wäre: Die Entscheidung, das nicht mit <l> zu erfassen, wurde getroffen, da die Texterfasser das nicht sicher hätten erkennen können und da das Zoning (= Markieren der Strukturelemente auf den Scans vor der Texterfassung) nicht so kleinteilig ausgeführt werden konnte.

In diesem Punkt entsprechen die Texte also genau dem, was in der DTA-Doku dazu steht:

Gereimte Passagen oder Gesänge innerhalb eines in Prosaform verfassten Dramas werden hingegen als Versgruppen (<lg>) gekennzeichnet. Insofern handelt es sich nicht um einen Fehler.

Nun kann man dies nacherfassen, zumindest halbautomatisch, wie du es ja schon angedacht hast. Die Förderung des DTA endete 2016, daher können wir dies in diesem Rahmen nicht tun. Wir konnten (siehe oben) und können also diesen Aufwand des nachtaggens jedenfalls nicht stemmen.

Aber wir bieten die Texte zum Download, aus DTAQ heraus kannst du auch das "XML herunterladen und Werk sperren" (damit es niemand anderes parallel bearbeiten kann), es nachbearbeiten und wieder an uns zurück zur Re-Integration schicken.

cthomasdta commented 4 years ago

P.S. zu break="no" in <lb/>, nach dem du auch fragtest, siehe Diskussion in https://github.com/deutschestextarchiv/dtabf/issues/66: Es wird vorgeschlagen, allerdings sollte es nur dann verwendet werden, wenn das Trennzeichen fehlt, also nur in:

bös<lb break="no"/>artigen

aber nicht in:

bös-<lb/>artigen

In deinem Beispiel ver-<lb/> gnügt wäre es also nicht zu verwenden.

gerritbruening commented 4 years ago

Die Entscheidung, das nicht mit <l> zu erfassen, wurde getroffen, da die Texterfasser das nicht sicher hätten erkennen können und da das Zoning (= Markieren der Strukturelemente auf den Scans vor der Texterfassung) nicht so kleinteilig ausgeführt werden konnte.

Der Hintergrund hatte mir tatsächlich gefehlt, danke für deine Aufklärung! Ich hatte das Zoning vergessen. Der Verzicht auf break scheint mir hier nicht so tragisch, es würde uns bei

Schwillt immer mehr und mehr in meiner<lb/>
Hand,<lb/>

usw. auch nicht helfen. Meine Idee wäre jetzt, mit der Zeichenzahl zwischen den <lb/> zu operieren: <lb/>Hand,<lb/> heißt: nur der zweite <lb/> ist Versende, weil nach dem vorherigen nur wenige Zeichen folgen. 10 Zeichen sind wahrscheinlich schon eine zuverlässige Grenze. Wer etwas XSLT kann ...?