deutschestextarchiv / dtabf

DTA Base Format (DTABf)
https://www.deutschestextarchiv.de/doku/basisformat/
Other
14 stars 9 forks source link

Transkription/Notation des Kürzungs- bzw. Notationsstrichs #86

Open cthomasdta opened 4 years ago

cthomasdta commented 4 years ago

Gibt es hierzu starke Meinungen, z.B. @StefanDumont ?:

Der Kürzungs- oder Geminationsstrich wird im ehd-Korpus durchgehend mit dem Unicode-Zeichen „U+0305 COMBINING OVERLINE“ notiert, vgl. https://edition-humboldt.de/richtlinien/frameworks/basis/text/symbole_ehd.html?hl=Geminationsstriche. Dies ist abweichend von der DTA-Konvention, die „U+0303 COMBINING TILDE“ zur Wiedergabe dieses Zeichens vorschlägt, vgl. http://www.deutschestextarchiv.de/doku/basisformat/trNasalstrich.

Hintergrund dieser Entscheidung könnte die Überlegung sein, dass die „COMBINING TILDE“ gemäß Unicode-Spezifikation durchaus als Nasalstrich verwendet werden kann, jedoch eher im Bereich der IPA- und Sprachnotation (Betonungszeichen), während die „COMBINING OVERLINE“ demgegenüber neutraler einen „overscore“, ‚Überstrich‘, beschreibt. Die Funktion des Zeichens als Abkürzungsstrich wird durch die Auflösungspraxis dokumentiert, indem z. B. „Son̅e“ zu „Sonne“ dokumentiert aufgelöst werden kann.

Innerhalb des DTA-Korpus müssen dagegen einfache Verdopplungen wie „n̅“ zu „nn“ oder „m̅“ zu „mm“, aber auch Kürzungen wie "ſonnẽſchein" zu "Sonnenschein", nicht manuell vorgenommen werden, sondern werden durch die computerlinguistische Analyse erkannt und für die Suche und weitere Textverarbeitung automatisch expandiert. Insofern wäre es nicht ganz ohne, auch im DTA U+0305 anstelle von U+0303 zu verwenden, weil dann auch die Expansion umgestellt werden muss. Aber das ist ein nachgeordnetes Problem, sollten wir alle als Steuerungsgruppe diese Änderung sinnvoll finden.

Zur derzeitigen Verwendung im DTA-Korpus siehe U+0303: http://kaskade.dwds.de/dstar/dta/dstar.perl?fmt=kwic&corpus=&limit=100&ctx=8&q=%24u%3D%2F%5Cx%7B0303%7D%2F&_s=submit vs. U+0305: http://kaskade.dwds.de/dstar/dta/dstar.perl?fmt=kwic&corpus=&limit=100&ctx=8&q=%24u%3D%2F%5Cx%7B0305%7D%2F&_s=submit

textloop commented 4 years ago

Keine starke Meinung und auch nur eine Tendenz, die ich beobachtet habe: Projekte, in denen mir das bisher begegnet ist, haben in solchen Fällen als Abkürzungszeichen „U+0303 COMBINING TILDE“ genutzt.

cthomasdta commented 4 years ago

Keine starke Meinung und auch nur eine Tendenz, die ich beobachtet habe: Projekte, in denen mir das bisher begegnet ist, haben in solchen Fällen als Abkürzungszeichen „U+0303 COMBINING TILDE“ genutzt.

Rückfrage, wie siehst du das: Ist es möglich, dass diese sich in dem Punkt an den DTA-Richtlinien orientiert haben oder sind es ganz unabhängig davon entstandene Festlegungen?

BTW: Fontane-Notizbücher nutzt übrigens <g ref="#mgem">mm</g>, aber das erscheint mir persönlich unnötig umständlich.

textloop commented 4 years ago

Könnte schon sein, ja. Aber in den Vorlagen sieht es oft auch einfach mehr nach einer Tilde aus.

cthomasdta commented 4 years ago

Ok, danke! Dann müssen das die Typographie(-Geschichte)-Expert*innen entscheiden (kann ja sein, dass damals schon in Ermangelung des 'richtig(er)en' Zeichens die Tilde aus dem Setzkasten gegriffen wurde). Also @StefanDumont, Frederike et al.

textloop commented 4 years ago

Vielleicht wird aber auch nur auf die Tilde zurückgegriffen, weil sie allein in anderen Zusammenhängen auch als ein Abkürzungszeichen/Auslassungszeichen stehen kann.

Genau, auf das Urteil der Experten bin ich da auch gespannt!

cthomasdta commented 3 years ago

Link auf ehd-Richtlinien korrigiert, danke @susannehaaf für den Hinweis. Ich würde mich freuen, wenn wir das beim nächsten Treffen der SG besprechen könnten.

susannehaaf commented 2 years ago

Beschluss DTABf-SG: Tilde einheitlich verwenden; Overline optional; entsprechend im teiHeader dokumentieren