deutschestextarchiv / copadocs

CoPaDocs – Corpus of Patient Documents – source files
https://deutschestextarchiv.github.io/copadocs/
Creative Commons Attribution Share Alike 4.0 International
3 stars 0 forks source link

Darstellung Ein- und Austrittsjahr #12

Closed nina-bro closed 1 year ago

nina-bro commented 1 year ago

Weil die Patienten manchmal mehrere Aufenthalte in der Anstalt verbracht haben und die Angabe hinter "Anstalt: " somit nicht immer einheitlich ist, haben wir die TEI-Struktur dort auch nochmal abgeändert. Z.B.:

<p>
Anstalt:
<date from="1850" to="1851">1850-51</date>
</p>

Für das Ein- und Austrittsjahr sollten jeweils die Werte von from und to angezeigt werden.

haoess commented 1 year ago

Die Angaben in @from und @to müssen, wenn nur Jahr, dem Format YYYY-MM-DD genügen, das hab ich mit 679a237 korrigiert.

maschiegg commented 1 year ago

Wird das dann automatisch bei neu hochgeladenen XML-Dateien korrigiert oder sollen wir alle XML-Dateien ins korrekte Format bringen, bevor wir sie hochladen?

haoess commented 1 year ago

Automatisch wird das nicht konvertiert, geht aber relativ einfach und schmutzig mit Perl:

perl -pi -E 's/<date from="(\d+)\.(\d+)\.(\d+)" to="(\d+)\.(\d+)\.(\d+)">/<date from="$3-$2-$1" to="$6-$5-$4">/' data/*/*.xml

oder mit Oxygen’s Finden/Ersetzen in Dateien (Regulärer Ausdruck muss angekreuzt sein):

Gesuchter Text: <date from="(\d+)\.(\d+)\.(\d+)" to="(\d+)\.(\d+)\.(\d+)"> Ersetzen durch: <date from="$3-$2-$1" to="$6-$5-$4">

Evtl. muss man dann noch Fälle ohne Tag (JJJJ-MM) oder ohne führende Nullen ansehen. Findet man, indem man in Oxygen ein neues Projekt anlegt (auf das Verzeichnis data) und dann alle XML-Dateien validiert: das läuft dann automatisch gegen das TEI-Schema, und da ist von Hause aus <date from="01.01.1850" to="31.12.1870">…</date> nicht valide (= rote Lampe oben rechts).

maschiegg commented 1 year ago

Danke, das bekommen wir hin!

nina-bro commented 1 year ago

Es gibt manchmal Angaben wie 29.03.-xx.08.1920 oder einfach nur das Jahr, z.B. 1883-1901. In solchen Fällen sollte der Wert der from/to-Attribute ja trotzdem yyyy-mm-dd sein, richtig? Das Problem ist jetzt aber, dass, wenn ich dort einfach 'auffülle', also z.B. 1883-01-01, 1901-12-31, das nicht so angezeigt werden soll, da das ja nicht das tatsächliche Eintritts- bzw. Austrittsdatum ist. Ich hatte jetzt überlegt, in solchen Fällen noch ein Attribut cert='low' oder so ähnlich hinzuzufügen, damit man dort dann nur das Jahr anzeigt - oder haben Sie eine Idee, wie wir im TEI am besten mit solchen Fällen umgehen sollen?

haoess commented 1 year ago

In solchen Fällen sollte der Wert der from/to-Attribute ja trotzdem yyyy-mm-dd sein, richtig?

Nein. Die Werte in @from, @to etc. müssen nur valide nach att.datable.w3c sein. Heißt: 29.03.-xx.08.1920 wird zu <date from="1920-03-29" to="1920-08">29.03.-xx.08.1920</date>.