deutschestextarchiv / copadocs

CoPaDocs – Corpus of Patient Documents – source files
https://deutschestextarchiv.github.io/copadocs/
Creative Commons Attribution Share Alike 4.0 International
3 stars 0 forks source link

Felder mit fehlender Informationsangabe #22

Closed haoess closed 1 year ago

haoess commented 1 year ago

Wir haben derzeit diese Varianten, fehlende Informationen zu markieren:

  1. leeres Element
  2. "n.a."
  3. "k.A."

Das betrifft sowohl komplette als auch Teilangaben wie in <persName type="addressee">Frau und Kinder: n.a. <surname>F.</surname></persName>.

Gut wäre es, wenn diese Angabe – so weit möglich – einheitlich wären, und zwar:

  1. Maschinenlesbarkeit. Dafür ist z. B. <settlement type="received"/> viel besser geeignet als <settlement type="received">n.a.</settlement>. Heißt: Wenn der komplette Elementinhalt keine richtige Angabe enthält: das Element leer lassen.
  2. "n.a." vs. "k.A.": Ersteres ist eine englische Abkürzung und passt nicht ganz so recht in die sonst komplett deutschsprachigen Metadaten. "k.A." ist Abkürzung für 2 Wörter und muss typografisch korrekt mit Leerzeichen geschrieben werden: "k. A."

Wenn es keinen Widerspruch gibt, würde ich das Korpus einmal komplett dahingehend anpassen. Kann aber auch sein, dass ich was übersehen habe …

maschiegg commented 1 year ago

Ok, können Sie gerne anpassen! Bei <persName type="addressee">Frau und Kinder: n.a. <surname>F.</surname></persName> wird das n.a. dann einfach zu einem k. A. und der Rest bleibt?

haoess commented 1 year ago

Bei <persName type="addressee">Frau und Kinder: n.a. <surname>F.</surname></persName> wird das n.a. dann einfach zu einem k. A. und der Rest bleibt?

Genau so ist es.

haoess commented 1 year ago

Alles so weit umgesetzt. Bei den Datumsangaben sind 3 Werte aufgefallen:

Vermutlich sind das keine Transkriptionsfehler, aber diese Daten sind nicht valide. Mit 9f40225 habe ich das so gelöst: den geschriebenen Text lassen wir, für die Maschinenlesbarkeit verkürzen wir auf den Monat.

maschiegg commented 1 year ago

Super, danke! Die Patienten irren sich natürlich auch oft im Datum...

maschiegg commented 1 year ago

...die when-Info haben aber nur genaue Daten erhalten? Z.B. bei https://deutschestextarchiv.github.io/copadocs/patientenakten.html#kfb-828 '27.09.1870' versus 'xx.xx.1870' Beim zweiten Fall weiß man ja immerhin das Jahr.

maschiegg commented 1 year ago

Es gibt im TEI manchmal Angaben ganz ohne Jahr, man kann diese aber auf den Aufenthaltszeitraum eingrenzen. Z.B. bei der Datei: kfb_00539_h_f_ministerialsekretaerstochter_1820_1858-61_pp4-ao2/kfb_00539_h_pp_ca1858-61_05_15.xml Hier steht der Aufenthaltszeitraum ja im Dateinamen (1858-61), leider aber nicht im XML.

Sie haben das im commit fd89efb so korrigiert: alt: <date type="sent">15–16.05.xx</date> korrigiert zu: <date type="sent" when="--05-15">15–16.05.xxxx</date>

Man könnte aber machen? <date type="sent" notBefore="1858" notAfter="1861"> Denn die Tage sind weniger aussagekräftig als die Jahre, man sucht eher mal Briefe um 1860 als Briefe vom Mai.

haoess commented 1 year ago

Ja, alles richtig, und nun so umgesetzt. Angezeigt wird weiterhin der Textinhalt des <date>-Elements, sortiert wird nun aber nach den Attributwerten (zuerst @when, falls vorhanden, dann @notBefore, dann @notAfter).