cfhaak commented 2 months ago

see https://github.com/bundesverfassung-oesterreich/bv-schema-framework/issues/47

all details in protocoll

cfhaak commented 2 months ago

Vorschläge Kodierung Protokolle

Nach einer ersten Erfassung scheinen die Protokolle neben unproblematischen Strukturen wie Absätzen und Überschriften einige strukturell relevante Texteinheiten zu enthalten, die sich wie folgt kategorisieren lassen:

a) Listen teilnehmender Personen, teilweise komplex untergliedert, je nach Funktion der Person(en) 

b) Erläuterungen/Paraphrasen des Sitzungsgeschehens  

c) das Zitieren oder das transkribierte Verlesen von Gesetzestexten bzw. von Entwürfen von Gesetzestexten 

d) Transkripte aller Äußerungen die nicht unter c) fallen

Ad a): Es bietet sich eine einfache Transkription als bloßer Text an. Die Information, welche Personen teilgenommen haben, ließe sich einfach in den Metadaten des XML-Dokumentes vermerken, so dass z.B. eine facettierte Suche nach teilnehmenden Personen möglich wäre. Als weitere Differenzierung wäre es weiterhin überlegenswert, die aus dem Protokoll ermittelbare Rolle der Personen innerhalb der Sitzung grob einzugrenzen. So wäre es immerhin möglich Protokolle auffindbar zu machen, die z.B. Wortmeldungen Otto Bauers enthalten.

Das Erstellen eines Personenindexes empfiehlt sich in jedem Fall.

Ad b): Es bietet sich ebenfalls eine einfache Transkription als Text an. Gemäß dem Prinzip der Edition, im Fließtext keine Entitäten sui loco zu referenzieren, entfällt die Notwendigkeit, die in den Paraphrasen erwähnten Urheber: innen mit ihren eventuellen Ansetzungen im Index zu verlinken.

Ad c): Da die semantische Qualität der Segmente von Gesetzestexten innerhalb der Protokolle (Artikel etc.) sich trotz der pragmatischen Differenz prinzipiell nicht von der der Gesetzesentwürfe unterscheidet, empfiehlt es sich, die bereits existierenden Kodierungsprinzipien aus den Gesetzesentwürfe in diesen Fällen auch hier anzuwenden. Der Aufwand, eine gesonderte Lösung zu finden, entfällt, die Homogenität des Ganzen wird gefördert.

Ad d): Das direkte Transkribieren unterscheidet sich konzeptionell nicht von den Textstellen in b). Ein Text enthält Äußerungen, deren wortwörtliche (bzw. "propositionale") Urheberschaft verschiedenen Personen zugeschrieben wird. Entsprechend des Verzichts auf kodierte Referenzen sui loco entfällt auch hier die Notwendigkeit zur direkten Referenz. Da die Redebeiträge aber auch erkennbare strukturelle Einheiten des Textes bilden, bietet es sich an, wenigsten diese Qualität – etwa durch ein div-Element mit @type – zu kodieren. Es wäre in diesem Rahmen wohl ebenfalls ohne größeren Aufwand möglich, den typografisch ohnedem markierten Namen der Sprechenden auch mittels eines Tags zu markieren.

Ausblick

Falls nach Abschluss der so gestalteten Kodierung noch Zeit zur Verfügung stünde, wäre es jedoch überlegenswert, die Textsegmente, die im Falle von b) mit einer Person als Urheber:in der propositionalen Gehalte oder im Falle d) als Urheber:in der transkribierten Worte assoziiert werden, auch mittels einer entsprechenden Kodierung mit diesen Urheber:innen in Beziehung zu setzen. Es würde sich in diesen Fällen nicht um das Kodieren einer Referenz sui loco, sondern um das Kodieren einer Urheberschaft handeln.

Anmerkung zum Umsetzen der Kodierung

Anders als bei den Gesetzestexten, deren textuelle Strukturelemente durch die leichter identifizierbaren Überschriften in großen Teilen automatisch ermittelt und kodiert werden konnten, wird das Kodieren der strukturellen Informationen in den Protokollen größtenteils ausschließlich händisch erfolgen müssen. Es empfiehlt sich also auch, bei der Korrektur – anders als bei den Gesetzestexten – von niedrigen Strukturelementen zu höheren fortzuschreiten, also zunächst Absätze, Seitenwechsel, Metadaten (teilnehmende Personen!) und Text zu bearbeiten, bevor weitere strukturelle Informationen kodiert werden. So wird sichergestellt, dass die Dokumente zunächst homogen in guter Textqualität verfügbar gemacht werden, bevor weitere Arbeitsschritte erfolgen.

cfhaak commented 2 months ago

schema

[x] metadata person
[x] metadata particDesc
[x] metadata @role
[x] metadata @sameAs
[x] normal p
[x] direkte Redebeiträge sp ?
[x] direkte Redebeiträge: sprechende Person speaker
[x] sp in div and p

doku

[x] metadata person
[x] metadata particDesc
[x] metadata @role
[x] metadata @sameAs
[x] p inside p see #54
[x] direkte Redebeiträge sp/speaker

authormode

[x] personmetadaten
[x] redebeiträge
[x] redende Person

infrastruktur

[x] baserow -> schema wf aktivieren & testen

cfhaak commented 2 months ago

~~sp and speaker are actually intended for plays~~

bundesverfassung-oesterreich / bv-schema-framework

extend framework and schema to deal with B #50

schema

doku

authormode

infrastruktur