Übersicht über Mengen und Zeiträume möglich?

avh-bern-berlin / avh-texts

AvH texts

https://www.humboldt.unibe.ch

2 stars 0 forks source link

Übersicht über Mengen und Zeiträume möglich? #5

Closed cthomasdta closed 3 years ago

cthomasdta commented 3 years ago

@haoess ist es jetzt schon möglich, Textmengen zu erheben?

Dokumente
Seiten (<pb/>, allerdings nicht sicher, ob immer auch das erste <pb/> erfasst wurde)
in Zeichen
in Tokens

... und diese dann pro Dekade in ihrer Verteilung, ggf. noch in Kombi mit Sprachen, (Disziplinen) usw. auszugeben?

Da wohl nicht so schnell auf die Seite zu bringen: Für den Workshop am Sonntag würde auch erstmal ein interner Überblick hier reichen.

Danke für deine Einschätzung dazu!

haoess commented 3 years ago

Dokumente: 2645 (das hätt'ste aber auch selber geschafft)

Seiten:

% find . -type f -name '*.xml' -print0 | xargs -0 xmlstarlet sel -N 't=http://www.tei-c.org/ns/1.0' -t -m '//t:pb' -f -n  | wc -l
13499

Mehr schaffe ich erstmal nicht. Ist auch momentan alles ohne wirklich Gehalt, da wir noch weit vor dem Finish sind. Wenn alle Dokument da und releasefertig sind (und ich dann noch Zeit habe), kann man das sicher mal ausrechnen.

cthomasdta commented 3 years ago

dabei wäre ggfs. auch interessant zu sehen, ob zB die Länge der Texte im Laufe der Zeit zu- oder abnimmt. (Wir kennen die Antwort darauf schon so ungefähr, aber hier wäre es empirisch sauber zu ermitteln)

thomasnehrlich commented 3 years ago

Insgesamt sind es rund 3600 Texte, bisher hatte ich Frank nur die validen Dateien geschickt. Das vollständige Corpus übertragen wir dann, wie am Sonntag besprochen, wenn die externe Kollation von Rex Clark fertig ist.

@cthomasdta Solche computerphilologisch-quantitativen Fragen interessieren mich auch sehr. Man könnte neben den von Dir genannten noch etliche andere Aspekte untersuchen, zum Beispiel örtliche Ausbreitung, Originalsprachen, Übersetzungssprachen, Anzahl Nachdrucke etc. Vielleicht können wir uns dazu ja mal zusammentun...