Closed cthomasdta closed 3 years ago
Dokumente: 2645 (das hätt'ste aber auch selber geschafft)
Seiten:
% find . -type f -name '*.xml' -print0 | xargs -0 xmlstarlet sel -N 't=http://www.tei-c.org/ns/1.0' -t -m '//t:pb' -f -n | wc -l
13499
Mehr schaffe ich erstmal nicht. Ist auch momentan alles ohne wirklich Gehalt, da wir noch weit vor dem Finish sind. Wenn alle Dokument da und releasefertig sind (und ich dann noch Zeit habe), kann man das sicher mal ausrechnen.
dabei wäre ggfs. auch interessant zu sehen, ob zB die Länge der Texte im Laufe der Zeit zu- oder abnimmt. (Wir kennen die Antwort darauf schon so ungefähr, aber hier wäre es empirisch sauber zu ermitteln)
Insgesamt sind es rund 3600 Texte, bisher hatte ich Frank nur die validen Dateien geschickt. Das vollständige Corpus übertragen wir dann, wie am Sonntag besprochen, wenn die externe Kollation von Rex Clark fertig ist.
@cthomasdta Solche computerphilologisch-quantitativen Fragen interessieren mich auch sehr. Man könnte neben den von Dir genannten noch etliche andere Aspekte untersuchen, zum Beispiel örtliche Ausbreitung, Originalsprachen, Übersetzungssprachen, Anzahl Nachdrucke etc. Vielleicht können wir uns dazu ja mal zusammentun...
@haoess ist es jetzt schon möglich, Textmengen zu erheben?
<pb/>
, allerdings nicht sicher, ob immer auch das erste<pb/>
erfasst wurde)... und diese dann pro Dekade in ihrer Verteilung, ggf. noch in Kombi mit Sprachen, (Disziplinen) usw. auszugeben?
Da wohl nicht so schnell auf die Seite zu bringen: Für den Workshop am Sonntag würde auch erstmal ein interner Überblick hier reichen.
Danke für deine Einschätzung dazu!