robinarthur / 5pk

0 stars 0 forks source link
friedrich nlp schiller

5pk

Title:

Inwieweit lassen sich Änderungen von Friedrich Schillers Schriftsprache durch statistische Methoden der Computerlinguistik qualifizieren und lassen sich damit parallelen vom Übergang von "Sturm und Drang" hin zur "Weimarer Klassik" nachweisen?

Expose:

Textanalysen sind in der Oberstufe sehr wichtig und nehmen viel Zeit des Unterrichts in Anspruch. Moderne Methoden der Computerlinguistik können uns schon heute Details über einen Text erzählen, die manuell sehr schwer oder gar nicht zu bekommen wären. Diesen Umstand möchte ich nutzen um die Texte und Werke von Friedrich Schiller statistisch auszuwerten und zu überprüfen, ob es einen signifikanten „Bruch“ um 1786 (Anfang Weimarer Klassik) in der Art und Weise wie Schiller seine Texte aufbaute, gibt. Hierfür wird versucht, so viele Werke von Schiller (Dramen, Gedichte, Erzählungen) mit einzubeziehen, wie möglich. Es werden sicherlich nicht alle digital zu finden sein, aber je mehr Daten für die Analyse vorhanden sind, desto aussagekräftiger wird das Ergebnis.

Mithilfe der Scriptsprache Python werden Funktionen und Methoden erstellt um die Texte zu bereinigen (Verlagsangaben, Seitenzahlen,...), um am Ende nur noch reiner Text vorhanden ist. Dieses Ergebnis wird dann Buchweise in einer Datenbank gespeichert, um es dann mit selbstgeschriebenen Funktionen weiter zu bearbeiten. Diese können nun Sachen wie Satzlänge, die häufigsten Wörter, die häufigsten Wortformen (Substantiv, Adjektiv, + ca. 20 weitere Arten), ausgeben. Hieraus lassen sich auch sehr schnell eigene Kennzahlen aus dem Verhältnis von bestimmten Wortformen bilden.

Des weiteren gibt es noch fertige Algorithmen (Lesbarkeitsindex), die Mithilfe von Statistiken die Lesbarkeit, die Komplexität und am Ende eine Kennzahl ausgeben, welche eine mindest Klassenstufe vorschlägt, die man braucht, um die Texte lesen und verstehen zu können. Eine erste Auswahl wären u.a. der Flesch-Reading-Ease, Flesch-Kincaid-Grade-Level und der Gunning-Fog-Index.

Im Idealfall habe ich am Ende eine Grafik, worin unterschiedliche Kennzahlen um das Jahr 1786 herum entweder eine deutliche Änderung anzeigen oder eben nicht. Wahrscheinlicher ist aber, dass es für jede einzelne Rubrik (Drama, Gedicht, Erzählung,...) auch entsprechend eigene Grafiken geben wird.