tnhaider / DLK

Deutsches Lyrik Korpus (DLK) / German Poetry Corpus
17 stars 1 forks source link

Latest version still broken? #1

Closed fotisj closed 3 years ago

fotisj commented 4 years ago

This could be a great resource, but at the moment the texts seem to be broken, even in the most recent version. In the sample I checked, quite often the last stanzas seem to be missing. In the first version, the first stanzas are missing (e.g.: 10186_s4.4). But this is also true in later versions (41713_s6.8 in v.3). Am I missing something?

tnhaider commented 4 years ago

I recommend using Version 4 in any case.

s4.4 is stanza 4 of 4, so this is the last stanza.

If you see any problems, please point them out, so we can fix them.

We are currently re-working this corpus for a dedicated publication, then also including the Gutenberg collection.

The main problem that I found, was that the title information seems to be missing frequently.

I did however not check everything by hand.

tnhaider commented 4 years ago

Maybe keeping the link to the original corpus might help to trace it back.

tnhaider commented 4 years ago

So I checked instances of s4.4 in Version 4, and this looks fine to me.

I found that 10186 in version 1 (a text by Anna Karsch) has duplicate stanzas which resulted from faulty xml parsing in version 1.

Also, I found an empty first stanza that consisted only of newlines. I'm guessing this is a problem of the original corpus.

Here is a snippet from the output to check for s4.4: cat deutsches.lyrik.korpus.v4.noduplicates.intactpoems.json | sed 's/},/\n/g' | grep 's.4.4"' "52630_s4.4": {"lines": ["Keine junge Wasserquelle hat berauscht mich alten Zecher,", "'S ward kein Wasserschlauch zerrissen von dem j\u00e4hen Wolkenbrecher.", "Was ich taumle? Was ich st\u00fcrze? Was es tobt in meinem Bette? \u2013", "Vater Ozean, o da\u00df ich warmes Blut f\u00fcr dich noch h\u00e4tte!", "Warmes Blut hab' ich getrunken, warmes Blut in vollen Z\u00fcgen,", "Warmes Blut der freien Griechen, die an meinen Ufern liegen,", "Hingestreckt auf Lorbeerzweigen, \u00fcberweht von Siegesfahnen,", "Hoch umrauscht vom Geisterreigen ihrer Br\u00fcder, ihrer Ahnen.", "Solches Blut hab' ich getrunken heut' von den Agr\u00e4er Fluren \u2013", "Fragst du auch nach Sklavenblute? \u2013 In Mor\u00e4sten such' die Spuren", "Seiner Str\u00f6me; jeden lauen Tropfen hab' ich ausgespieen:", "Freies Griechenblut nur trank ich, kannt' es wohl an seinem Gl\u00fchen.", "Vater Ozean, da fing ich an von alter Zeit zu tr\u00e4umen", "Und von junger Freiheitswonne brausend mich emporzub\u00e4umen,", "Also da\u00df des Ufers Bande mich nicht l\u00e4nger konnten halten,", "Da\u00df erzitterten die Ebnen und die Berge wiederschallten.", "Nimm mich auf, du Weltumarmer, trage meine hohen Wogen", "Ungemischt und ungeb\u00e4ndigt, mit dem Blut, das sie gesogen,", "Fort gen Norden und gen Westen, da\u00df sie an die Ufer schlagen,", "Und den Felsen und den Menschen laute Kund' aus Hellas sagen!"], "title": "Achelous und das Meer", "author": "M\u00fcller, Wilhelm", "year": 1810 "10581_s4.4": {"lines": ["Von Betrug und T\u00e4uschung selbst geschlagen", "Liebt es unter Wunden ungez\u00e4hlt,", "Ja, es liebt, was seine Liebe qu\u00e4lt,", "Um die Qual gleichwie ein Gl\u00fcck zu tragen!"], "title": "18.", "author": "Roquette, Otto", "year": 1860 "38207_s4.4": {"lines": ["Ach, wie ist die Welt so eitel!", "Kleine Flaschen, gro\u00dfe Keller,", "goldgestickte seidne Beutel", "und darin nicht einen Heller \u2013", "Ach, wie ist die Welt so eitel!"], "title": "3.", "author": "Prutz, Robert Eduard", "year": 1844 "46715_s4.4": {"lines": ["Der Stein der wird zerschossen,", "Der Strauch der Axt verf\u00e4llt,", "Der Brink wird abgefahren;", "Sie passen nicht mehr in die Welt."], "title": "Die Letzten", "author": "L\u00f6ns, Hermann", "year": 1890 "64046_s4.4": {"lines": ["September war ein Glanz an Himmel und Gefild;", "Oktober \u017ftu\u0364rme nun! dich macht die Arbeit mild."], "title": null, "author": "R\u00fcckert, Friedrich", "year": "1838" "40831_s4.4": {"lines": ["Die entflohn und nicht mehr kamen,", "Freuden mit verlornen Namen", "Kannst du wiederbringen;", "Lauschend treten alle Schmerzen", "Leiser auf in meinem Herzen,", "H\u00f6ren sie dich singen."], "title": "An Agnes", "author": "Lenau, Nikolaus", "year": 1840 "8091_s4.4": {"lines": ["Gibt dir Fl\u00fcgel wundergut,", "die kann Niemand hindern:", "meinen ganzen Lebensmut!", "bring ihn meinen Kindern!"], "title": "Vatergruss", "author": "Dehmel, Richard Fedor Leopold", "year": 1891 "20024_s4.4": {"lines": ["Ein lauer Wind aus rosenroter Weite:", "und mir im Herzen t\u00f6nt die eine Saite, \u2013", "\u2013 die du gespannt."], "title": "Die eine Saite", "author": "M\u00fcller-Jahnke, Clara", "year": 1882 "28198_s4.4": {"lines": ["Wer gl\u00fccklich diesen Klecks durchdrungen", "Dem ist der gro\u00dfe Wurf gelungen,", "Zu sein ein gro\u00dfer Humanist.", "Und geht die ganze Welt verloren,", "So bleiben ihm doch die Autoren,", "Und wenn er stirbt, er stirbt als \u2013 Christ."], "title": "\n ", "author": "Hoffmann von Fallersleben, August Heinrich", "year": 1836 "45806_s4.4": {"lines": ["Wie so bleich das Sonnenlicht,", "Und wie k\u00fchl ist noch die Luft!", "Nur dem Blumenkelch entbricht", "Schon ein hei\u00dfer Sommerduft."], "title": "Fr\u00fchlingsbild", "author": "Lingg, Hermann von", "year": 1862 "27858_s4.4": {"lines": ["Ein sch\u00f6ner Zug von unsrer Zeit!", "Ein sch\u00f6ner Zug: Freiz\u00fcgigkeit!", "Dir fehlt ein n an deines Gl\u00fcckes Sterne:", "Freiz\u00fcgig Volk, freiz\u00fcngig w\u00e4rst du gerne!"], "title": "\n ", "author": "Hoffmann von Fallersleben, August Heinrich", "year": 1836 "20911_s4.4": {"lines": ["Ist's Mitleid, was dein sanftes Auge tr\u00fcbte?", "Von Allen fern die meine Seele liebte", "Wall' ich des Lebens dunkle Bahn hinab!", "Wann wird der Schwermuth tr\u00fcbe D\u00e4mmrung tagen?", "Ach! wann verhallt die lezte meiner Klagen?", "Wann blickst du auf mein unbethr\u00e4ntes Grab?"], "title": "An den Abendstern", "author": "Matthisson, Friedrich von", "year": 1785 "36385_s4.4": {"lines": ["Wende, weh, sie t\u00f6dten,", "Wende deine Blicke,", "Ende meinem Herzen", "Diesen Zauberbann!", "Aufgel\u00f6st in Sehnsucht,", "Nimmermehr begn\u00fcgter,", "Schmacht' ich hin und sterbe,", "Sterb' an einem Gl\u00fccke,", "Das die Brust, die schwache,", "Menschliche, nicht fassen,", "Nicht ertragen kann."], "title": "[Sch\u00f6n, wie Thirza, bist du]", "author": "Daumer, Georg Friedrich", "year": 1837 "35772_s4.4": {"lines": ["Birke, wie bist du sch\u00f6n,", "Die du im goldnen Kleid,", "Sch\u00f6ne Matrone, stehst.", "Ruhig in klarer Luft", "H\u00e4ngt nun das fahle Gezweig,", "Wie die Arme der Frau", "L\u00e4ssig herab im erm\u00fcdeten Schoo\u00dfe ruhn."], "title": "2.", "author": "Bierbaum, Otto Julius", "year": 1887 "12720_s4.4": {"lines": ["Vergang'ne Jahre sind herangekrochen,", "Ein stummes Weinen ihren Leib durchbebt,", "Gef\u00fchle tr\u00e4umt sie, stark und ungebrochen,", "Dereinst erlebt."], "title": "\n ", "author": "D\u00f6rmann, Felix", "year": 1857 "43196_s4.4": {"lines": ["Und es ist das ewig Eine,", "Das sich vielfach offenbart;", "Klein das Gro\u00dfe, gro\u00df das Kleine,", "Alles nach der eignen Art.", "Immer wechselnd, fest sich haltend,", "Nah und fern und fern und nah;", "So gestaltend, umgestaltend \u2013", "Zum Erstaunen bin ich da."], "title": "Parabase", "author": "Goethe, Johann Wolfgang", "year": 1819

tnhaider commented 3 years ago

Issue fixed by complete redesign.