PolMine / polmineR

R-package for text mining with the Corpus Workbench (CWB) as backend
49 stars 9 forks source link

`read()` - last paragraph not formatted #241

Open ablaette opened 1 year ago

ablaette commented 1 year ago

The following chunk works, but in the output, the last paragraph is not formatted properly.

corpus("GERMAPARL2") %>%
  subset(protocol_lp == 7 & protocol_no == "83") %>%
  read()

Hermann Schmitt | 1974-03-13 | SPD

Die Sitzung ist eröffnet . Einziger Punkt der Tagesordnung ist : Wahl eines Stellvertreters im Ausschuß nach Artikel 77 des Grundgesetzes ( Vermittlungsausschuß ) Für den verstorbenen Abgeordneten Dr. Arndt ( Berlin ) hat die Fraktion der SPD den Abgeordneten Becker ( Nienberge ) als Stellvertreter des Abgeordneten Junghans im Ausschuß nach Art. 77 des Grundgesetzes ( Vermittlungsausschuß ) bestellt . Ich frage , ob das Haus damit einverstanden ist . — Ich höre keinen Widerspruch . Meine Damen und Herren , damit ist der Herr Abgeordnete Becker ( Nienberge ) zum Stellvertreter des Abgeordneten Junghans im Vermittlungsausschuß bestellt , und eine der kürzesten Sitzungen dieses Hauses ist damit zu Ende . Ich berufe die nächste Sitzung des Deutschen Bundestages auf heute , 13.00 Uhr , ein und schließe die Sitzung . ( Schluß der Sitzung : 9.01 Uhr . )

ablaette commented 1 year ago

Answer to myself: Formatting requires that the s-attribute for strucs is "p" or "p_type".

corpus("GERMAPARL2") %>%
  subset(protocol_lp == 7 & protocol_no == "83") %>%
  subset(p) %>%
  read()

The output we now see indicates that paragraphs are not annotated perfectly - but this is a GermaParl, not a polmineR issue.