bundestag / plpr-scraper

Parser für die Plenarprotokolle des Bundestags
https://www.bundestag.de/plenarprotokolle
MIT License
20 stars 10 forks source link

Anwendung auf vorangegangene Wahlperioden #1

Open cschwem2er opened 8 years ago

cschwem2er commented 8 years ago

Hi,

erstmal vielen Dank für die Mühe! :) Würde der Parser auch auf zu txt konvertierten PDF's (z.B: mit pdf2text) früherer Wahlperioden funktionieren? Soweit ich das nachvollziehen kann liegen Textfiles der Protokolle nur für WP17 und WP18 vor. Ich würde gerne für ein Forschungsprojekt auch Protokolle vorangegangener Wahlperioden verarbeiten.

pudo commented 8 years ago

Im Prinzip schon, nur produzieren pdf-Konverter wie pdf2text den Text normalerweise mit jeder Menge extra Zeilenumbrüchen und Leerzeichen etc. - die müsste man erst mal aufräumen, um den Text systematisch parsebar zu machen.