Open cschwem2er opened 8 years ago
Im Prinzip schon, nur produzieren pdf-Konverter wie pdf2text den Text normalerweise mit jeder Menge extra Zeilenumbrüchen und Leerzeichen etc. - die müsste man erst mal aufräumen, um den Text systematisch parsebar zu machen.
Hi,
erstmal vielen Dank für die Mühe! :) Würde der Parser auch auf zu txt konvertierten PDF's (z.B: mit pdf2text) früherer Wahlperioden funktionieren? Soweit ich das nachvollziehen kann liegen Textfiles der Protokolle nur für WP17 und WP18 vor. Ich würde gerne für ein Forschungsprojekt auch Protokolle vorangegangener Wahlperioden verarbeiten.