marians / cologne-ris-scraper

A python-based scraper for the Ratsinformationssystem (RIS) of Cologne, Germany
14 stars 4 forks source link

Tests mit OmniPage 19 + gecachte Ergebnisse des Differenz-Skripts #19

Closed CatoTH closed 10 years ago

CatoTH commented 10 years ago

Hier wie angekündigt die Tests mit Omnipage. Die Tests sind natürlich gerade bei den Dokumenten etwas unscharf, bei denen der Text mehrspaltig angeordnet ist und es damit keine eindeutig richtige Serialisierung gibt. Die Ergebnisse von OmniPage, die versuchen, das Layout des PDFs/TIFFs 1:1 in eine Text-Datei zu überführen (omnipage-formatted), haben die geringste Levenshtein-Distanz. Für eine Volltextsuche wären aber wohl die nicht-formatierte (omnipage-plain) Fassung tauglicher, weil dann Fließtextblöcke in der Textdatei auch wieder zu ununterbrochenen Fließtextblöcken werden - auch wenn die Levenshtein-Distanz hier etwas größer ist.

marians commented 10 years ago

Offensichtlich die bisher besten Ergebnisse. Danke!