Hier wie angekündigt die Tests mit Omnipage. Die Tests sind natürlich gerade bei den Dokumenten etwas unscharf, bei denen der Text mehrspaltig angeordnet ist und es damit keine eindeutig richtige Serialisierung gibt. Die Ergebnisse von OmniPage, die versuchen, das Layout des PDFs/TIFFs 1:1 in eine Text-Datei zu überführen (omnipage-formatted), haben die geringste Levenshtein-Distanz. Für eine Volltextsuche wären aber wohl die nicht-formatierte (omnipage-plain) Fassung tauglicher, weil dann Fließtextblöcke in der Textdatei auch wieder zu ununterbrochenen Fließtextblöcken werden - auch wenn die Levenshtein-Distanz hier etwas größer ist.
Hier wie angekündigt die Tests mit Omnipage. Die Tests sind natürlich gerade bei den Dokumenten etwas unscharf, bei denen der Text mehrspaltig angeordnet ist und es damit keine eindeutig richtige Serialisierung gibt. Die Ergebnisse von OmniPage, die versuchen, das Layout des PDFs/TIFFs 1:1 in eine Text-Datei zu überführen (omnipage-formatted), haben die geringste Levenshtein-Distanz. Für eine Volltextsuche wären aber wohl die nicht-formatierte (omnipage-plain) Fassung tauglicher, weil dann Fließtextblöcke in der Textdatei auch wieder zu ununterbrochenen Fließtextblöcken werden - auch wenn die Levenshtein-Distanz hier etwas größer ist.