PDF-Dateien, die nicht extrahiert werden können

OPUS4 / opus4-search

OPUS 4 Solr search.

Other

1 stars 4 forks source link

Es gibt einzelne PDF-Dateien, die nicht extrahiert werden könen. Bei ihnen gibt es in Tika, dem PDFParser, der von Solr verwendet wird, eine Fehlermeldung.

Wenn diese Dateien mit externen Tools validiert werden gibt es bei einigen entsprechende Fehlermeldungen, andere sind anscheinend gültige Dateien.

Diese Dateien müssen leicht auffindbar sein. Außerdem müssen wir schauen, ob es Tools gibt, die es ermöglichen Text auch von fehlerhafte PDF Dateien zu extrahieren.

Wir sollten auch Tests mit der neuesten Solr-Version für die Extraktion durchführen.

OPUS4 / opus4-search

PDF-Dateien, die nicht extrahiert werden können #61