OPUS4 / opus4-search

OPUS 4 Solr search.
Other
1 stars 4 forks source link

PDF-Dateien, die nicht extrahiert werden können #61

Open j3nsch opened 2 years ago

j3nsch commented 2 years ago

Es gibt einzelne PDF-Dateien, die nicht extrahiert werden könen. Bei ihnen gibt es in Tika, dem PDFParser, der von Solr verwendet wird, eine Fehlermeldung.

Wenn diese Dateien mit externen Tools validiert werden gibt es bei einigen entsprechende Fehlermeldungen, andere sind anscheinend gültige Dateien.

Diese Dateien müssen leicht auffindbar sein. Außerdem müssen wir schauen, ob es Tools gibt, die es ermöglichen Text auch von fehlerhafte PDF Dateien zu extrahieren.

Wir sollten auch Tests mit der neuesten Solr-Version für die Extraktion durchführen.

j3nsch commented 2 years ago

Solr 8.6 löst das Problem im Augenblick auch nicht, wobei das nicht endgültig gesagt werden kann. Dadurch, dass wir auf eine ältere PHP Version beschränkt sind, kann auch die neueste Version von Solarium nicht verwendet werden. Wir verwenden 3.8.1 während 6 die aktuelle Version ist.

Ich glaube nicht, dass dieses Problem hier durch die neueren Versionen verschwinden wird, aber es ist es macht deutlich wie wichtig der Umstieg auf ZF3/Laminas ist, damit wir mit den aktuellen Versionen arbeiten können und nicht Zeit verwenden, um vielleicht schon behobene Probleme zu analysieren.