OPUS4 / opus4-search

OPUS 4 Solr search.
Other
1 stars 4 forks source link

Indexierung mit Solarium produziert häufiger Fehler #83

Open j3nsch opened 2 years ago

j3nsch commented 2 years ago

Mit der Solarium Implementation schlägt die Extraktion von größeren PDF Dateien fehl. Dateien bis etwa 2 MB scheinen zu funktionieren, größere Dateien werden nicht indexiert. Es scheint kein Problem mit dem Solr Server zu sein, da die Indexierung der selben Dateien mit OPUS 4.4.5 (alte Implementation) zu funktionieren scheint.

Die Probleme bei der Indexierung scheinen im Zusammenhang mit der Volltextextraktion zu stehen.

Intern: https://tickets.zib.de/jira/browse/OPUSVIER-3544

j3nsch commented 2 years ago

Es werden nur Dateien extrahiert, die in der Frontdoor sichtbar sind.

j3nsch commented 2 years ago

Ich habe die ersten beiden Dateien ausprobiert und kann den Fehler bei mir reproduzieren. Ich sehe im Augenblick keinen Weg das Problem zu beheben. Wenn man die beiden PDF-Dateien im Internet validieren lässt, wird 493 als korrekt gemeldet. Bei 935 werden Fehler im PDF gemeldet, die den Fehlermeldungen in OPUS entsprechen. Tika, der PDF Parser in Solr, kommt anscheinend mit beiden Dateien nicht klar.

Wir werden dafür noch ein Ticket angelegen, aber im Augenblick kann ich da nichts machen. Wichtig ist es erst einmal diese Dateien leicht auffindbar zu machen. Jemand anderes als ich muss sich dann mal anschauen, welche Dateien davon erkennbare Fehler haben, vielleicht kann die Vollversion von Acrobat (die ich nicht habe) weiter Informationen liefern.

Ansonsten können wir nur hoffen, dass mit neueren Versionen von TIka, diese Dateien, zumindest die korrekten geparst werden können.