OPUS4 / opus4-search

OPUS 4 Solr search.
Other
1 stars 4 forks source link

MIME-Type mit Solr ermitteln? #64

Open j3nsch opened 2 years ago

j3nsch commented 2 years ago

Macht es Sinn SOLR Cell für die Ermittlung des MIME-Type von Dateien einzusetzen?

Intern: https://tickets.zib.de/jira/browse/OPUSVIER-611

j3nsch commented 2 years ago

Eine Analyse des Codes hat ergeben, dass die MIME-Type Information momentan an nur zwei Stellen genutzt wird:

  1. bei der Indexierung: dort gibt es einen Check, der nur bestimmte MIME-Types überhaupt für die Extraktion betrachtet (ursprünglich wurde dieser Check benutzt, um das korrekte Extraktionsprogramm aufzurufen)
  2. in der Frontdoor zur Darstellung des korrekten Icons

Ich habe herausgefunden, dass man den MIME-Type auch von Solr CELL bestimmen lassen kann (wir verwenden Solr CELL bereits für die Volltextextraktion). Hier mal ein Beispielaufruf für ein PDF-Dokument in server/tests/fulltexts/91:

curl 'http://opus4ci.zib.de:8984/solr/opus/update/extract?extractOnly=true&indent=true' --data-binary @test.pdf -H 'Content-type:'

korrektes Resultat: application/pdf

Da die Frontdoor erst angezeigt wird, nachdem das Dokument in den Index aufgenommen wurde, können wir statt der momentanen MIME-Type mittels php auch die Bestimmung im Rahmen der Volltextextraktion durchführen.

Macht der Check vor der Volltextextraktion Sinn, damit niemand z.B. Tar-Balls oder Bilder indexieren lässt?

j3nsch commented 2 years ago

Kann Extraktion und MIME-Type Bestimmung in einem Schritt ausgeführt werden oder müssen die Daten zweimal zu Solr geschickt werden?