Open j3nsch opened 2 years ago
Eine Analyse des Codes hat ergeben, dass die MIME-Type Information momentan an nur zwei Stellen genutzt wird:
- bei der Indexierung: dort gibt es einen Check, der nur bestimmte MIME-Types überhaupt für die Extraktion betrachtet (ursprünglich wurde dieser Check benutzt, um das korrekte Extraktionsprogramm aufzurufen)
- in der Frontdoor zur Darstellung des korrekten Icons
Ich habe herausgefunden, dass man den MIME-Type auch von Solr CELL bestimmen lassen kann (wir verwenden Solr CELL bereits für die Volltextextraktion). Hier mal ein Beispielaufruf für ein PDF-Dokument in server/tests/fulltexts/91:
curl 'http://opus4ci.zib.de:8984/solr/opus/update/extract?extractOnly=true&indent=true' --data-binary @test.pdf -H 'Content-type:'
korrektes Resultat: application/pdf
Da die Frontdoor erst angezeigt wird, nachdem das Dokument in den Index aufgenommen wurde, können wir statt der momentanen MIME-Type mittels php auch die Bestimmung im Rahmen der Volltextextraktion durchführen.
Macht der Check vor der Volltextextraktion Sinn, damit niemand z.B. Tar-Balls oder Bilder indexieren lässt?
Kann Extraktion und MIME-Type Bestimmung in einem Schritt ausgeführt werden oder müssen die Daten zweimal zu Solr geschickt werden?
Macht es Sinn SOLR Cell für die Ermittlung des MIME-Type von Dateien einzusetzen?
Intern: https://tickets.zib.de/jira/browse/OPUSVIER-611