OPUS4 / opus4-search

OPUS 4 Solr search.
Other
1 stars 4 forks source link

Umstieg auf aktuelle Solr Version (9.x) #35

Closed j3nsch closed 1 year ago

j3nsch commented 2 years ago

Es gibt Sicherheitsprobleme mit älteren Version von Solr. Daher sollte auf Solr 8.11.1 oder neuer umgestiegen werden. Momentan setzen wir Solr 7.7.2 ein. Es muss geprüft werden, welche Änderungen notwendig sind, um unser existierendes Schema mit der neuen Version zu nutzen.

j3nsch commented 2 years ago

Momentan wird noch Solr 8.11.0 als Download angeboten.

https://solr.apache.org/downloads.html

Damit können wir schon mal die Kompatibilität testen.

j3nsch commented 1 year ago

Mittlerweile sollte gleich auf Solr 9 umgestiegen werden. Das sollte erst erfolgen, wenn mit OPUS 4.9 die Unterstützung von PHP 7 beendet wurde. Bis dahin müssen zwei Versionen von opus4-search gepflegt werden, was die Umstellung auf eine neue Solr-Version schwieriger macht und zusätzliche Zeit kosten würde. Es ist auch unklar, ob die alte Solarium-Version, die für PHP 7.1 verwendet werden muss, kompatibel zu Solr 9 ist.

FYI @CAWinter

j3nsch commented 1 year ago

Für diese Aufgabe wurde der Branch upgradeSolr35 angelegt. Der Wechsel zu Solr 9 wird nur für PHP 8 erfolgen. Es geht erst einmal darum herauszufinden welche Probleme es dabei gibt. Im ersten Schritt sollte das Vagrantfile und der GitHub Workflow so aktualisiert werden, dass Solr 9 anstelle von 7 verwendet wird, damit getestet werden kann.

In der Vergangenheit hat es manchmal gereicht, die Versionsnummer in unserer Solr-Konfiguration (schema.xml und solrconfig.xml) anzupassen. Es ist aber wahrscheinlich, dass sich mehr geändert hat und die Konfiguration umfangreicher angepasst werden muss.

extracts commented 1 year ago

In der Solr 9.3 Doku steht unter Indexing with Solr Cell and Apache Tika:

Solr uses code from the Tika project to provide a framework for incorporating many different file-format parsers such as Apache PDFBox and Apache POI into Solr itself.

Working with this framework, Solr’s ExtractingRequestHandler uses Tika internally to support uploading binary files for data extraction and indexing. Downloading Tika is not required to use Solr Cell.

When this framework was under development, it was called the Solr Content Extraction Library, or CEL; from that abbreviation came this framework’s name: Solr Cell. The names Solr Cell and ExtractingRequestHandler are used interchangeably for this feature.

Sprich, "Solr Cell" ist Solr's Framework zur Extraktion & Indizierung von Volltexten und nutzt unter der Haube Tika.

OPUS4/opus4-search@48fb074 entspricht im Wesentlichen der in der Doku beschriebenen solrconfig.xml Konfiguration für Solr Cell/Tika. Die auskommentierten Zeilen werden nach meinem Verständnis für Solr 9.3 nicht mehr benötigt.

j3nsch commented 1 year ago

Für OPUS 4 mit PHP 8 ist nun SOLR 9.x erforderlich. Getestet wird mit SOLR 9.4.0.