Ausschluß von Dateien von der Volltextextraktion

Gibt es Situationen in denen der Text von Dateien nicht extrahiert und für die Indexierung verwendet werden soll?

Gibt es zum Beispiel weiterhin Instanzen, die den Text ein Word und als PDF Datei erfassen? Word wird im Default nicht unterstützt, aber nehmen wir mal an das wird aktiviert. Sollte dann der Text zweimal im Index landen? Würde das unter Umständen die Gewichtung verändern?

Das ist im Augenblick ein theoretisches Problem, aber es wäre gut zu klären, ob es Anwendungsfälle gibt, bei denen Dateien gezielt (nicht nur über den Typ) von der Extraktion ausgeschlossen werden müssen.

OPUS4 / opus4-search

Ausschluß von Dateien von der Volltextextraktion #59