StabiBerlin / sbb-relevance-test

Specs for relevance of stabikat search
MIT License
3 stars 1 forks source link

Reviews identifizieren #23

Open duncdrum opened 10 months ago

duncdrum commented 10 months ago

Brauchen wir eine Funktion die reviews erkennt? Hintergrund ist die unterschiedliche Auszeichnung von Rezensionen . Bei den bisherigen Suchbeispielen genügen einfache checks ('not.contain', 'Book Review') aber um verschiedene Formen und Sprachen von Rezensionen zu identifizieren müssten wir wesentlich tiefer in die Trickkiste greifen, was die Komplexität erhöht.

annekauf commented 10 months ago

Schwierig, weil: die Daten geben es ohnehin nicht her, Rezensionen halbwegs gesichert zu erkennen (mein Kenntnisstand). Daher mein Ansatz: wir testen die einfachen Checks, und wenn das Ergebnis eine Verbesserung zum jetzigen Stand bringt, belassen wir's dabei. Ggf. würde ich das Thema danach als durch einfaches Schrauben am Ranking nicht zu lösen ans Projekt-Team weiterspielen. Was meinst Du?

annekauf commented 2 months ago

nochmal dumm nachgefragt "die Funktion ('not.contain', 'Book Review') kann nicht in der yaml verankert werden, oder? (wäre ja schön, wenn es ginge...)

annekauf commented 2 months ago

elektr. Rezension, Pflichtfeld lt. Verbundkatalogisierungs-Regeln, MARC-Feld 856$3 (="Spezifische Materialangabe" / "Bezugswerk"); PICA-Feld: 009Q Forschungsstand heute: Feld ist nicht im SOLR-/VuFind-Index enthalten; evtl. über VZ veranlassen? Falls ja: via Indra Heinrich

annekauf commented 2 months ago

fiddling with yaml, lines 498ff (not active): [bf, 'title: -review'] DismaxHandler: edismax FilterQuery: "title -review"

Beware: edismax doesn't work in "allfields" currently

Reference: https://lucene.apache.org/core/2_9_4/queryparsersyntax.html

annekauf commented 2 months ago

Rezension: das Feld "genre_facet" enthält "most of subject heading fields"; kursorische Analyse im StabiKat: jawoll, in diesem Feld steht oft Rezension. Also evtl. hier sowas wie "if genre_facet = Rezension" hart diskriminieren - und gucken, was passiert... (ggf. zusätzl. zu demselben Vorgehen in "allfields_unstemmed" - könnte das Problem der Titel mit "Review" abfangen, wenn das Diskriminieren nicht NUR über "allfields" und/oder "title" läuft.