ceskaexpedice / kramerius-web-client

Novy klient pro Krameria
13 stars 14 forks source link

Řazení dle relevance - optimalizace #753

Open zabak opened 4 months ago

zabak commented 4 months ago

Příklad: https://ceskadigitalniknihovna.cz/search?q=reklama

Očekávané chování: pokud je slovo reklama v názvu, měly by dané dokumenty být na prvním místě, v pořadí sbírka - periodikum - vícesvazkové dílo - kniha (pak další druhy dokumentů) - článek. V ČDK jsem teď narazil i na dvě stránky - např zde https://ceskadigitalniknihovna.cz/search?q=reklama&page=3 se zobrazuje

image

https://ceskadigitalniknihovna.cz/uuid/uuid:42fc5d89-37ff-4480-aa1b-9c6d82f14256 což je asi chyba v indexu

Záměrně se zabývám je případem jednoslovného názvu a přesné shody vs. druh dokumentu.

Pak teprve mají následovat dokumenty kde se dané slovo vyskytuje ve fulltextu. I tam by ale mělo dojít k nějaké optimalizaci, protože teď to řazení na první pohled nedává smysl. Není to ani podle počtu výskytů, ani podle něčeho jiného. Hlavně u periodik ta informace o počtu výskytů nestačí, když nevím jestli je to napři jedna strana z 3, 30, nebo 300.000. Jak to pořadí vzniká?