Textované vyhľadávanie je nepoužiteľné - prvá oprava aspoň pre exactMatch

miroslavliska commented 5 months ago

Cez portál data.slovensko.sk je veľmi obtiažne niečo dohľadať cez funkcionalitu vyhľadávania. Napr. tento dataset s názvom "Harmonogram zverejňovania" https://data.slovensko.sk/datasety/9e3c773c-15c4-4c00-b639-f125f072a72e ktoré publikuje Min. Spravodlivosti nie je možné pomocou funkcie vyhľadávania vôbec nájsť. Nie je ani medzi výsledkami. Tým sa asi navyše stratí fazeta Poskytovateľ.

Ak ale viem, že tento dataset publikuje Min. Spravodlivosti, a zvolím si ho vo fazete, tak ho viem vizuálne nájsť na N-tom mieste. Nesmiem však kombinovať zvoleného poskytovateľa s názvom datasetu, tj. "Harmonogram zverejňovania", pretože opäť dostanem prázdne výsledky.

Toto vyhľadávanie je nepoužiteľné. :(

Prosím upraviť algoritmus vyhľadávania, aby išiel exact match, tj. nájdenie datasetu podľa jeho presného mena.

hornik-informo commented 5 months ago

Exact match je možný, ale bolo by z hľadiska UX krok späť, kedže počas písania by sa žiadne výsledky nezobrazovali. Naopak bežne idú vyhľadávania do menších zhôd ako napr. pomocou Levenshteinovej vzdialenosti. Zatiaľ sme upravili hľadanie bez akcentu. Ak trváte na presnej zhode, tak napíšte.

miroslavliska commented 5 months ago

Exact match je možný, ale bolo by z hľadiska UX krok späť, kedže počas písania by sa žiadne výsledky nezobrazovali. Naopak bežne idú vyhľadávania do menších zhôd ako napr. pomocou Levenshteinovej vzdialenosti. Zatiaľ sme upravili hľadanie bez akcentu. Ak trváte na presnej zhode, tak napíšte.

Samozrejme že netrvám. Rozumiem (do istej miery) rôznym novým technikám v rámci FULLTextu (aj Levenstheinu), avšak ak viem presný názov datasetu, tak ho musím byť schopný nájsť. Neviem či je to treba riešiť kombináciou, že ak sa nájde exactMatch tak vrátim len tieto výsledky, ak nenájdem exactMatch, tak potom skúšam closeMatch.

V prvom komente som ukázal, že ak viem iba názov datasetu, napr. "Harmonogram zverejňovania", tak ho nedokážem cez text vôbec nájsť. Musím aspoň vedieť, že poskytovateľ je MSSR a toto nastaviť vo fazete. Keď sme mali spoločný meeting s NASESom, tak presne chcel kolega nájsť dataset podľa mena v novom portáli, čo je podľa bude najčastejší prípad, a medzi výsledkami ho nenašiel.

hornik-informo commented 5 months ago

Potrebujeme sa uistiť, že vyhľadávanie môže ostať v aktuálnom stave.

miroslavliska commented 4 months ago

Dobry den, prosime aby boli textove vyhladavanie upravene tak, ze prilozene testcases budu splnene. 2024-02-14 WPNKOD-TestCases-Search.ods

[ ] ExactMatch pre nazov datasetu vo vyhladavani
[ ] ExactMatch pre nazov poskytovateľov vo vyhladavani
[ ] ExactMatch pre nazvoch Lokálnych katalógov
[ ] ExactMatch pre nazov poskytovateľov v správe poskytovateľov
[ ] ExactMatch v kombinácii s fazetami

Sucasne prikladam navrh od Mareka Sureka, ktory definuje, ako je mozne zlepsit vysledky:

Ahoj, na to sa pouziva taky “trik”. V principe ide o to ze si “Nazov datasetu” zaindexuje nie do 1 textFieldu ale do viacerych pricom pre kazdy field bude iny boost. V tomto pripade vzniknu napriklad 3 fieldy:

title -> toto bude exactMatch tj. type bude len obycajny string bez akychkolvek uprav (analyzerov) title_txt -> title ako text, kde sa pouzije stopfilter (odstrania sa napr. spojky ako “a”, “alebo”, … ktore nemaju zmysel), lowercase filter title_txt_no_accent -> title ako text kde sa pouzije stopfilter, lowercase filter a asciifilter (odstrani sa diakritika)

ked sa potom bude robit query tak to bude vyzera tak ze:

title^6 OR title_txt^4 OR title_txt_no_accent^2

A tak dosiahnete ten boost vo vyhladavani.