ARUP-CAS / aiscr-digiarchiv-2

Digitální archiv AMČR
https://digiarchiv.aiscr.cz/
GNU General Public License v3.0
3 stars 0 forks source link

Oddělovače slov ve fulltextu #100

Open motyc opened 3 years ago

motyc commented 3 years ago

Ve fulltextovém vyhledávání je nešikovné, že jako oddělovače slov slouží i jiné znaky než mezera. Např. při vyhledávání podle ID je pak nutné vždy používat uvozovky. Bylo by možné to omezit pouze na mezeru a všechny ostatní znaky chápat jako součást jednoho slova?

albertoh commented 3 years ago

Promin za prodlevu. Je to mozne, ale meli bychom zkoumam pripadne problemy v jinich polich, kde jsou treba zavorky

motyc commented 3 years ago

Díky za reakci. Úplně nerozumím, v jakém smyslu to souvisí. Můžeš to prosím trošku rozvést?

albertoh commented 3 years ago

Pro kazdou entitu pouzivame seznam poli pres ktere hledame fulltextove. Je to v konfiguraci. Napriklad, pro dokument pouzivame pole popis. Pokud v popisu mame takovy text "... výstavba plynovodu v rámci stavby "Chodský hrad, stavební úpravy ..." a budeme "tokenizovat" (oddelovat hledaci vyrazy) podle mezer, vyraz bude "Chodský a ne jen Chodský, a nebo hrad, (s carkou). Pri hledani hrad, nenajdeme ho

motyc commented 3 years ago

Aha, už rozumím, to je pravda. Pak bych tedy asi jen otočil logiku, aby oddělovač explicitně nebyla pomlčka/spojovník ("-"/"–") a zbytek bych nechal, jak je. To by mělo být bez problémů, ne?

albertoh commented 3 years ago

Jde to, ale musi se to programovat jako plugin pro SOLR, delat svuj tokenizer. To vsechno ma na starosti primo SOLR

motyc commented 3 years ago

Dobře díky. Zatím to nechávám jako otevřený požadavek a budeme to případně řešit v kontextu dalšího vývoje.