LIBCAS / DL4DH-Feeder

DL4DH Feeder
0 stars 0 forks source link

Ladění - vyhledávání #25

Open motyc opened 1 year ago

motyc commented 1 year ago
motyc commented 1 year ago

Doplňuji diskusi z emailu:

@motyc

1) Vyhledávání přes řádek v záhlaví - z čeho všeho zde čerpá našeptávač a kde všude se hledá? Rozumím tomu dobře, že nyní nelze hledat v OCR napříč publikacemi?

2) Hledání na stránkách - Jak vlastně funguje hledání podle volných řetězců? Zohledňují se nějak lemmata apod.? Jde nějak vyhledávat podle obohacení vzniklých z UDPipe?

@sekanIQ

1) Snaha bola zachovať aktuálnu funkcionalitu Krameria, ktorý v danom poli našeptáva len podľa názvu publikácie. Pokiaľ vyberiete nejakú nametag kategóriu, samozrejem vyhľadáva tam. OCR nie je v našeptávači používané. V Krameriovi je možné vyhľadávať v OCR v rámci pokročilého vyhľadávania, pokiaľ vyberiete možnosť hladať vo všetkom. Podobne to chceme robiť aj u nás, ale nakoľko text OCR u nás neindexujeme (aby nebola duplicita týchto dát), tak nevieme kombinovať dotaz nad nameTag údajmi (ktoré sú len v našom Solr) a zároveň nad OCR (ktoré je len v Solr Krameria). Preto uvažujeme rozdeliť kategóriu hladať vo všetkom na hľadať vo všetkých základných metadátach (aktuálne položka ALL_BASIC_METADATA) a hľadať vo všetkých nametag dátach (aktuálne položka ALL_NAMETAG_DATA v pokročilom vyhľadávaní, bude premenovaná/lokalizovaná). 2) Vyhľadávania na stránkach využíva highlighting zo Solr Krameria nad OCR, kde vyhľadáva slova, ktorá začínajú ako zadaný výraz. Zároveň dopĺňa do výsledkov aj stránky, ktoré obsahujú vyhľadávaný výraz v nametag rozpoznaných entitách (tu sa berú do úvahy len stránky, ktorých rozpoznaná entita sa presne rovná zadanému text, predpokladá sa výber konkrétnej entity z našeptávače). Lemmata tak v prípade nametagu nie sú zohľadňované. Momentálne vyhľadávať v údajoch z obohatenia z UDPipe vyhľadávať nejde.

@stranak

Kdybyste přidali index na lematizovaný text z UDPipe, možná byste nemuseli řešit to hledání v textu přímo z OCR ze SOLRu Krameria. Není to sice úplně to stejné, lematizovaný text, vs. formy se stemmingem (předpokládám) v Krameriu, ale mohlo by to mít dost podobnou hodnotu.

@sekanIQ

Môžeme lematizovaný text z UDPipe využiť v prípade pokročilého vyhľadávania, tam by to riešilo problém s dotazovaním na Solr Krameria v prípade vyhľadávania v texte. V druhom bode je potrebný ale highlighter a ten si spolu s lematizovaným textom nevieme ešte predstaviť.