terratensor / kob-library-app

Поиск по толстым книгам ВП СССР
https://kob.svodd.ru
BSD 3-Clause "New" or "Revised" License
0 stars 0 forks source link

Fixed common search stemming #31

Closed audetv closed 1 year ago

audetv commented 1 year ago

обычный поиск не выдавал нормальные результаты, я не подключил morphology = stem_ru, stem_en почему то решил, что по умолчанию должно работать. В обычном поиске на слове идиотия получил результат 1 параграф и понял, что раньше мне не казалось, что поиск работает странно, я просто переключался на концептуальный словарь и там все было ок (стеминг включен) Это обновление исправляет обычный поиск. 2023-06-29_23-21-58

https://kob.svodd.ru/?search%5Bquery%5D=%D0%B8%D0%B4%D0%B8%D0%BE%D1%82%D0%B8%D1%8F&search%5Bmatching%5D=&search%5Bmatching%5D=query_string&search%5Bdictionary%5D=0

iprst commented 1 year ago

Понятно. Я замечал в некоторых запросах «узость» выдачи, тоже подключал концептуальный словарь. Не придал значения.

audetv commented 1 year ago

ага, будут перезагрузка сейчас мин 5-10

audetv commented 1 year ago

все теперь все ок, нормальная выдача

iprst commented 1 year ago

Да, работает. Вижу увеличение количества результатов.

audetv commented 1 year ago

ага, что-то решил поискать по слову вагнер в поисковике, показано 7 записей в толстых книгах и все такие интересные: ★ https://svodd.ru/c6lbTB1b

iprst commented 1 year ago

Кстати из этой выдачи я кое-что цитировал совсем недавно, буквально 1-2 месяца назад. Как раз по причине Чемберлена и Бакунина. Уже не помню контекст. Такой ващ коммент в тему можно кидать, и пусть там будет.

iprst commented 1 year ago

Кстати, в контексте одного из комментариев, который кончается на двоеточие, видна проблема, которую наверное можно пофиксить — если строка кончается на двоеточие, то это не конец параграфа и не начало нового. Там далее в контексте идёт ещё пример с двоеточием, один за одним.

audetv commented 1 year ago

отправил в тему комментарий.

Кстати, в контексте одного из комментариев, который кончается на двоеточие, видна проблема, которую наверное можно пофиксить — если строка кончается на двоеточие, то это не конец параграфа и не начало нового. Там далее в контексте идёт ещё пример с двоеточием, один за одним.

да, с двоеточиями я думал в том же направлении, согласен. Скоро распознаем и создадим много полезных привил, и запрограммирую. Пока набираю статистику, и осмысливаю. Надо будет еще списки посмотреть в оригинальных файлах. и их научиться обрабатывать.