Closed 40rn05lyv closed 2 years ago
Вітання, наразі у нас реалізовано лише лематизатор, а не стеминг, тож невідомі слова лишаються, як є. Теоретично в задумах є спробувати зробити деякий стеминг або евристичний лематизатор, зокрема це дуже б допомогло українському аналізатору повнотекстового пошуку в Lucene/ElasticSearch (що використовується в українській Вікіпедії) і навіть є деякі напрацювання (зокрема аналіз можливих закінчень слів). Але українська морфорлогія досить складна тож якісна реалізація потребує значного зусилля, і поки важко сказати, коли буде час це зробити.
Ясно, дякую за відповідь :)
Доброго дня, Шукав імплементацію стемера українською і натрапив на цей проект. Цікавить як буде поводитись алгоритм лематизації, якщо задати слово, якого немає у словнику? Залишить його без змін чи все ж якось обробить? Не знайшов відповідь на це у описі проекту. Ну і чи планується імплементувати таку функціональність у майбутньому?