brown-uk / nlp_uk

This is a project to demonstrate NLP API from LanguageTool for Ukrainian language.
GNU General Public License v3.0
72 stars 13 forks source link

Лематизація/стемінг слів, яких немає у словнику #7

Closed 40rn05lyv closed 2 years ago

40rn05lyv commented 6 years ago

Доброго дня, Шукав імплементацію стемера українською і натрапив на цей проект. Цікавить як буде поводитись алгоритм лематизації, якщо задати слово, якого немає у словнику? Залишить його без змін чи все ж якось обробить? Не знайшов відповідь на це у описі проекту. Ну і чи планується імплементувати таку функціональність у майбутньому?

arysin commented 6 years ago

Вітання, наразі у нас реалізовано лише лематизатор, а не стеминг, тож невідомі слова лишаються, як є. Теоретично в задумах є спробувати зробити деякий стеминг або евристичний лематизатор, зокрема це дуже б допомогло українському аналізатору повнотекстового пошуку в Lucene/ElasticSearch (що використовується в українській Вікіпедії) і навіть є деякі напрацювання (зокрема аналіз можливих закінчень слів). Але українська морфорлогія досить складна тож якісна реалізація потребує значного зусилля, і поки важко сказати, коли буде час це зробити.

40rn05lyv commented 6 years ago

Ясно, дякую за відповідь :)