OpenCorpora / opencorpora

A web-based engine for creating and annotating textual corpora
http://opencorpora.org
GNU General Public License v2.0
241 stars 23 forks source link

Задача NLP: извлечение санскритских имен собственных #867

Closed evgeniarubanova closed 4 years ago

evgeniarubanova commented 4 years ago

Добрый день! Меня зовут Женя, я пишу дипломную работу, одной из задач которой является извлечение санскритских имен собственных (н-р., "вайшампаяны", "Кала", "вед") из русского текста (Махабхараты) и их лемматизирование. На данный момент мне удалось извлечь бОльшую их часть с помощью проверки на вхождение в словарь Зализняка и Ефремовой. Для лемматизации использую Deeppavlov (pymorphy2 справляется хуже), дает точность (именно этих слов) 47%, род определяет с точностью в 75%.

Может быть, вы знаете какие-то инструменты, которые могут быть полезны в данной задаче? Заранее спасибо за ответ!

grandsbor commented 4 years ago

Я не знаю. @svbichineva @Shimorina Может, вы что-то знаете?

svbichineva commented 4 years ago

Я тоже не знаю. Единственное, в pymorphy2 по умолчанию скорее всего стоит наш старый словарь, его как-то можно обновить до последней версии. @Shimorina, расскажи как.

Shimorina commented 4 years ago

У меня тоже нет идей. Про словарь, например, написано тут.

Shimorina commented 4 years ago

@evgeniarubanova Ещё можно спросить ваш вопрос в телеграм-чате по NLP: https://telegram.me/natural_language_processing Там много народу