bakwc / JamSpell

Modern spell checking library - accurate, fast, multi-language
https://jamspell.com/
MIT License
597 stars 99 forks source link

New russian language model #69

Open Desklop opened 5 years ago

Desklop commented 5 years ago

Здравствуйте, я тут обучил JamSpell на наборе данных из русских субтитров (примерно 5 млн предложений) к 347 различным сериалам, взятыми из корпуса Taiga. После очистки данных получился текстовый файл с субтитрами размером 310Mb.

Результаты оценки модели: result_evaluate

Скачать можно из моего Google Drive: jamspell_ru_model_subtitles.bin.zip (58Mb)

PS. Буду только рад, если добавите эту модель к списку готовых моделей в README проекта :)

olegtarasov commented 5 years ago

@Desklop Владислав, здравствуйте! Большое спасибо за модель! Не могли бы выложить заодно и корпус для обучения?

Desklop commented 5 years ago

@olegtarasov да, в моём репозитории вы можете найти всю необходимую информацию: Russian subtitles dataset

olegtarasov commented 5 years ago

@Desklop Круто, спасибо! Поисследуем :)

bakwc commented 3 years ago

Посмотрите так же на Pro версию, она включает в себя большую модель (~2 Гб. данных) обученную на википедии, новостях, субтитрах (не только из taiga, но и из opensubtitles.org), литературе. Исходные данные так же доступны.

JamSpellPro доступна на jamspell.com