Open Desklop opened 5 years ago
@Desklop Владислав, здравствуйте! Большое спасибо за модель! Не могли бы выложить заодно и корпус для обучения?
@olegtarasov да, в моём репозитории вы можете найти всю необходимую информацию: Russian subtitles dataset
@Desklop Круто, спасибо! Поисследуем :)
Посмотрите так же на Pro
версию, она включает в себя большую модель (~2 Гб. данных) обученную на википедии, новостях, субтитрах (не только из taiga, но и из opensubtitles.org), литературе. Исходные данные так же доступны.
JamSpellPro доступна на jamspell.com
Здравствуйте, я тут обучил JamSpell на наборе данных из русских субтитров (примерно 5 млн предложений) к 347 различным сериалам, взятыми из корпуса Taiga. После очистки данных получился текстовый файл с субтитрами размером 310Mb.
Результаты оценки модели:![result_evaluate](https://user-images.githubusercontent.com/37866973/49441090-84549d80-f7d6-11e8-9f5e-a736f9c6b3e8.png)
Скачать можно из моего Google Drive: jamspell_ru_model_subtitles.bin.zip (58Mb)
PS. Буду только рад, если добавите эту модель к списку готовых моделей в README проекта :)