buriy / spacy-ru

Russian language models for spaCy
MIT License
242 stars 29 forks source link

Как получить `nerus.jsonl` для тренировки модели? #28

Open sbushmanov opened 4 years ago

sbushmanov commented 4 years ago

Собственно вопрос в шапке. Тривиальным ответом, наверное, было бы: конвертировать из исходника:
spacy convert nerus.conllu -t 'jsonl' > nerus.jsonl Но, непонятно что делать с токенизатором, т.к. правила токенизации для встроенного spacy токенизатора и nerus.conllu отличаются. Был бы признателен за ссылку или пример скрипта конвертации nerus.conlluв nerus.jsonl.

buriy commented 4 years ago

Ну, появится один процент ошибок из-за неправильной токенизации. Забить на это пока. Теоретически, там есть способ сматчить токенизации, но это надо глубоко копать.