mikhaylova-daria / NER

0 stars 1 forks source link

1-ый безлайн по созданию корпуса #1

Closed mikhaylova-daria closed 8 years ago

mikhaylova-daria commented 8 years ago

Сформировать безлайн по парсингу и разметке. Сгенерировать корпус из 50-80 Мб текстов с валидной разметкой.

mikhaylova-daria commented 8 years ago

Сгенерировали 4 Гб текстов, затем исключили из корпуса те, разметка которых заведома некорректна (префикс упоминания в файле json не соответствует префиксу слова, расположенному по смещению, указанному для этого упоминания в json, порядка 25% отсеяно)