natasha / corus

Links to Russian corpora + Python functions for loading and parsing
MIT License
277 stars 20 forks source link

Russian Dialogs Flibusta Picabu #65

Open kuk opened 3 years ago

kuk commented 3 years ago

https://app.slack.com/client/T040HKJE3/C04N3UMSL/thread/C04N3UMSL-1607717401.453500

Привет, распарсил дохулиард диаологовых данных на русском языке (пикабу и диалоги из книг). 80+ гигов данных, плюс минус 200 миллионов диалогов (сложно точно посчитать, потому что диалоги с пикабу в формате дерева). Ссылка на пикабу: https://drive.google.com/file/d/1XYCprTqn_MlzDD9qgj7ANJkwFigK66mv/view?usp=sharing Ссылка на флибусту: https://drive.google.com/file/d/1Efe7QAstdg4zK5Ch4zfqw0OV7TPF12tV/view?usp=sharing Репозиторий с парсерами (там же описан формат файлов и там же есть пример парсера пикабушного дерева с диалогами): https://github.com/alexeykarnachev/dialogs_data_parsers

Den4ikAI commented 2 years ago

Ссылки на файлы не работают( Можете опубликовать диалоги с флибусты повторно?

kuk commented 2 years ago

@alexeykarnachev Не сохранились выгрузки?