esbatmop / MNBVC

MNBVC(Massive Never-ending BT Vast Chinese corpus)超大规模中文语料集。对标chatGPT训练的40T数据。MNBVC数据集不但包括主流文化,也包括各个小众文化甚至火星文的数据。MNBVC数据集包括新闻、作文、小说、书籍、杂志、论文、台词、帖子、wiki、古诗、歌词、商品介绍、笑话、糗事、聊天记录等一切形式的纯文本中文数据。
MIT License
3.36k stars 231 forks source link

数据分发有考虑过使用S3进行存储和提供下载吗 #40

Open chinoll opened 10 months ago

chinoll commented 10 months ago

考虑提供和commoncrawl一样的下载方式吗

xclimbing commented 9 months ago

考虑提供和commoncrawl一样的下载方式吗

目前数据分发有三个渠道:百度网盘和威力同步提供目前搜集到的所有数据(包括清洗过及未清洗的原始数据);而清洗过的数据会通过huggingface分发。详见官方主页 (https://mnbvc.253874.net/) 相关说明。

MNBVC是一个公益项目,目前人力和资源都有限,将来是否提供其他分发方式,待讨论。