esbatmop / MNBVC

MNBVC(Massive Never-ending BT Vast Chinese corpus)超大规模中文语料集。对标chatGPT训练的40T数据。MNBVC数据集不但包括主流文化,也包括各个小众文化甚至火星文的数据。MNBVC数据集包括新闻、作文、小说、书籍、杂志、论文、台词、帖子、wiki、古诗、歌词、商品介绍、笑话、糗事、聊天记录等一切形式的纯文本中文数据。
MIT License
3.49k stars 246 forks source link

压缩包版本记录? #35

Closed shenck0 closed 1 year ago

shenck0 commented 1 year ago

rt, 最好能在这里或wiki上增加一个压缩包版本信息, 比如某时间增加了多少或修改了某某压缩包, 方便使用者查看更新 另一个思路是, 每个数据有版本号, 如果该数据要变化, 就后续发布patch文件, 在之前数据(压缩包)不变的情况下用户可以应用patch, 这样避免更新时需要重新下载的尴尬, 另外也知道变化了哪些内容, 用户可以自行取舍

中文互联网奇观+1000 非常感谢!

esbatmop commented 1 year ago

你好,请使用微力保持更新。 压缩包变更可以看github的变更记录。

esbatmop commented 1 year ago

我们是这么考虑的: 1.我们数据集定位于预训练数据,国内未来能继续研究预训练的团队会比较少,这些团队建议使用微力来完整的进行数据同步,而且一次部署,一劳永逸。未来所有压缩包都会清洗成统一的n种jsonl格式,我们未来也会提供工具输入jsonl就知道是哪种格式了,方便各个预训练团队使用数据。 2.对于没有那么多算力的广大微调用户,建议直接使用我们清洗好的huggingface数据。 3.考虑数据打包、数据存储、数据分发的职能隔离,我们使用百度网盘在这多个职能团队之间传递打包好的数据。

shenck0 commented 1 year ago

明白了 感谢