esbatmop / MNBVC

MNBVC(Massive Never-ending BT Vast Chinese corpus)超大规模中文语料集。对标chatGPT训练的40T数据。MNBVC数据集不但包括主流文化,也包括各个小众文化甚至火星文的数据。MNBVC数据集包括新闻、作文、小说、书籍、杂志、论文、台词、帖子、wiki、古诗、歌词、商品介绍、笑话、糗事、聊天记录等一切形式的纯文本中文数据。
MIT License
3.49k stars 246 forks source link

huggingface数据集 #17

Closed lwmlyy closed 1 year ago

lwmlyy commented 1 year ago

hf上的分类数据集是微力或云盘的一个子集吗

lwmlyy commented 1 year ago

另外,20230320.zip云盘下载的文件内容是代码,中文语料为什么要包含大量github代码?

silverriver commented 1 year ago

hf上的分类数据集是微力或云盘的一个子集吗

是的

silverriver commented 1 year ago

另外,20230320.zip云盘下载的文件内容是代码,中文语料为什么要包含大量github代码?

代码数据对于提升模型的性能有较大帮助,一个高质量的数据集应该包含着部分数据。

esbatmop commented 1 year ago

在我们的AI观中,代码语料是核心。代码语料每个符号都有用,是最完美的语料。 现有的各种代码数据集里,并没有很好的处理编码问题,导致gbk等编码的有中文注释的代码是缺失的,并且有很多过滤规则删除了很多有价值的代码,所以我们得重做。