huggingface数据集 - Githubissues

esbatmop / MNBVC

MNBVC(Massive Never-ending BT Vast Chinese corpus)超大规模中文语料集。对标chatGPT训练的40T数据。MNBVC数据集不但包括主流文化，也包括各个小众文化甚至火星文的数据。MNBVC数据集包括新闻、作文、小说、书籍、杂志、论文、台词、帖子、wiki、古诗、歌词、商品介绍、笑话、糗事、聊天记录等一切形式的纯文本中文数据。

MIT License

3.49k stars 246 forks source link

huggingface数据集 #17

Closed lwmlyy closed 1 year ago

lwmlyy commented 1 year ago

hf上的分类数据集是微力或云盘的一个子集吗

lwmlyy commented 1 year ago

另外，20230320.zip云盘下载的文件内容是代码，中文语料为什么要包含大量github代码？

silverriver commented 1 year ago

hf上的分类数据集是微力或云盘的一个子集吗

是的

silverriver commented 1 year ago

另外，20230320.zip云盘下载的文件内容是代码，中文语料为什么要包含大量github代码？

代码数据对于提升模型的性能有较大帮助，一个高质量的数据集应该包含着部分数据。

esbatmop commented 1 year ago

在我们的AI观中，代码语料是核心。代码语料每个符号都有用，是最完美的语料。现有的各种代码数据集里，并没有很好的处理编码问题，导致gbk等编码的有中文注释的代码是缺失的，并且有很多过滤规则删除了很多有价值的代码，所以我们得重做。