Closed lwmlyy closed 1 year ago
另外,20230320.zip云盘下载的文件内容是代码,中文语料为什么要包含大量github代码?
hf上的分类数据集是微力或云盘的一个子集吗
是的
另外,20230320.zip云盘下载的文件内容是代码,中文语料为什么要包含大量github代码?
代码数据对于提升模型的性能有较大帮助,一个高质量的数据集应该包含着部分数据。
在我们的AI观中,代码语料是核心。代码语料每个符号都有用,是最完美的语料。 现有的各种代码数据集里,并没有很好的处理编码问题,导致gbk等编码的有中文注释的代码是缺失的,并且有很多过滤规则删除了很多有价值的代码,所以我们得重做。
hf上的分类数据集是微力或云盘的一个子集吗