Closed LiuChen19960902 closed 10 months ago
中文的肯定有的吧
我们没有验证,但应该重叠的部分应该可以忽略不计。我们开源的150B的数据来源和wudao完全不同,是从SkyPile整个大池子中的web text部分shuffle出来的。
最重要的,我们的数据质量远高于wudao。
我们没有验证,但应该重叠的部分应该可以忽略不计。我们开源的150B的数据来源和wudao完全不同,是从SkyPile整个大池子中的web text部分shuffle出来的。
最重要的,我们的数据质量远高于wudao。
你好,请问下你们是有什么依据来说你们的数据质量远高于wudao的数据质量呢?希望大佬解答疑惑,非常感谢!
我们没有验证,但应该重叠的部分应该可以忽略不计。我们开源的150B的数据来源和wudao完全不同,是从SkyPile整个大池子中的web text部分shuffle出来的。 最重要的,我们的数据质量远高于wudao。
你好,请问下你们是有什么依据来说你们的数据质量远高于wudao的数据质量呢?希望大佬解答疑惑,非常感谢!
wudao的开源数据我现在手头没有,但很早之前我检查过。记得里面有很多noise,很多很显然是数据预处理不完善带来的artifact,例如突兀的出现一个空的括号,或者截断的句子,或者句子中间出现的无关字符串。我们SkyPile的数据预处理过程更加完善,虽然不能完全避免噪声,但其比例大大降低。
如Tianwen所解释,Skywork在训练时没有使用过wudao的数据,所以没有针对wudao进行重叠分析。考虑到SkyPile开源数据均选取子2021年43周以后,而wudao开源于2021年7月份,重叠部分应该不会很大。如果想混合使用且不太放心,可以考虑进一步去重。 另外,在质量方面,从我们内部的一些早期测评分析,SkyPile在让模型学习到额外的知识信息以及语言的通顺度这两个方面看,质量是高于wudao的。您可以考虑使用同样规模训练两个3B/7B的小模型,然后对下游任务效果进行比对来验证下我们的观点。
“远高于wudao的数据质量” 太真实了,哈哈。当年干过跟大佬一样的检查。
如Tianwen所解释,Skywork在训练时没有使用过wudao的数据,所以没有针对wudao进行重叠分析。考虑到SkyPile开源数据均选取子2021年43周以后,而wudao开源于2021年7月份,重叠部分应该不会很大。如果想混合使用且不太放心,可以考虑进一步去重。 另外,在质量方面,从我们内部的一些早期测评分析,SkyPile在让模型学习到额外的知识信息以及语言的通顺度这两个方面看,质量是高于wudao的。您可以考虑使用同样规模训练两个3B/7B的小模型,然后对下游任务效果进行比对来验证下我们的观点。
大佬,现在数据集不能下载了,请问还有其他渠道可以获取到吗?
如Tianwen所解释,Skywork在训练时没有使用过wudao的数据,所以没有针对wudao进行重叠分析。考虑到SkyPile开源数据均选取子2021年43周以后,而wudao开源于2021年7月份,重叠部分应该不会很大。如果想混合使用且不太放心,可以考虑进一步去重。 另外,在质量方面,从我们内部的一些早期测评分析,SkyPile在让模型学习到额外的知识信息以及语言的通顺度这两个方面看,质量是高于wudao的。您可以考虑使用同样规模训练两个3B/7B的小模型,然后对下游任务效果进行比对来验证下我们的观点。
大佬,现在数据集不能下载了,请问还有其他渠道可以获取到吗?
有关部门正在审核数据,还请大家谅解
很感谢您开源的模型和数据集,在这里想请问您开源的150B数据集和悟道的200G有重叠嘛