SkyworkAI / Skywork

Skywork series models are pre-trained on 3.2TB of high-quality multilingual (mainly Chinese and English) and code data. We have open-sourced the model, training data, evaluation data, evaluation methods, etc. 天工系列模型在3.2TB高质量多语言和代码数据上进行预训练。我们开源了模型参数,训练数据,评估数据,评估方法。
Other
1.21k stars 111 forks source link

请问您开源的150B数据集和悟道的200G有重叠嘛 #14

Closed LiuChen19960902 closed 10 months ago

LiuChen19960902 commented 10 months ago

很感谢您开源的模型和数据集,在这里想请问您开源的150B数据集和悟道的200G有重叠嘛

xxllp commented 10 months ago

中文的肯定有的吧

TianwenWei commented 10 months ago

我们没有验证,但应该重叠的部分应该可以忽略不计。我们开源的150B的数据来源和wudao完全不同,是从SkyPile整个大池子中的web text部分shuffle出来的。

最重要的,我们的数据质量远高于wudao。

heyblackC commented 10 months ago

我们没有验证,但应该重叠的部分应该可以忽略不计。我们开源的150B的数据来源和wudao完全不同,是从SkyPile整个大池子中的web text部分shuffle出来的。

最重要的,我们的数据质量远高于wudao。

你好,请问下你们是有什么依据来说你们的数据质量远高于wudao的数据质量呢?希望大佬解答疑惑,非常感谢!

TianwenWei commented 10 months ago

我们没有验证,但应该重叠的部分应该可以忽略不计。我们开源的150B的数据来源和wudao完全不同,是从SkyPile整个大池子中的web text部分shuffle出来的。 最重要的,我们的数据质量远高于wudao。

你好,请问下你们是有什么依据来说你们的数据质量远高于wudao的数据质量呢?希望大佬解答疑惑,非常感谢!

wudao的开源数据我现在手头没有,但很早之前我检查过。记得里面有很多noise,很多很显然是数据预处理不完善带来的artifact,例如突兀的出现一个空的括号,或者截断的句子,或者句子中间出现的无关字符串。我们SkyPile的数据预处理过程更加完善,虽然不能完全避免噪声,但其比例大大降低。

dugusword commented 10 months ago

如Tianwen所解释,Skywork在训练时没有使用过wudao的数据,所以没有针对wudao进行重叠分析。考虑到SkyPile开源数据均选取子2021年43周以后,而wudao开源于2021年7月份,重叠部分应该不会很大。如果想混合使用且不太放心,可以考虑进一步去重。 另外,在质量方面,从我们内部的一些早期测评分析,SkyPile在让模型学习到额外的知识信息以及语言的通顺度这两个方面看,质量是高于wudao的。您可以考虑使用同样规模训练两个3B/7B的小模型,然后对下游任务效果进行比对来验证下我们的观点。

xiaotinghe commented 10 months ago

“远高于wudao的数据质量” 太真实了,哈哈。当年干过跟大佬一样的检查。

duyaofei commented 9 months ago

如Tianwen所解释,Skywork在训练时没有使用过wudao的数据,所以没有针对wudao进行重叠分析。考虑到SkyPile开源数据均选取子2021年43周以后,而wudao开源于2021年7月份,重叠部分应该不会很大。如果想混合使用且不太放心,可以考虑进一步去重。 另外,在质量方面,从我们内部的一些早期测评分析,SkyPile在让模型学习到额外的知识信息以及语言的通顺度这两个方面看,质量是高于wudao的。您可以考虑使用同样规模训练两个3B/7B的小模型,然后对下游任务效果进行比对来验证下我们的观点。

大佬,现在数据集不能下载了,请问还有其他渠道可以获取到吗?

dugusword commented 9 months ago

如Tianwen所解释,Skywork在训练时没有使用过wudao的数据,所以没有针对wudao进行重叠分析。考虑到SkyPile开源数据均选取子2021年43周以后,而wudao开源于2021年7月份,重叠部分应该不会很大。如果想混合使用且不太放心,可以考虑进一步去重。 另外,在质量方面,从我们内部的一些早期测评分析,SkyPile在让模型学习到额外的知识信息以及语言的通顺度这两个方面看,质量是高于wudao的。您可以考虑使用同样规模训练两个3B/7B的小模型,然后对下游任务效果进行比对来验证下我们的观点。

大佬,现在数据集不能下载了,请问还有其他渠道可以获取到吗?

有关部门正在审核数据,还请大家谅解