SkyworkAI / Skywork

Skywork series models are pre-trained on 3.2TB of high-quality multilingual (mainly Chinese and English) and code data. We have open-sourced the model, training data, evaluation data, evaluation methods, etc. 天工系列模型在3.2TB高质量多语言和代码数据上进行预训练。我们开源了模型参数,训练数据,评估数据,评估方法。
Other
1.21k stars 111 forks source link

SkyPile-150B数据集的重复率有点小高 #72

Closed genggui001 closed 7 months ago

genggui001 commented 8 months ago

SkyPile-150B数据集的重复率有点小高 我用slimpajama里面的deduplicate代码跑了一波,很多文件的重复率都在50%以上 有点神奇

TianwenWei commented 8 months ago

是有一些重复,我们当时使用的时候没有检测出来。如果进一步严格去重的话数据集可以瘦身30%。

fyubang commented 3 months ago

是有一些重复,我们当时使用的时候没有检测出来。如果进一步严格去重的话数据集可以瘦身30%。

我试了一下,好像精确去重就能去掉40%,是不是数据集上传的有点问题啊?