SkyworkAI / Skywork

Skywork series models are pre-trained on 3.2TB of high-quality multilingual (mainly Chinese and English) and code data. We have open-sourced the model, training data, evaluation data, evaluation methods, etc. 天工系列模型在3.2TB高质量多语言和代码数据上进行预训练。我们开源了模型参数,训练数据,评估数据,评估方法。
Other
1.21k stars 111 forks source link

请问测试数据会公开么? #46

Closed 4IK1d closed 9 months ago

4IK1d commented 9 months ago

如题,谢谢。

TianwenWei commented 9 months ago

如题,谢谢。

请问您说的什么测试数据?

tq-xyy commented 9 months ago

我觉得应该不会公开,因为如果公开了又会造成数据集污染。这是 Skywork 团队不想看到的。 如果要公开的话一定会把下一代数据集准备好。

zhao1iang commented 9 months ago

您好,我们用于和其他模型对比的多领域测试数据和检测模型真实数学能力的mock_gsm8k_test数据均已公开。下面是测试集的地址:https://huggingface.co/datasets/Skywork/ChineseDomainModelingEval, https://huggingface.co/datasets/Skywork/mock_gsm8k_test

4IK1d commented 9 months ago

您好,我们用于和其他模型对比的多领域测试数据和检测模型真实数学能力的mock_gsm8k_test数据均已公开。下面是测试集的地址:https://huggingface.co/datasets/Skywork/ChineseDomainModelingEval, https://huggingface.co/datasets/Skywork/mock_gsm8k_test。

多谢多谢

4IK1d commented 9 months ago

如题,谢谢。

请问您说的什么测试数据?

指上述测评数据集

4IK1d commented 9 months ago

是我漏看了readme,11.2已经更新了发布信息