关于评测集的选择和使用

SkyworkAI / Skywork

Skywork series models are pre-trained on 3.2TB of high-quality multilingual (mainly Chinese and English) and code data. We have open-sourced the model, training data, evaluation data, evaluation methods, etc. 天工系列模型在3.2TB高质量多语言和代码数据上进行预训练。我们开源了模型参数，训练数据，评估数据，评估方法。

Other

1.21k stars 111 forks source link

“中文，英文，代码，arxiv文章等多个领域的验证集”和我们训练数据的对应来源具有相同分布，只不过是held-out集。我们认为这些验证集开源的意义不太大，因为大家可以从自己的训练数据中split出一部分作为验证集。验证集的主要目的是指导自己的模型开发。
（技术文章 | 电影评论 | 政务报告 | 游戏 | 金融 | 通用领域）这六个类型的测试集主要是新闻，是因为新闻是最常见、易获取、能够实时更新的数据源。测试集的主要目的不是指导自身模型开发，而是用于横向对比业界不同的模型的ppl，因此我们必须保证该数据没有被别的LLM训练过。只有新出现的数据才能确保这一点。
我们有在数据泄漏检测中将benchmark数据改成sequence算ppl。没有进行其它此类尝试。

SkyworkAI / Skywork

关于评测集的选择和使用 #51