SkyworkAI / Skywork

Skywork series models are pre-trained on 3.2TB of high-quality multilingual (mainly Chinese and English) and code data. We have open-sourced the model, training data, evaluation data, evaluation methods, etc. 天工系列模型在3.2TB高质量多语言和代码数据上进行预训练。我们开源了模型参数,训练数据,评估数据,评估方法。
Other
1.21k stars 111 forks source link

关于评测集的选择和使用 #51

Closed zhangbin1997 closed 9 months ago

zhangbin1997 commented 9 months ago
  1. 看您的介绍中有提到说构建了中文,英文,代码,arxiv文章等多个领域的验证集,请问这些验证集有开源的打算吗?因为目前我看只有(技术文章 | 电影评论 | 政务报告 | 游戏 | 金融 | 通用领域)这六个类型,可能和通用中英文bencmark相关的验证集对大家来说更有实用性~
  2. 就关于目前您开源的这六个验证集,我看其中基本来源基本都是新闻。请问您有尝试过将通用中英文bencmark的数据改写成sequence的形式来进行模型效果验证吗,或者说对于特定领域的任务,尝试将特定领域的数据改写成sequence来进行验证么? ~
TianwenWei commented 9 months ago
  1. “中文,英文,代码,arxiv文章等多个领域的验证集”和我们训练数据的对应来源具有相同分布,只不过是held-out集。我们认为这些验证集开源的意义不太大,因为大家可以从自己的训练数据中split出一部分作为验证集。验证集的主要目的是指导自己的模型开发。
  2. (技术文章 | 电影评论 | 政务报告 | 游戏 | 金融 | 通用领域)这六个类型的测试集主要是新闻,是因为新闻是最常见、易获取、能够实时更新的数据源。测试集的主要目的不是指导自身模型开发,而是用于横向对比业界不同的模型的ppl,因此我们必须保证该数据没有被别的LLM训练过。只有新出现的数据才能确保这一点。
  3. 我们有在数据泄漏检测中将benchmark数据改成sequence算ppl。没有进行其它此类尝试。