SkyworkAI / Skywork

Skywork series models are pre-trained on 3.2TB of high-quality multilingual (mainly Chinese and English) and code data. We have open-sourced the model, training data, evaluation data, evaluation methods, etc. 天工系列模型在3.2TB高质量多语言和代码数据上进行预训练。我们开源了模型参数,训练数据,评估数据,评估方法。
Other
1.21k stars 111 forks source link

PPL领域数据计算Average结果按照每个领域结果平均对不上 #45

Closed autumnCanTell closed 9 months ago

zhao1iang commented 9 months ago

您的是哪个模型对不上?结果是怎样的,请贴一下

zhao1iang commented 9 months ago

您先看下这两个Issue,是否您的计算方法有误?https://github.com/SkyworkAI/Skywork/issues/32,https://github.com/SkyworkAI/Skywork/issues/43

autumnCanTell commented 9 months ago

论文里Table 6报告的Skywork-13B的6个domain的ppl值分别为:11.58 21.84 4.76 17.28 4.92 6.82。请问最后的平均ppl:9.42是如何计算的。

zhao1iang commented 9 months ago

您好,Average PPL是根据avg loss计算出来的。不是直接对所有领域的PPL取平均,而是对所有的loss取平均后得到avg loss,然后取指数转换成PPL。这样是避免有一些语料库出现极端大的PPL,影响最终的效果。物理含义是将多领域语料库看成是一个大的语料库,Average PPL是这个大语料库上的PPL。

autumnCanTell commented 9 months ago

好的,感谢!