ppl 的测试脚本只输出了 loss，不输出 ppl？

SkyworkAI / Skywork

Skywork series models are pre-trained on 3.2TB of high-quality multilingual (mainly Chinese and English) and code data. We have open-sourced the model, training data, evaluation data, evaluation methods, etc. 天工系列模型在3.2TB高质量多语言和代码数据上进行预训练。我们开源了模型参数，训练数据，评估数据，评估方法。

Other

1.21k stars 111 forks source link

ppl 的测试脚本只输出了 loss，不输出 ppl？ #74

Closed SefaZeng closed 7 months ago

SefaZeng commented 7 months ago

readme 里面提到最终的 ppl 是由 loss_a * token_a / token_s，但是 token_s 是自己手动分词再算吗？为什么不在 eval_loss.py 里面指出输出最终的 ppl 呢？

zhao1iang commented 7 months ago

是的，需要先算出token_s。PPL和loss是一回事，将loss取指数就是PPL了。

SefaZeng commented 7 months ago

是的，需要先算出token_s。PPL和loss是一回事，将loss取指数就是PPL了。

理解，我的意思是既然只差最后一步，可以在脚本里把 ppl 算出来，就不用在 Readme 里面解释计算细节了。也避免最后复现的时候 loss 是对的 ppl 算不对的情况。

zhao1iang commented 7 months ago

好的，后续会对计算进行改进，会更加方便