Closed fengzi258 closed 10 months ago
您直接算的是loss,您看我们的readme,我们算的是标准化的loss,这才是大家可比的指标,是需要乘以自己分词器的文档分词数量,转换成似然(likelihood)。大家统一除以天工分词器的分词token数(其实除以任何数都可以,不影响排名,我们都除以天分分词器直接和我们模型的效果比较了)。
不同模型最大长度不一样这个问题,我们对比的是主流模型,主流模型应该都支持4K或者以上长度的上下文。
感谢您的回复,那我理解一下:
ok,感谢耐心解释。
你好,我有一些问题,希望解答一下: 采用Qwen-14B运行给定的命令:bash bash_scripts/skywork_eval_loss.sh:
平均结果为2.424与报告中的结果9.67不一致。这是为什么?验证集发布不全吗?
评测时为什么要对文本做截断?截断是对输入句子长度做截断而不是对token做截断?不同模型的max_length不一致,max token都采用4096吗?都用4096不适应所有对比模型。用各自模型的max length?如果是的话,每个模型的输入长度不一样,评测就不公平了?
不截断的话,现有评测代码不支持窗口滑动,也不适应所有对比模型的max length?
希望解答一下以上疑问,谢谢~