llama和其他模型评测时不同点

hkust-nlp / ceval

Official github repo for C-Eval, a Chinese evaluation suite for foundation models [NeurIPS 2023]

https://cevalbenchmark.com/

MIT License

1.63k stars 78 forks source link

Closed Chandler-Bing closed 1 year ago

Chandler-Bing commented 1 year ago

为什么llama评测时候调用的是model.forward()，而glm却用model.generate()方法呢？有什么本质区别吗？

jxhe commented 1 year ago

llama模型没有做sft，在zero-shot下直接general()很多时候无法生成ABCD的答案，做forward可以直接计算ABCD的概率来得到答案。在few-shot场景下llama做forward()和generate()的结果几乎没有区别。