Closed Chandler-Bing closed 1 year ago
为什么llama评测时候调用的是model.forward(),而glm却用model.generate()方法呢?有什么本质区别吗?
llama模型没有做sft,在zero-shot下直接general()很多时候无法生成ABCD的答案,做forward可以直接计算ABCD的概率来得到答案。在few-shot场景下llama做forward()和generate()的结果几乎没有区别。
为什么llama评测时候调用的是model.forward(),而glm却用model.generate()方法呢?有什么本质区别吗?