Closed DamonYangyang closed 1 year ago
你好,reward的这两种计算逻辑的差异类似于BERT中使用[CLS]
或者使用全部token的均值作为sequence的emebdding,目前没有专门比较过2种计算逻辑对于reward最终的训练效果的影响,但直观感受是差距不会太大,就类似BERT的这两种方式差距也不大。
因为需要支持不同类型的模型(ChatGLM、Pangu、GLM),它们tokenzation的方式有所区别,有的模型有ending token,有的模型没有,所以采用了均值作为reward值
你好,看到rm模型实现中将最后一个token表示奖励改为了使用均值,这在rm训练中和奖励值使用上有什么优点或者区别