sunzeyeah / RLHF

Implementation of Chinese ChatGPT
282 stars 36 forks source link

reward model的实现问题 #12

Closed DamonYangyang closed 1 year ago

DamonYangyang commented 1 year ago

你好,看到rm模型实现中将最后一个token表示奖励改为了使用均值,这在rm训练中和奖励值使用上有什么优点或者区别

sunzeyeah commented 1 year ago

你好,reward的这两种计算逻辑的差异类似于BERT中使用[CLS]或者使用全部token的均值作为sequence的emebdding,目前没有专门比较过2种计算逻辑对于reward最终的训练效果的影响,但直观感受是差距不会太大,就类似BERT的这两种方式差距也不大。

因为需要支持不同类型的模型(ChatGLM、Pangu、GLM),它们tokenzation的方式有所区别,有的模型有ending token,有的模型没有,所以采用了均值作为reward值