reward model的实现问题

你好，reward的这两种计算逻辑的差异类似于BERT中使用[CLS]或者使用全部token的均值作为sequence的emebdding，目前没有专门比较过2种计算逻辑对于reward最终的训练效果的影响，但直观感受是差距不会太大，就类似BERT的这两种方式差距也不大。

因为需要支持不同类型的模型（ChatGLM、Pangu、GLM），它们tokenzation的方式有所区别，有的模型有ending token，有的模型没有，所以采用了均值作为reward值

sunzeyeah / RLHF