To mitigate the performance deterioration in certain abilities, we incorporated the SFT gradients into the PPO gradients

vivo-ai-lab / BlueLM

BlueLM(蓝心大模型): Open large language models developed by vivo AI Lab

Other

846 stars 58 forks source link

你好，真是非常厉害的工作！

但是在看Technical Report的时候，还是有一些疑惑的地方，如下 To mitigate the performance deterioration in certain abilities, we incorporated the SFT gradients into the PPO gradients 这里的incorporated the sft gradients into ppo gradients，可以理解为在RLHF阶段将SFT 的梯度融合到PPO阶段吗？

我看这里的reward Model用的是评分的方式进行的，所以这个阶段的标注理论上没有Ground Truth的回答，所以想问问这里的SFT gradients是如何计算的？

你好，感谢关注！是的，是在RLHF阶段将SFT的梯度融合到PPO阶段。在每一轮迭代中，SFT作为一个单独任务（用SFT数据进行训练，所以是有Ground Truth的），计算loss后和PPO任务的loss叠加一起指导参数更新。

vivo-ai-lab / BlueLM

To mitigate the performance deterioration in certain abilities, we incorporated the SFT gradients into the PPO gradients #13