OpenLLMAI / OpenRLHF

An Easy-to-use, Scalable and High-performance RLHF Framework (70B+ PPO Full Tuning & Iterative DPO & LoRA & Mixtral)
https://openrlhf.readthedocs.io/
Apache License 2.0
1.72k stars 161 forks source link

reward model数据集问题 #273

Closed burger-pb closed 3 days ago

burger-pb commented 2 months ago

我在模型微调的时候加入了代码数据集,让模型拥有不错的代码能力,在RLHF阶段训练奖励模型的时候还需要再加入代码数据集的训练吗,如果不加入会不会导致模型的代码能力下降

burger-pb commented 2 months ago

还是说再训练完奖励模型之后的Reinforcement Learning阶段可以使用和微调一样的数据集

hijkzzz commented 2 months ago

这应当取决于你的RM有没有对代码数据的反馈的能力?

burger-pb commented 2 months ago

确实,但是通过RM来对代码数据进行反馈,不太清楚能不能这样做,我看到有些垂直领域的模型貌似也不用专业领域的数据去训练RM,但最后使用了专业领域数据去进行强化学习