reward model数据集问题

OpenLLMAI / OpenRLHF

An Easy-to-use, Scalable and High-performance RLHF Framework (70B+ PPO Full Tuning & Iterative DPO & LoRA & Mixtral)

https://openrlhf.readthedocs.io/

Apache License 2.0

1.72k stars 161 forks source link

Closed burger-pb closed 3 days ago

burger-pb commented 2 months ago

我在模型微调的时候加入了代码数据集，让模型拥有不错的代码能力，在RLHF阶段训练奖励模型的时候还需要再加入代码数据集的训练吗，如果不加入会不会导致模型的代码能力下降

burger-pb commented 2 months ago

还是说再训练完奖励模型之后的Reinforcement Learning阶段可以使用和微调一样的数据集

hijkzzz commented 2 months ago

这应当取决于你的RM有没有对代码数据的反馈的能力？

burger-pb commented 2 months ago

确实，但是通过RM来对代码数据进行反馈，不太清楚能不能这样做，我看到有些垂直领域的模型貌似也不用专业领域的数据去训练RM，但最后使用了专业领域数据去进行强化学习