OpenLMLab / MOSS-RLHF

MOSS-RLHF
Apache License 2.0
1.27k stars 98 forks source link

自有的底座模型,自有的SFT权重,重新训练RM,可行么 #38

Open camposs1979 opened 9 months ago

camposs1979 commented 9 months ago

作者大佬您好,感谢您的贡献和输出,因为我对RLHF的这部分比较陌生,所以想咨询您几个问题,希望得到您的指点:

  1. 如果我底座模型是其他的模型,比如:Baichuan2,或者ChatGLM2,然后SFT的时候是自定义的训练数据,这种模式是可以使用你们的发布的RLHF的代码么
  2. 如果1可以的话,那么意味着我需要重新训练RM,然后PPO,我想了解这种场景,你们当前的代码是否可以支持
  3. 如果1.2 都可行的话,具体的操作方式应该是怎么做呢 非常期待您的指导。
Ablustrund commented 9 months ago

您好。

  1. 我们的代码支持llama和llama2,但是很容易扩充成其他decoder-only模型,例如bloomz,baichuan。只需要修改llama/下面对应的llama model和llama tokenizer即可。
  2. 对于reward model我们暂时不支持,但是应该在月末我们会开源第二版本技术报告,包含对reward model的训练。