自有的底座模型，自有的SFT权重，重新训练RM，可行么 - Githubissues

OpenLMLab / MOSS-RLHF

MOSS-RLHF

Apache License 2.0

1.27k stars 98 forks source link

自有的底座模型，自有的SFT权重，重新训练RM，可行么 #38

Open camposs1979 opened 9 months ago

camposs1979 commented 9 months ago

作者大佬您好，感谢您的贡献和输出，因为我对RLHF的这部分比较陌生，所以想咨询您几个问题，希望得到您的指点：

如果我底座模型是其他的模型，比如：Baichuan2，或者ChatGLM2，然后SFT的时候是自定义的训练数据，这种模式是可以使用你们的发布的RLHF的代码么
如果1可以的话，那么意味着我需要重新训练RM，然后PPO，我想了解这种场景，你们当前的代码是否可以支持
如果1.2 都可行的话，具体的操作方式应该是怎么做呢非常期待您的指导。

Ablustrund commented 9 months ago

您好。

我们的代码支持llama和llama2，但是很容易扩充成其他decoder-only模型，例如bloomz，baichuan。只需要修改llama/下面对应的llama model和llama tokenizer即可。
对于reward model我们暂时不支持，但是应该在月末我们会开源第二版本技术报告，包含对reward model的训练。