issues
search
OpenLMLab
/
MOSS-RLHF
MOSS-RLHF
Apache License 2.0
1.3k
stars
101
forks
source link
自有的底座模型,自有的SFT权重,重新训练RM,可行么
#38
Open
camposs1979
opened
11 months ago
camposs1979
commented
11 months ago
作者大佬您好,感谢您的贡献和输出,因为我对RLHF的这部分比较陌生,所以想咨询您几个问题,希望得到您的指点:
如果我底座模型是其他的模型,比如:Baichuan2,或者ChatGLM2,然后SFT的时候是自定义的训练数据,这种模式是可以使用你们的发布的RLHF的代码么
如果1可以的话,那么意味着我需要重新训练RM,然后PPO,我想了解这种场景,你们当前的代码是否可以支持
如果1.2 都可行的话,具体的操作方式应该是怎么做呢 非常期待您的指导。
Ablustrund
commented
11 months ago
您好。
我们的代码支持llama和llama2,但是很容易扩充成其他decoder-only模型,例如bloomz,baichuan。只需要修改llama/下面对应的llama model和llama tokenizer即可。
对于reward model我们暂时不支持,但是应该在月末我们会开源第二版本技术报告,包含对reward model的训练。
作者大佬您好,感谢您的贡献和输出,因为我对RLHF的这部分比较陌生,所以想咨询您几个问题,希望得到您的指点: