sunzeyeah / RLHF

Implementation of Chinese ChatGPT
282 stars 36 forks source link

chatglm+RLHF #18

Closed MAJIN123 closed 1 year ago

MAJIN123 commented 1 year ago

能否支持使用chatglm进行领域内强化学习这条路呀。有这个需要😭

sunzeyeah commented 1 year ago

我们目前做的也是领域内的训练,SFT和Reward都是可以跑通的,但是因为RLHF需要同时加载SFT和Reward模型并进行训练,所以GPU硬件要求更高。

如果要做6B模型的RLHF训练,开启LoRA的情况下,预估起码要48G的显存。不过目前RLHF的代码在开启deepspeed stage 3的情况,并没有开启模型并行,可以参考issue 13,后续会进行优化