Closed MAJIN123 closed 1 year ago
能否支持使用chatglm进行领域内强化学习这条路呀。有这个需要😭
我们目前做的也是领域内的训练,SFT和Reward都是可以跑通的,但是因为RLHF需要同时加载SFT和Reward模型并进行训练,所以GPU硬件要求更高。
如果要做6B模型的RLHF训练,开启LoRA的情况下,预估起码要48G的显存。不过目前RLHF的代码在开启deepspeed stage 3的情况,并没有开启模型并行,可以参考issue 13,后续会进行优化
能否支持使用chatglm进行领域内强化学习这条路呀。有这个需要😭