chatglm+RLHF - Githubissues

我们目前做的也是领域内的训练，SFT和Reward都是可以跑通的，但是因为RLHF需要同时加载SFT和Reward模型并进行训练，所以GPU硬件要求更高。

如果要做6B模型的RLHF训练，开启LoRA的情况下，预估起码要48G的显存。不过目前RLHF的代码在开启deepspeed stage 3的情况，并没有开启模型并行，可以参考issue 13，后续会进行优化

sunzeyeah / RLHF