OpenLMLab / MOSS-RLHF

MOSS-RLHF
Apache License 2.0
1.3k stars 101 forks source link

deepspeed的parameter_offload问题 #29

Closed LiangZhuuu closed 1 year ago

LiangZhuuu commented 1 year ago

感谢作者们的开源!

我在运行train_ppo.py的时候遇到一个bug, File "./site-packages/deepspeed/runtime/zero/parameter_offload.py", line 221, in init self.dtype = list(module.parameters())[0].dtype IndexError: list index out of range

我在accelerate的config中,offload—>no,zero stage—>2,搞半天也没明白为什么会有这个问题,望作者们不吝赐教!

LiangZhuuu commented 1 year ago

知道了,是没有正确加载模型的问题。我的SFT模型是Chatglm2-6B架构的,这样是否需要重新写一个train_ppo.py中的class Llama(LlamaForCausalLM)?因为chatglm的modeling文件中没有类似LlamaForCausalLM的父类,所以很头疼,希望作者们可以指导一下。