OpenLLMAI / OpenRLHF

An Easy-to-use, Scalable and High-performance RLHF Framework (70B+ PPO Full Tuning & Iterative DPO & LoRA & Mixtral)
https://openrlhf.readthedocs.io/
Apache License 2.0
1.71k stars 160 forks source link

PPO采用zero 3 stage后产生time out error #293

Open victorShawFan opened 1 month ago

victorShawFan commented 1 month ago
image image image

脚本修改如下,ckpt换为Qwen:

image
hijkzzz commented 1 month ago

有可能是deepspeed的问题 可以尝试降低一下版本号,比如 v0.13.5 see https://github.com/microsoft/DeepSpeed/issues/5520

yinzhijian commented 1 month ago

@victorShawFan 请教下这个问题解决了吗,怎么解决的?

Hzlvv commented 2 weeks ago

我也遇到了一样的问题,似乎是卡在了NaiveExperienceMaker里make_experience函数的action_log_probs = self.actor(sequences, num_actions, attention_mask) 这一句或者base_action_log_probs = self.initial_model(sequences, num_actions, attention_mask)

stage 2的话就没有任何问题,stage3就有问题。 求大佬帮忙看看 @hijkzzz

deepspeed是0.13.5

补充: 修改--generate_max_len为1后,整个流程就通了,看起来是stage 3下, actor计算log_probs太慢了导致的·· ,求大佬帮忙看看能不能解决@hijkzzz

再次补充: 好像在actor中, model.generate() 这句加上synced_gpus=True就可以了--