PPO采用zero 3 stage后产生time out error

OpenLLMAI / OpenRLHF

An Easy-to-use, Scalable and High-performance RLHF Framework (70B+ PPO Full Tuning & Iterative DPO & LoRA & Mixtral)

Apache License 2.0

1.71k stars 160 forks source link

我也遇到了一样的问题，似乎是卡在了NaiveExperienceMaker里make_experience函数的action_log_probs = self.actor(sequences, num_actions, attention_mask) 这一句或者base_action_log_probs = self.initial_model(sequences, num_actions, attention_mask)

stage 2的话就没有任何问题，stage3就有问题。求大佬帮忙看看 @hijkzzz

deepspeed是0.13.5

补充：修改--generate_max_len为1后，整个流程就通了，看起来是stage 3下， actor计算log_probs太慢了导致的·· ，求大佬帮忙看看能不能解决@hijkzzz

再次补充：好像在actor中， model.generate() 这句加上synced_gpus=True就可以了--

OpenLLMAI / OpenRLHF

PPO采用zero 3 stage后产生time out error #293