Closed 2020zyc closed 3 years ago
保存模型报错,说是没有 save_zero 这个参数; 我看model经过deepspeed封装,我使用你们提供的镜像跑,因此也是用镜像里面的deepspeed;
将save_zero去掉,在deepspeed.initialize(model...)后增加 model.save_zero_checkpoint = False,可以保存,但是保存后就卡住很久(1-2小时都不动了)
麻烦看看,谢谢 @ t1101675
您好,感谢关注!我们更新了一下镜像,上面 save_zero 的 bug 已经修复了。
save_zero
保存模型报错,说是没有 save_zero 这个参数; 我看model经过deepspeed封装,我使用你们提供的镜像跑,因此也是用镜像里面的deepspeed;
将save_zero去掉,在deepspeed.initialize(model...)后增加 model.save_zero_checkpoint = False,可以保存,但是保存后就卡住很久(1-2小时都不动了)
麻烦看看,谢谢 @ t1101675