TsinghuaAI / CPM-2-Finetune

Finetune CPM-2
MIT License
83 stars 21 forks source link

bug? save_zero #17

Closed 2020zyc closed 3 years ago

2020zyc commented 3 years ago

保存模型报错,说是没有 save_zero 这个参数; 我看model经过deepspeed封装,我使用你们提供的镜像跑,因此也是用镜像里面的deepspeed; image

将save_zero去掉,在deepspeed.initialize(model...)后增加 model.save_zero_checkpoint = False,可以保存,但是保存后就卡住很久(1-2小时都不动了) image

麻烦看看,谢谢 @ t1101675

t1101675 commented 3 years ago

您好,感谢关注!我们更新了一下镜像,上面 save_zero 的 bug 已经修复了。