Open listenlink opened 5 years ago
分布式训练可以参考下 PaddlePaddle/Fleet 分类中已经移除dist代码
@shippingwang 是这份代码吗 https://github.com/PaddlePaddle/Fleet/tree/develop/benchmark/collective/resnet, 这份代码怎么开启DGC模式呢?
@shippingwang dist代码单机8卡fp32可以跑,但是增加了enable_dgc 参数就出现了nan,这份带dgc的参考代码是否已经通过了精度验证?或者有其他可用的dgc 做resnet训练的参考代码?
现在nan的问题已经修好了,还有些流程上的问题在修。这个PR跑DGC应该没啥问题了https://github.com/PaddlePaddle/Paddle/pull/20758
@listenlink 抱歉现在develop分支还有个小问题,fuse模式下DGC会失效,需要关闭fuse dist_strategy.fuse_all_reduce_ops = False,之后会进行相应的修复
训练脚本如下: