Closed guru4elephant closed 3 years ago
ICML 2020 paper AdaScale SGD: A User-Friendly Algorithm for Distributed Training
在分布式训练场景下,多机多卡同步训练时总batch通常会比较大,并且随着节点数的变化,如果不精细的调整学习率会影响最终的收敛效果,ICML 2020提出的AdaScale SGD针对这个问题有很好的解法,Paddle需要提供给用户一个开箱即用的配置
收到,我们评估一下,非常感谢!
收到,将排期开发
ICML 2020 paper AdaScale SGD: A User-Friendly Algorithm for Distributed Training
在分布式训练场景下,多机多卡同步训练时总batch通常会比较大,并且随着节点数的变化,如果不精细的调整学习率会影响最终的收敛效果,ICML 2020提出的AdaScale SGD针对这个问题有很好的解法,Paddle需要提供给用户一个开箱即用的配置