Open tkuri opened 3 years ago
DNNの分散学習に適したSGDのトレードオフ(通信効率⇔汎化性能)をwoker数, local step, batch sizeを変化させて包括的に調査(大きなミニバッチのサイズでは汎化性能が落ちる等)。更に通信効率を向上させつつ、ベースラインに対して汎化性能も高いポストローカルSGDを提案。
https://arxiv.org/abs/1808.07217
https://github.com/epfml/LocalSGD-Code
論文概要
DNNの分散学習に適したSGDのトレードオフ(通信効率⇔汎化性能)をwoker数, local step, batch sizeを変化させて包括的に調査(大きなミニバッチのサイズでは汎化性能が落ちる等)。更に通信効率を向上させつつ、ベースラインに対して汎化性能も高いポストローカルSGDを提案。
https://arxiv.org/abs/1808.07217
Code (PyTorch)
https://github.com/epfml/LocalSGD-Code