Don't Use Large Mini-Batches, Use Local SGD

論文概要

DNNの分散学習に適したSGDのトレードオフ(通信効率⇔汎化性能)をwoker数, local step, batch sizeを変化させて包括的に調査（大きなミニバッチのサイズでは汎化性能が落ちる等）。更に通信効率を向上させつつ、ベースラインに対して汎化性能も高いポストローカルSGDを提案。