Open sato163 opened 3 years ago
どんなもの?
Internal Covariate Shit(パラメータの変化に伴い、各層の入力分布が常に変化)が問題になっており、低いLR、様々なパラメータ初期化手法、Dropout、活性化関数の変更などで対処してきた。
そこで、安定で高速な学習を可能にするBNを提案。
先行研究と比べてどこがすごい? 高いLRを可能にし、初期化にあまり慎重にならなくてよくなったことで、1/14ステップでSoTAモデルと同等の精度に達し、さらに世界1の性能を達成。
技術や手法のキモは? 学習パラメータを二つだけ追加し、直ちにNNに適応可能な形で各層の入力分布を正規化する手法を提案。
どうやって有効と検証した? LRを変えてBNを適応したNNと、BNを適応していないNNの学習速度と精度を比較。BN適応NNのアンサンブルでも精度検証、SoTA。
議論はある? BNはなぜ効果があるのか?
次に読むべき論文は? Understanding Batch Normalization
その他 DNNではもはや必須。