【2017】Improving Generalization Performance by Switching from Adam to SGD

ざっくり言うと

Optimizerに関する論文。 OptimizerとしてSGD, Adamが一般的に利用されているが、Adamは収束が早いがfinalの精度が悪く、SGDは収束が遅いがfinalの精度が良い。このようにSGD, Adamは一長一短の関係にある。本論では学習初期にSGD, 学習最後にAdamを利用することで、良いところどりしたOptimizerが通れるという論文。

キーワード

Optimizer SGD, Adam , SWATS

1. 情報

論文リンク

https://arxiv.org/abs/1712.07628

著者

Nitish Shirish Keskar,

投稿日付

2017年

2. 先行研究と比べてどこがすごい？

3. 技術や手法のキモはどこ？

AdamからSGDに切り替えるタイミングで学習率をAdamからの情報を元にSGDに組み込むことで、SGDに切り替え後のSGDの性能はAdamを越すことができる。

4. どうやって有効だと検証した？

本論文ではSWATSの有用性を画像分類(dataset : CIFAR-100, CIFAR-10)、自然言語処理(dataset : ILSVRC 2012)の２つで検証

5. 議論はある？

6. 次に読むべき論文は？

7. 実装の詳細

https://github.com/Mrpatekful/swats

8. データセット

4に記載

9. 結果の詳細

画像学習、言語処理の多くの場合、SWATSはSGD, Adamより良い結果を残したが、SWATSは時々不安定になる時があり、SGDやAdamの方が成績が良い時もある。実装時にはいろいろ試す必要あり

karakuri-ai / paper-readings