karakuri-ai / paper-readings

repository to research the machine learning papers
2 stars 1 forks source link

【2017】Improving Generalization Performance by Switching from Adam to SGD #48

Open Yongtae723 opened 4 years ago

Yongtae723 commented 4 years ago

ざっくり言うと

Optimizerに関する論文。 OptimizerとしてSGD, Adamが一般的に利用されているが、Adamは収束が早いがfinalの精度が悪く、SGDは収束が遅いがfinalの精度が良い。 このようにSGD, Adamは一長一短の関係にある。 本論では学習初期にSGD, 学習最後にAdamを利用することで、良いところどりしたOptimizerが通れるという論文。

キーワード

Optimizer SGD, Adam , SWATS

1. 情報

論文リンク

https://arxiv.org/abs/1712.07628

著者

Nitish Shirish Keskar,

投稿日付

2017年

2. 先行研究と比べてどこがすごい?

3. 技術や手法のキモはどこ?

AdamからSGDに切り替えるタイミングで学習率をAdamからの情報を元にSGDに組み込むことで、SGDに切り替え後のSGDの性能はAdamを越すことができる。

4. どうやって有効だと検証した?

本論文ではSWATSの有用性を画像分類(dataset : CIFAR-100, CIFAR-10)、自然言語処理(dataset : ILSVRC 2012)の2つで検証

5. 議論はある?

6. 次に読むべき論文は?

7. 実装の詳細

https://github.com/Mrpatekful/swats

8. データセット

4に記載

9. 結果の詳細

画像学習、言語処理の多くの場合、SWATSはSGD, Adamより良い結果を残したが、SWATSは時々不安定になる時があり、SGDやAdamの方が成績が良い時もある。実装時にはいろいろ試す必要あり

雑感&メモ