Open Yongtae723 opened 4 years ago
Optimizerに関する論文。 OptimizerとしてSGD, Adamが一般的に利用されているが、Adamは収束が早いがfinalの精度が悪く、SGDは収束が遅いがfinalの精度が良い。 このようにSGD, Adamは一長一短の関係にある。 本論では学習初期にSGD, 学習最後にAdamを利用することで、良いところどりしたOptimizerが通れるという論文。
Optimizer SGD, Adam , SWATS
https://arxiv.org/abs/1712.07628
Nitish Shirish Keskar,
2017年
AdamからSGDに切り替えるタイミングで学習率をAdamからの情報を元にSGDに組み込むことで、SGDに切り替え後のSGDの性能はAdamを越すことができる。
本論文ではSWATSの有用性を画像分類(dataset : CIFAR-100, CIFAR-10)、自然言語処理(dataset : ILSVRC 2012)の2つで検証
https://github.com/Mrpatekful/swats
4に記載
画像学習、言語処理の多くの場合、SWATSはSGD, Adamより良い結果を残したが、SWATSは時々不安定になる時があり、SGDやAdamの方が成績が良い時もある。実装時にはいろいろ試す必要あり
ざっくり言うと
Optimizerに関する論文。 OptimizerとしてSGD, Adamが一般的に利用されているが、Adamは収束が早いがfinalの精度が悪く、SGDは収束が遅いがfinalの精度が良い。 このようにSGD, Adamは一長一短の関係にある。 本論では学習初期にSGD, 学習最後にAdamを利用することで、良いところどりしたOptimizerが通れるという論文。
キーワード
Optimizer SGD, Adam , SWATS
1. 情報
論文リンク
https://arxiv.org/abs/1712.07628
著者
Nitish Shirish Keskar,
投稿日付
2017年
2. 先行研究と比べてどこがすごい?
3. 技術や手法のキモはどこ?
AdamからSGDに切り替えるタイミングで学習率をAdamからの情報を元にSGDに組み込むことで、SGDに切り替え後のSGDの性能はAdamを越すことができる。
4. どうやって有効だと検証した?
本論文ではSWATSの有用性を画像分類(dataset : CIFAR-100, CIFAR-10)、自然言語処理(dataset : ILSVRC 2012)の2つで検証
5. 議論はある?
6. 次に読むべき論文は?
7. 実装の詳細
https://github.com/Mrpatekful/swats
8. データセット
4に記載
9. 結果の詳細
画像学習、言語処理の多くの場合、SWATSはSGD, Adamより良い結果を残したが、SWATSは時々不安定になる時があり、SGDやAdamの方が成績が良い時もある。実装時にはいろいろ試す必要あり
雑感&メモ