sanoyo / all-paper-deep-learning-machine-lerning

0 stars 0 forks source link

Fixing Weight Decay Regularization #7

Open sanoyo opened 5 years ago

sanoyo commented 5 years ago

要約

Adamの汎用化能力が、SGDに比べて低くなってしまうことに対しての原因調査、及び解決策を提示した論文。
注目した箇所は、Weight DecayとL2 regularizationが同じ値になること。
下記2つの解決策が提示されている。

  1. AdamとWeight Decayのオリジナルの式を組み合わる
  2. Weight Decayとcosine annealing、Warm restartsを組み合わせる

論文リンク

https://arxiv.org/abs/1711.05101

参考リンク

https://qiita.com/koshian2/items/4c27c887438a52062d97 http://ruder.io/deep-learning-optimization-2017/