Open yusukekyokawa opened 3 years ago
https://arxiv.org/pdf/2010.07468v1.pdf
Juntang Zhuang1 ∗ ; Tommy Tang2 ; Sekhar Tatikonda1 ; Nicha Dvornek1 ; Yifan Ding3 ; Xenophon Papademetris1 ; James S. Duncan1
2020
Adamの後続系のoptimizer. 現在の勾配における指数移動平均(EMA)を次の時間ステップでの勾配の予測とみなし.観測された勾配が予測と大きく異なる場合は現在の観測を信頼せず,スモールステップにする.観測された勾配が予測と近い場合はそれを信頼して大きなステップを取る. ImageNetではSGDと同精度を達成.またCIFAR10のGANのトレーニングではAdamよりも安定性が高いことを示した.
python実装はこちら https://github.com/juntang-zhuang/Adabelief-Optimizer
Fig1. 損失関数の各ポイントにおける勾配と理想的なステップについて
Table1. 前述のポイントとstepsizeの理想型. 全ての理想パタンにAdaBeliefのみが適応している.
書誌情報
論文リンク
https://arxiv.org/pdf/2010.07468v1.pdf
著者/所属機関
Juntang Zhuang1 ∗ ; Tommy Tang2 ; Sekhar Tatikonda1 ; Nicha Dvornek1 ; Yifan Ding3 ; Xenophon Papademetris1 ; James S. Duncan1
conf/journal
year
2020
どんな論文か?
Adamの後続系のoptimizer. 現在の勾配における指数移動平均(EMA)を次の時間ステップでの勾配の予測とみなし.観測された勾配が予測と大きく異なる場合は現在の観測を信頼せず,スモールステップにする.観測された勾配が予測と近い場合はそれを信頼して大きなステップを取る. ImageNetではSGDと同精度を達成.またCIFAR10のGANのトレーニングではAdamよりも安定性が高いことを示した.
新規性
手法
結果
コメント
python実装はこちら https://github.com/juntang-zhuang/Adabelief-Optimizer