AdaBelief Optimizer: Adapting Stepsizes by the Belief in Observed Gradients[2020]

書誌情報

論文リンク

https://arxiv.org/pdf/2010.07468v1.pdf

著者/所属機関

Juntang Zhuang1 ∗ ; Tommy Tang2 ; Sekhar Tatikonda1 ; Nicha Dvornek1 ; Yifan Ding3 ; Xenophon Papademetris1 ; James S. Duncan1

conf/journal

year

2020

どんな論文か？

Adamの後続系のoptimizer. 現在の勾配における指数移動平均(EMA)を次の時間ステップでの勾配の予測とみなし．観測された勾配が予測と大きく異なる場合は現在の観測を信頼せず，スモールステップにする．観測された勾配が予測と近い場合はそれを信頼して大きなステップを取る． ImageNetではSGDと同精度を達成．またCIFAR10のGANのトレーニングではAdamよりも安定性が高いことを示した．

新規性

手法

結果

python実装はこちら https://github.com/juntang-zhuang/Adabelief-Optimizer

yusukekyokawa / paper_list

AdaBelief Optimizer: Adapting Stepsizes by the Belief in Observed Gradients[2020] #66