yusukekyokawa / paper_list

2 stars 0 forks source link

AdaBelief Optimizer: Adapting Stepsizes by the Belief in Observed Gradients[2020] #66

Open yusukekyokawa opened 3 years ago

yusukekyokawa commented 3 years ago

書誌情報

論文リンク

https://arxiv.org/pdf/2010.07468v1.pdf

著者/所属機関

Juntang Zhuang1 ∗ ; Tommy Tang2 ; Sekhar Tatikonda1 ; Nicha Dvornek1 ; Yifan Ding3 ; Xenophon Papademetris1 ; James S. Duncan1

conf/journal

year

2020

どんな論文か?

Adamの後続系のoptimizer. 現在の勾配における指数移動平均(EMA)を次の時間ステップでの勾配の予測とみなし.観測された勾配が予測と大きく異なる場合は現在の観測を信頼せず,スモールステップにする.観測された勾配が予測と近い場合はそれを信頼して大きなステップを取る. ImageNetではSGDと同精度を達成.またCIFAR10のGANのトレーニングではAdamよりも安定性が高いことを示した.

新規性

手法

結果

コメント

python実装はこちら https://github.com/juntang-zhuang/Adabelief-Optimizer

yusukekyokawa commented 3 years ago

Fig1. 損失関数の各ポイントにおける勾配と理想的なステップについて

  1. では勾配自体は小さい.差分をとっても小さいためstepsizeは小さくなる.
  2. 勾配は大きい.差分をとっても大きいためstepsizeは大きい
  3. 勾配は大きい.差分が小さいためstepsizeは小さい. image

Table1. 前述のポイントとstepsizeの理想型. 全ての理想パタンにAdaBeliefのみが適応している. image