agatan / paper-reading-notes

読んだ論文の管理とメモ置き場
5 stars 0 forks source link

Adaptive Gradient Methods with Dynamic Bound of Learning Rate #3

Open agatan opened 5 years ago

agatan commented 5 years ago

最適化手法の提案。結構いろいろな実験をしていて、良さそうな気配を感じる。

Adam は学習の終盤になると、異常に小さい / 大きい学習率になるものが出てくることを実験で確かめている。(これが汎化性能の低さにつながっているらしい。そういう論文があるっぽいけど読んでいないです)

そこで動的に変化する bound (初期値は 0~∞)し、学習率をこの bound に収まるように clip する。 学習が進むに連れて(= step 数に応じて?) bound の値も狭まって定数に近づくようにする。

感覚的には、最初はただの Adaptive method → step を経るごとに bound の幅が小さくなる = SGD に近づく → 最終的には学習率は定数 = SGD と一致する、と理解すれば良さそう。

全体的にやたら良い... ちゃんと CNN / RNN ふくむいくつかのタスクで実験しているし良さそう。