Open agatan opened 5 years ago
最適化手法の提案。結構いろいろな実験をしていて、良さそうな気配を感じる。
Adam は学習の終盤になると、異常に小さい / 大きい学習率になるものが出てくることを実験で確かめている。(これが汎化性能の低さにつながっているらしい。そういう論文があるっぽいけど読んでいないです)
そこで動的に変化する bound (初期値は 0~∞)し、学習率をこの bound に収まるように clip する。 学習が進むに連れて(= step 数に応じて?) bound の値も狭まって定数に近づくようにする。
感覚的には、最初はただの Adaptive method → step を経るごとに bound の幅が小さくなる = SGD に近づく → 最終的には学習率は定数 = SGD と一致する、と理解すれば良さそう。
全体的にやたら良い... ちゃんと CNN / RNN ふくむいくつかのタスクで実験しているし良さそう。
最適化手法の提案。結構いろいろな実験をしていて、良さそうな気配を感じる。
Adam は学習の終盤になると、異常に小さい / 大きい学習率になるものが出てくることを実験で確かめている。(これが汎化性能の低さにつながっているらしい。そういう論文があるっぽいけど読んでいないです)
そこで動的に変化する bound (初期値は 0~∞)し、学習率をこの bound に収まるように clip する。 学習が進むに連れて(= step 数に応じて?) bound の値も狭まって定数に近づくようにする。
感覚的には、最初はただの Adaptive method → step を経るごとに bound の幅が小さくなる = SGD に近づく → 最終的には学習率は定数 = SGD と一致する、と理解すれば良さそう。
全体的にやたら良い... ちゃんと CNN / RNN ふくむいくつかのタスクで実験しているし良さそう。