Open agatan opened 3 years ago
Transformer の改良版。Post-LN, Pre-LN についても触れられているので読んでみると良いかも。
Transformer の Attention の重みに Residual Connection を採用している。
ネットワーク構造をいじった結果、Attention にどんな変化がもたらされて、それがなぜ性能向上に寄与したのか、が考察されている。
(年末に軽く話した時は Informer
という名前だったが、被ったので変えたっぽい?)
話題の新 Optimizer. Loss と Weight から成る平面がスムーズであること(Weight をちょっと変えただけで Loss が乱高下しないこと)と、汎化性能の関係については先行研究である程度示されているらしい。 そこで、それを陽に取り入れた Objective で最適化することで、様々なタスクでの Val/Test Score の向上を確認している。 副次的な効果として、ラベルノイズにも強くなったらしい。
Train Loss に対して最適化するのはそもそも汎化性能という観点ではベストじゃない、スムーズな方が良い、というのは直感的にはまぁそうかなという気がする。 更新式の都合上、1 step ごとに 2 回 forward/backward が必要なのでおっそい。 公式実装が jax で時代を感じた。
Why
Machine Learning 輪講は最新の技術や論文を追うことで、エンジニアが「技術で解決できること」のレベルをあげていくことを目的にした会です。
prev. #80
What
話したいことがある人はここにコメントしましょう! 面白いものを見つけた時点でとりあえず話すという宣言だけでもしましょう!