[2021/01/07] Machine Learning 輪講

agatan commented 3 years ago

Why

Machine Learning 輪講は最新の技術や論文を追うことで、エンジニアが「技術で解決できること」のレベルをあげていくことを目的にした会です。

prev. #80

What

話したいことがある人はここにコメントしましょう！面白いものを見つけた時点でとりあえず話すという宣言だけでもしましょう！

agatan commented 3 years ago

RealFormer: Transformer Likes Residual Attention

https://arxiv.org/abs/2012.11747v2

Transformer の改良版。Post-LN, Pre-LN についても触れられているので読んでみると良いかも。 Transformer の Attention の重みに Residual Connection を採用している。ネットワーク構造をいじった結果、Attention にどんな変化がもたらされて、それがなぜ性能向上に寄与したのか、が考察されている。（年末に軽く話した時は Informer という名前だったが、被ったので変えたっぽい？）

Sharpness-Aware Minimization for Efficiently Improving Generalization

https://arxiv.org/abs/2010.01412

話題の新 Optimizer. Loss と Weight から成る平面がスムーズであること（Weight をちょっと変えただけで Loss が乱高下しないこと）と、汎化性能の関係については先行研究である程度示されているらしい。そこで、それを陽に取り入れた Objective で最適化することで、様々なタスクでの Val/Test Score の向上を確認している。副次的な効果として、ラベルノイズにも強くなったらしい。

Train Loss に対して最適化するのはそもそも汎化性能という観点ではベストじゃない、スムーズな方が良い、というのは直感的にはまぁそうかなという気がする。更新式の都合上、1 step ごとに 2 回 forward/backward が必要なのでおっそい。公式実装が jax で時代を感じた。

agatan commented 3 years ago

時間あったら

Scheduled DropHead: A Regularization Method for Transformer Models
- https://arxiv.org/abs/2004.13342v2
Improving Transformer Models by Reordering their Sublayers
- https://www.aclweb.org/anthology/2020.acl-main.270.pdf
Simple Recurrent Units for Highly Parallelizable Recurrence (SRU)
- https://arxiv.org/abs/1709.02755v5
Normalized Loss Functions for Deep Learning with Noisy Labels
- https://arxiv.org/abs/2006.13554
AdaBelief Optimizer: Adapting Stepsizes by the Belief in Observed Gradients
- https://arxiv.org/abs/2010.07468

wantedly / machine-learning-round-table