wantedly / machine-learning-round-table

Gather around the table, and have a discussion to catch up the latest trend of machine learning 🤖
https://www.wantedly.com/projects/391912
305 stars 2 forks source link

[2021/01/07] Machine Learning 輪講 #83

Open agatan opened 3 years ago

agatan commented 3 years ago

Why

Machine Learning 輪講は最新の技術や論文を追うことで、エンジニアが「技術で解決できること」のレベルをあげていくことを目的にした会です。

prev. #80

What

話したいことがある人はここにコメントしましょう! 面白いものを見つけた時点でとりあえず話すという宣言だけでもしましょう!

agatan commented 3 years ago

RealFormer: Transformer Likes Residual Attention

Transformer の改良版。Post-LN, Pre-LN についても触れられているので読んでみると良いかも。 Transformer の Attention の重みに Residual Connection を採用している。 ネットワーク構造をいじった結果、Attention にどんな変化がもたらされて、それがなぜ性能向上に寄与したのか、が考察されている。 (年末に軽く話した時は Informer という名前だったが、被ったので変えたっぽい?)

Sharpness-Aware Minimization for Efficiently Improving Generalization

話題の新 Optimizer. Loss と Weight から成る平面がスムーズであること(Weight をちょっと変えただけで Loss が乱高下しないこと)と、汎化性能の関係については先行研究である程度示されているらしい。 そこで、それを陽に取り入れた Objective で最適化することで、様々なタスクでの Val/Test Score の向上を確認している。 副次的な効果として、ラベルノイズにも強くなったらしい。

Train Loss に対して最適化するのはそもそも汎化性能という観点ではベストじゃない、スムーズな方が良い、というのは直感的にはまぁそうかなという気がする。 更新式の都合上、1 step ごとに 2 回 forward/backward が必要なのでおっそい。 公式実装が jax で時代を感じた。

agatan commented 3 years ago

時間あったら