An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale - Githubissues

usersan / papers

読んだ論文のメモ置き場：主にエッジAI、高速化、FPGA実装関連など

0 stars 0 forks source link

An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale #37

Open tera1k opened 1 year ago

tera1k commented 1 year ago

0. 論文

https://openreview.net/forum?id=YicbFdNTTy https://arxiv.org/abs/2010.11929

Alexey Dosovitskiy, Lucas Beyer, Alexander Kolesnikov, Dirk Weissenborn, Xiaohua Zhai, Thomas Unterthiner, Mostafa Dehghani, Matthias Minderer, Georg Heigold, Sylvain Gelly, Jakob Uszkoreit, Neil Houlsby

解説

https://qiita.com/omiita/items/0049ade809c4817670d7

1. どんなもの？

TransformerのEncoder部分を画像タスクに当てはめ

画像はパッチに分けてFlattenしてベクトルにして入力するそれを位置エンコーディング

アーキテクチャ

Pre-Norm[Wang, Q.(ACL'19)]: NormがMulti-Head Attention / MLPの前に位置する。
GELU[Hendrycks, D.(2016)]:MLPは2層で活性化関数にGELUを採用(BERTも同様。オリジナルはReLUを使用。)。

学習

巨大なデータセットで事前学習 + ファインチューニング
ファインチューニングの際には、ViTのMLPヘッドを取り替え
事前学習時の解像度(e.g 224)よりもファインチューニング時の解像度を大きく(e.g 384)する。[Touvron, H.(NeurIPS'19)]
パッチの大きさは事前学習とファインチューニングで一定。(つまり、ファインチューニング時は解像度が大きいのでパッチの数が増える。)
事前学習で学習した位置エンコーディングはファインチューニング時には足りないところを内挿で補う

2. 先行研究と比べてどこがすごい？

3. 技術や手法のキモはどこ？

4. どうやって有効だと検証した？

5. 議論はある？

6. 次に読むべき論文は？