usersan / papers

読んだ論文のメモ置き場:主にエッジAI、高速化、FPGA実装関連など
0 stars 0 forks source link

An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale #37

Open tera1k opened 10 months ago

tera1k commented 10 months ago

0. 論文

https://openreview.net/forum?id=YicbFdNTTy https://arxiv.org/abs/2010.11929

Alexey Dosovitskiy, Lucas Beyer, Alexander Kolesnikov, Dirk Weissenborn, Xiaohua Zhai, Thomas Unterthiner, Mostafa Dehghani, Matthias Minderer, Georg Heigold, Sylvain Gelly, Jakob Uszkoreit, Neil Houlsby

解説

1. どんなもの?

TransformerのEncoder部分を画像タスクに当てはめ

image

画像はパッチに分けてFlattenしてベクトルにして入力する それを位置エンコーディング

アーキテクチャ image

学習

2. 先行研究と比べてどこがすごい?

3. 技術や手法のキモはどこ?

4. どうやって有効だと検証した?

5. 議論はある?

6. 次に読むべき論文は?