Open tera1k opened 1 year ago
https://openreview.net/forum?id=YicbFdNTTy https://arxiv.org/abs/2010.11929
Alexey Dosovitskiy, Lucas Beyer, Alexander Kolesnikov, Dirk Weissenborn, Xiaohua Zhai, Thomas Unterthiner, Mostafa Dehghani, Matthias Minderer, Georg Heigold, Sylvain Gelly, Jakob Uszkoreit, Neil Houlsby
解説
TransformerのEncoder部分を画像タスクに当てはめ
画像はパッチに分けてFlattenしてベクトルにして入力する それを位置エンコーディング
アーキテクチャ
学習
0. 論文
https://openreview.net/forum?id=YicbFdNTTy https://arxiv.org/abs/2010.11929
Alexey Dosovitskiy, Lucas Beyer, Alexander Kolesnikov, Dirk Weissenborn, Xiaohua Zhai, Thomas Unterthiner, Mostafa Dehghani, Matthias Minderer, Georg Heigold, Sylvain Gelly, Jakob Uszkoreit, Neil Houlsby
解説
1. どんなもの?
TransformerのEncoder部分を画像タスクに当てはめ
画像はパッチに分けてFlattenしてベクトルにして入力する それを位置エンコーディング
アーキテクチャ
学習
2. 先行研究と比べてどこがすごい?
3. 技術や手法のキモはどこ?
4. どうやって有効だと検証した?
5. 議論はある?
6. 次に読むべき論文は?