Pyramid Vision Transformer: A Versatile Backbone for Dense Prediction without Convolutions - Githubissues

usersan / papers

読んだ論文のメモ置き場：主にエッジAI、高速化、FPGA実装関連など

0 stars 0 forks source link

Pyramid Vision Transformer: A Versatile Backbone for Dense Prediction without Convolutions #42

Open tera1k opened 10 months ago

tera1k commented 10 months ago

0. 論文

https://arxiv.org/abs/2102.12122

Wenhai Wang, Enze Xie, Xiang Li, Deng-Ping Fan, Kaitao Song, Ding Liang, Tong Lu, Ping Luo, Ling Shao

1. どんなもの？

空間サイズを縮小してマルチヘッドアテンションを計算

2. 先行研究と比べてどこがすごい？

3. 技術や手法のキモはどこ？

4. どうやって有効だと検証した？

5. 議論はある？

6. 次に読むべき論文は？