Open tera1k opened 1 year ago
https://arxiv.org/abs/2102.12122
Wenhai Wang, Enze Xie, Xiang Li, Deng-Ping Fan, Kaitao Song, Ding Liang, Tong Lu, Ping Luo, Ling Shao
空間サイズを縮小してマルチヘッドアテンションを計算
0. 論文
https://arxiv.org/abs/2102.12122
Wenhai Wang, Enze Xie, Xiang Li, Deng-Ping Fan, Kaitao Song, Ding Liang, Tong Lu, Ping Luo, Ling Shao
1. どんなもの?
空間サイズを縮小してマルチヘッドアテンションを計算
2. 先行研究と比べてどこがすごい?
3. 技術や手法のキモはどこ?
4. どうやって有効だと検証した?
5. 議論はある?
6. 次に読むべき論文は?