Open tera1k opened 10 months ago
https://arxiv.org/abs/2205.14135
Tri Dao, Daniel Y. Fu, Stefano Ermon, Atri Rudra, Christopher Ré
従来のAttentionは
Attention演算をタイルに分割 SRAMに乗るようにする
https://zenn.dev/nhandsome/articles/388b2ebb57d5d1
0. 論文
https://arxiv.org/abs/2205.14135
Tri Dao, Daniel Y. Fu, Stefano Ermon, Atri Rudra, Christopher Ré
1. どんなもの?
2. 先行研究と比べてどこがすごい?
従来のAttentionは
3. 技術や手法のキモはどこ?
Attention演算をタイルに分割 SRAMに乗るようにする
4. どうやって有効だと検証した?
5. 議論はある?
6. 次に読むべき論文は?