Open soyamash opened 3 years ago
モデルの効率性
生のTrandformer。(Layer Normalization層が後ろにあるPost-NL)
1ブロックを式にまとめると以下
ボトルネックになっているのは主にself-attentionのQK部分でナイーブにやれば文長Nに対してO(N^2)の計算量。なのでここを削減する
効率的なtransformerの分類
一応分類したが、これらの境目はだいぶ曖昧で、例えば、Routing Transformer (Roy et al., 2020)のk-meansクラスタリングは、セントロイドをパラメータ化されたメモリとして見ることができるので、グローバルメモリアプローチの一形態として解釈することもできる。 しかし、Reformerでは、これはattention重みのスパーシティパターンを学習するために使用される。さらに、プーリングは記憶モデルの一形態としても解釈できる
attention行列計算の効率化以外にも、併用できる効率化手法はいくつかある
https://arxiv.org/abs/2009.06732