Efficient Transformers: A Survey

soyamash commented 3 years ago

https://arxiv.org/abs/2009.06732

soyamash commented 3 years ago

モデルの効率性

メモリフットプリント
学習と推論の両方の間の計算コスト、例えばFLOPsの数

soyamash commented 3 years ago

生のTrandformer。（Layer Normalization層が後ろにあるPost-NL）

1ブロックを式にまとめると以下

ボトルネックになっているのは主にself-attentionのQK部分でナイーブにやれば文長Nに対してO(N^2)の計算量。なのでここを削減する

soyamash commented 3 years ago

効率的なtransformerの分類

soyamash commented 3 years ago

Fixed Patterns (FP)

Blockwise Patterns - 例としては、Blockwise(Qiu et al., 2019)やLocal Attention(Parmar et al., 2018)など。入力シーケンスを文全体からある長さのブロックに限定することで、複雑さをN^2からB^2（ブロックサイズ）に減らし、B <<<< Nであればあるほど効率的
Strided Patterns - 大股のattentionパターン。一定の間隔でスパースにattentionする。Sparse Transformer (Child et al., 2019)やLongformer (Beltagy et al., 2020)など
Compressed Patterns - pooling操作を行い、入力文の長さをダウンサンプルして固定パターンの形にする。Compressed Attention (Liu et al., 2018)はストライド畳み込みを使用して、入力文の長さを効果的に削減します

Combination of Patterns (CP)

複数のFPを組み合わせることで、attention機構の全体的なカバレッジを向上させる

Learnable Patterns (LP)

attentionパターン自体を学習させてしまう。具体的にはdata-drivenにtokenをあるクラスタと関連付ける。Reformer (Kitaev et al., 2020)はハッシュベースの類似度尺度を用いて、tokenをクラスタリングする。Routing Transformer (Roy et al., 2020)は、tokenに対してオンラインk-meansクラスタリングを行う。あくまでFPと同じように固定パターンでattentionの対象を限定しているが、学習された最適なクラスタリング手法でtokenまとめ上げることでattentionする先を選んでいる

Memory

複数のtokenに一度にアクセスできるサイドメモリモジュール（グローバルメモリ）を利用する。限られたメモリに入力文を圧縮するために予備的なプーリング操作を行う

Low-Rank Methods

attention行列（N^2）を低次元に圧縮する。Linformer (Wang et al., 2020b)が典型的な例

Kernels

カーネルを用いてattentionを効率的に計算する。やってることはattention行列の近似であり、Low-Rank Methodsの一形態と考えることもできる

Recurrence

blockwise methodの単純な拡張として、block化されたtokenを再帰的に読み込んでいく。Transformer-XL (Dai et al., 2019)など。fixed patternの一形態とも考えられるが、差別化のためにここでは別タイプとして分類する

soyamash commented 3 years ago

一応分類したが、これらの境目はだいぶ曖昧で、例えば、Routing Transformer (Roy et al., 2020)のk-meansクラスタリングは、セントロイドをパラメータ化されたメモリとして見ることができるので、グローバルメモリアプローチの一形態として解釈することもできる。しかし、Reformerでは、これはattention重みのスパーシティパターンを学習するために使用される。さらに、プーリングは記憶モデルの一形態としても解釈できる

soyamash commented 3 years ago

attention行列計算の効率化以外にも、併用できる効率化手法はいくつかある

Weight Sharing

Quantization / Mixed Precision

Knowledge Distillation

Neural Architecture Search (NAS)

より効率的なtransformerアーキテクチャの探索
Task Adapters
T個のタスクで巨大なTransformerをfine-tuning する設定において、そのわずらわしさを軽減することを考える。タスクアダプタ(Houlsby et al., 2019)は、タスク間でのパラメータの再利用を可能にし全体的なパラメータの節約を図る

soyamash / read_paper