nogawanogawa / paper_memo

4 stars 0 forks source link

Pay Attention to MLPs #40

Closed nogawanogawa closed 2 years ago

nogawanogawa commented 2 years ago

論文URL

https://arxiv.org/abs/2105.08050

著者

Hanxiao Liu, Zihang Dai, David R. So, Quoc V. Le

会議

NeurIPS 2021

背景

TransformerはNLPにおいてブレークスルーを引き起こし、CVの世界でもその有用性が報告されている。 Transformerは

  1. トークンの表現を並列に計算する非再帰的(recurrent-free )アーキテクチャ
  2. トークン間の位置情報を扱う multi-head self- attention

の2つの大きな特徴があると考えています。 ただし、attentionモジュールの帰納的バイアスがTransformerの成功に不可欠であるかは、未だ未解決な問題となっている。

目的

TransformerのNLPとCVのアプリケーションにおけるself-attentionモジュールの必要性を明らかにする

アプローチ

nogawanogawa commented 2 years ago

背景

TransformerはNLPにおいてブレークスルーを引き起こし、CVの世界でもその有用性が報告されている。 Transformerは

  1. トークンの表現を並列に計算する非再帰的(recurrent-free )アーキテクチャ
  2. トークン間の位置情報を扱う multi-head self- attention

の2つの大きな特徴があると考えています。 ただし、attentionモジュールの帰納的バイアスがTransformerの成功に不可欠であるかは、未だ未解決な問題となっている。

nogawanogawa commented 2 years ago

目的

TransformerのNLPとCVのアプリケーションにおけるself-attentionモジュールの必要性を明らかにする

アプローチ

nogawanogawa commented 2 years ago

gMLP

gMLPは同一サイズと構造を持つL個のブロックを積み重ねで構成される。 ブロックのアーキテクチャの概念図を下記に示す。

image

この構造でポイントになってくるのは、位置に関する相互作用を捉える箇所で、Transformerでは通常これをself-attentionで実現している。 gMLPではこれを通常のFFN(Feed forward network)で代用する。 したがって、このアーキテクチャの肝はトークン間の複雑な位置関係の相互作用を捕らえることができる層をデザインすることになる。

この方法でデザインを進めるため、gMLPではポジションエンコーディングを必要としない。

Spatial Gating Unit

トークン間の相互作用を可能にするために、単純かして線形射影を考える。

image

(bはバイアス、Zが入力シーケンス) このとき、Zが128のトークンである場合には、128×128の行列になる。 これを用いて線形ゲーティングを下記のように定式化する。

image

◎は要素ごとの乗算を表す。 (学習の安定性のため、Wを0に近い値、bを1として初期化する。これにより、学習の初期段階では通常のFFNのように振る舞い、徐々に空間情報が適用されていくような振る舞いになる)

更に、Zをチャネル次元に沿って2つの独立した部分(Z1、Z2)に分割することが効果的であることを見出した。

image

最終的に、上図にあるようなゲーティングユニットの構成になっている。

nogawanogawa commented 2 years ago

評価(CV)

ImageNetの画像分類タスクについて、ViT、DeiT, 他の代表的なCNNなどと比較を行う。 使用したパラメータの条件は下記の通り。

image

比較の結果を下記に示す。

image

gMLPはDeiTやViTと同等の性能が達成できていることがわかる。 この結果より、self-attentionがないモデルがTransformerと同等の性能を達成していることを示している。

また、パラメータ数に対する精度の比較が下記のようになっている。

image

他の手法と比べてもパラメータ数に対して高い精度を効率よく達成できており、SGUが有用で有ることがわかった。

nogawanogawa commented 2 years ago

評価(NLP)

Masked Language Modelについて検証を行う。 事前学習とfine-tuningのための入出力はBERTに従うこととする。

まずは比較のためのベースラインを確認する。

image

SGUは(BERTbase + rel posに比べて劣ってはいるものの)パープレキシティにおいて他の変種を凌駕し、SGUを用いたgMLPはTransformerに匹敵するパープレキシティを達成することが確認できる。

モデル容量が大きくなった場合のスケーリン グ特性を確認する。

image

image

Transformerベースの言語モデルであったスケーリング則が、異なるモデルに広く適用できる可能性があることを示しています。SST-2(感情分析系タスク)ではgMLPがTransformerを上回った。MNLI(含意関係認識系タスク)では下回った。 ただし、両方とも、モデルサイズに応じて同等のスケーラビリティを示していることから、モデルサイズを大きくするとこのギャップを埋められる可能性があります。

MNLIはSST-2と比べて、2文使用する点で異なっている。 そこで、軽量のAttentionモジュールを加えてハイブリッドモデルを考える。

image

これによって、MNLIでも優れた性能が達成できることがわかった。

image

最後にメインの結果について確認する。パラメータが親しいBERTのモデルと精度の比較を行っている。

image

タスクによって結果が異なっているが、SST2に関しては、BERTに比べて高い性能を達成している。 MNLIとSQuADは、微小なattentionを加えるだけでBERTより高い性能を達成している。

スケールが大きくなるにつれて、BERTに劣っている部分も徐々に差が詰まっている。(そのためx-largeはattentionを加えることなく高い性能を達成している)

さらにaMLPではBERTに比べて大きく性能が改善できることがわかる。 この結果はTransformerのmultihead attentionは冗長である可能性を示唆している。