cfiken commented 4 years ago

0. 論文

タイトル	Synthesizer: Rethinking Self-Attention in Transformer Models
リンク	https://arxiv.org/abs/2005.00743
著者	Yi Tay, Dara Bahri, Donald Metzler, Da-Cheng Juan, Zhe Zhao, Che Zheng
投稿日付	2020/05/02 on arxiv

1. どんなもの？

Transformer の self-attention 機構の attention weight について調査・実験を行った研究。通常の self-attention では、dot-product により入力文の token ごとの相互作用で計算され、結果として入力サンプルごとに異なるものとなる。これが本当に意味があるのか検証を行うため、attention weight を別のもので置き換えたモデル SYNTHESIZER を定義し実験。結果として、token 同士の作用とは無関係に attention weight を学習させたもの (Dense Synthesizer) でも Transformer と同等の性能となり、かつまたランダム行列を attention weight に用いたもの(Random Synthesizer)でも一部タスクでは十分良い性能となること確認した。

スクリーンショット 2020-05-17 17 29 22

2. 先行研究と比べてどこがすごい？

Transformer の self-attention の効果に関する内容は珍しく、かつその効果がほぼないという結果は目新しいもので驚きが大きい。

3. 技術や手法のキモはどこ？

2つの Synthetic Attention を提案・実験。

Dense Synthesizer
- Key, Query の dot-product の代わりに、token ごとの dense layer を通して shape を揃えるもの。
- 次のような [length, dim] -> [length, length] となる関数を用意する
- attention layer の出力は, これに value である G(X) をかけた次になる。
- 実際は、次のように F(X) は2層の FFN を使う (記号が同じだが実際は違う重みかと思われる? shape 合わないので)
  - σ_R は relu. どっちが次元圧縮になってるのは不明。
Random Synthesizer
- Dense Synthesizer では関数を通じて input tokens から計算した B を、ランダム初期化して R とする
- input tokens に依存せず、task に対して有効で global な alignment となることが目的。
- attention layer の出力は value をかけて次になる。
- この R は、trainable と fixed の両方を試す。結果的に relative positional representation のようなものになっていると推測できる。
- パラメータ数は length x length
この2つに加えて、Dense, Random それぞれのパラメータ削減のための Factorized バージョンと、更に Vanilla Transformer も含めて組み合わせた mixing バージョンなど実験している。

Transformers を含めた違いの一覧は表1に載っている。

スクリーンショット 2020-05-17 20 19 56

4. どうやって有効だと検証した？

提案した複数のモデル(組み合わせ含む)を WMT (翻訳), LM1B (LM), CNN/Dailymail (要約), PersonaChat (対話) で実験を行い、Vanilla Transformer 比較した。結果は下記表。全体として、vanilla transformer でなくても性能が大差なく、random matrix (fixed) でも多少劣るがそこそこの性能が出る。また、attention 部分を Vanilla + Dense など組み合わせることで Vanilla Transformer を超える性能になっている。

スクリーンショット 2020-05-18 01 13 06 スクリーンショット 2020-05-18 01 13 13

その他の実験はコメントで。

5. 議論はある？

タスクによって、dot-product が良いものもあれば、dense や random の synthesizer が良いものもあるっぽい
- 要約は dot-product から変えると精度が落ちる。token-token の interaction が重要なのかもしれない。
- 対話は dot-product だと精度が落ちる。mix でも落ちる。token-token interaction が精度を下げる可能性がある。
- GLUE などであるの2つの文を入力するタスクは結果的に self-attention が二文の attention (cross-attention) になるので、除くと精度が落ちる。

6. 次に読むべき論文は？

Fixed Encoder Self-Attention Patterns in Transformer-Based Machine Translation
- https://arxiv.org/abs/2002.10260 Alessandro Raganato, Yves Scherrer, Jörg Tiedemann
- 似ている先行研究として紹介
- fixed な attention weights (人手で作成) を用いて機械翻訳であまり性能が変わらないことを確認

cfiken commented 4 years ago

7. GLUE, SuperGLUE

GLUE, SuperGLUE での実験では、SYNTHESIZER では基本的に精度が上がらなかった。理由としては、一部のタスクで Machine Comprehension や Entailment など、2つの文を入力するケースが存在し、その場合は self-attention が実質 cross-attention となるため。その場合でも Random Synthesizer を Vanilla に加えることが精度向上につながっていることも確認した。

スクリーンショット 2020-05-18 20 38 29

Analysis

実際の attention weights の分布を確認する。6 layers の Transformer と SYNTHESIZER で学習し、可視化。

vanilla の場合、ほとんどが小さい値で variance が小さい
SYNTHESIZER の方が variance が大きい
SYNTHESIZER の Dense の方が Random よりも最大値がやや大きい

上記のように、分布において3つは区別できるような違いがあった。

スクリーンショット 2020-05-18 20 42 52

cfiken commented 4 years ago

Additional Variants of Synthesizer

Appendix で他のものを使った Synthesizer も試していた。

スクリーンショット 2020-05-18 21 07 36

cfiken commented 4 years ago

感想

「ランダム行列でも同等のスコア」とあって最初は驚いたが、self-attention ではなく attention weights を直接学習する、かつ初期値がランダム行列、という話だった。とはいえランダム行列で固定でもそこそこの性能が出ているとのことだが、これは比較しないとなんとも...。attention weights 部分がなくなっても FFN は残っておりパラメータは多いので、ある程度の性能は出そう。確かに token-token の関係性だけで判断する dot-product が主流となっていたが、タスクによっての global な attention weights があっても良いのは自然。

cfiken / paper-reading

[2020] Synthesizer: Rethinking Self-Attention in Transformer Models #49

0. 論文

1. どんなもの？

2. 先行研究と比べてどこがすごい？

3. 技術や手法のキモはどこ？

4. どうやって有効だと検証した？

5. 議論はある？

6. 次に読むべき論文は？

7. GLUE, SuperGLUE

Analysis

Additional Variants of Synthesizer

感想