Open cfiken opened 4 years ago
深いレイヤほどより high level な特徴となっていると期待されるため、圧縮するのが難しいのではないかという仮説から、各レイヤの圧縮制度(ロス)を可視化。
Fig. 6
図を見るに、1層目の圧縮損失はかなり小さいため簡単であることは分かるが、深いほど難しいということはなさそう。
Input Sequence, Memory, Compressed Memory と3つの要素を持つが、それぞれどのように attention されているかを調査。 20,000 サンプルを用い、入力系列を18バケット (それぞれのグループで6つずつ) に分けて attention weights の平均を可視化した。
Fig. 2
基本的にメモリが古くなるほど attention weight は小さくなっている (12~7) が、compressed memory に入ったタイミングで少し大きくなっているのが分かる。 これにより、memory から重要な情報をうまく取られて圧縮できていることが分かる。
0. 論文
タイトル
Compressive Transformers for Long-Range Sequence Modelling
リンク
https://arxiv.org/abs/1911.05507
著者
Jack W. Rae, Anna Potapenko, Siddhant M. Jayakumar, Timothy P. Lillicrap
投稿日付
ICLR2020 (Submitted on 13 Nov 2019)
1. どんなもの?
TransformerXL のアイディアを元にして、より長期間の系列をメモリに保存・活用できる Compressive Transformers を提案。 TransformerXL では過去の系列の activation をメモリとして保存しておくが、メモリサイズ n 以上の過去の系列は捨てることになる。Compressive Transformer では、Fig.1 のように捨てられるメモリを圧縮して Compressive Memory として保存しておくことで、より長期間の情報を活用できる。
WikiText-103 と Enwik8 で 長い系列の言語モデルのための PG-19 という book based なベンチマークも作成した。
2. 先行研究と比べてどこがすごい?
先行研究では attention の範囲を広げる工夫や、attention の演算コストを下げる研究が多い。 本研究では古いメモリを圧縮して保存することで activation の量は少なくしつつ長期のメモリを保存することができる。 また、スピーチの認識や強化学習におけるメモリ構造にも適用し、効率よく長期のメモリを保持できていることを示した。
3. 技術や手法のキモはどこ?
4. どうやって有効だと検証した?
実験は提案したベンチマークである PG-19 に加えて、Enwik8, WikiText-103 で実験。それぞれでベースラインである TransformerXL のスコアを更に改善した。 Speech モデリング (vs. WaveNet), 強化学習 (vs. IMPALA の LSTM(?)) のタスクでもそれぞれ実験を行い、Compressed Memory による可能性を確認した。
5. 議論はある?
下記は研究課題としてあるとのこと
6. 次に読むべき論文は?