cfiken commented 4 years ago

0. 論文

タイトル

Compressive Transformers for Long-Range Sequence Modelling

リンク

https://arxiv.org/abs/1911.05507

著者

Jack W. Rae, Anna Potapenko, Siddhant M. Jayakumar, Timothy P. Lillicrap

投稿日付

ICLR2020 (Submitted on 13 Nov 2019)

1. どんなもの？

TransformerXL のアイディアを元にして、より長期間の系列をメモリに保存・活用できる Compressive Transformers を提案。 TransformerXL では過去の系列の activation をメモリとして保存しておくが、メモリサイズ n 以上の過去の系列は捨てることになる。Compressive Transformer では、Fig.1 のように捨てられるメモリを圧縮して Compressive Memory として保存しておくことで、より長期間の情報を活用できる。スクリーンショット 2020-03-11 23 17 49

WikiText-103 と Enwik8 で長い系列の言語モデルのための PG-19 という book based なベンチマークも作成した。

2. 先行研究と比べてどこがすごい？

先行研究では attention の範囲を広げる工夫や、attention の演算コストを下げる研究が多い。本研究では古いメモリを圧縮して保存することで activation の量は少なくしつつ長期のメモリを保存することができる。また、スピーチの認識や強化学習におけるメモリ構造にも適用し、効率よく長期のメモリを保持できていることを示した。

3. 技術や手法のキモはどこ？

古いメモリを圧縮して持つというシンプルな方法で attention 自体のアルゴリズムの修正必要なしに、長期間のメモリ保存を可能にする。
古いメモリのユニット n 個分を n/c 個のユニットに圧縮して保存する(下記で定義される関数を適用)。
- 圧縮方法は複数実験しており、(1) max/mean pooling, (2) 1D convolution, (3) dilated convolution, (4) most-used を試している。
- (2) と (3) はパラメータを持つ。
パラメータを持つ圧縮関数については、auxiliary loss を定義して学習させる
- (1) auto-encoding: 圧縮前後のメモリの再現 loss
- (2) attention-reconstruction loss: 圧縮前後の入力(の隠れ層)との attention の再現 loss
  - これが一番良かった
TransformerXL に比べて c = 3 のとき同じ計算量で二倍の系列を見ることができる

4. どうやって有効だと検証した？

実験は提案したベンチマークである PG-19 に加えて、Enwik8, WikiText-103 で実験。それぞれでベースラインである TransformerXL のスコアを更に改善した。 Speech モデリング (vs. WaveNet), 強化学習 (vs. IMPALA の LSTM(?)) のタスクでもそれぞれ実験を行い、Compressed Memory による可能性を確認した。

5. 議論はある？

下記は研究課題としてあるとのこと

他のドメインへの応用は更に可能か
compression rate はレイヤごとに調整すべきか
compressor に RNN の利用

6. 次に読むべき論文は？

Transformer-XL: Attentive Language Models Beyond a Fixed-Length Context
- https://arxiv.org/abs/1901.02860
Sparse Transformer
- https://openai.com/blog/sparse-transformer/

cfiken commented 4 years ago

レイヤーごとの圧縮性能

深いレイヤほどより high level な特徴となっていると期待されるため、圧縮するのが難しいのではないかという仮説から、各レイヤの圧縮制度(ロス)を可視化。

Fig. 6

スクリーンショット 2020-03-12 01 49 15

図を見るに、1層目の圧縮損失はかなり小さいため簡単であることは分かるが、深いほど難しいということはなさそう。

どのように attention されているか

Input Sequence, Memory, Compressed Memory と3つの要素を持つが、それぞれどのように attention されているかを調査。 20,000 サンプルを用い、入力系列を18バケット (それぞれのグループで6つずつ) に分けて attention weights の平均を可視化した。

Fig. 2 スクリーンショット 2020-03-12 01 52 07

基本的にメモリが古くなるほど attention weight は小さくなっている (12~7) が、compressed memory に入ったタイミングで少し大きくなっているのが分かる。これにより、memory から重要な情報をうまく取られて圧縮できていることが分かる。

cfiken commented 4 years ago

学習にかなり凝っているのが少し気になる。再現性あるのだろうか。
対象ドメインとしては long rage language modeling として story や narrative を上げているが、会話のコンテキスト保持に使えそう。
細かい仮説まで実験・可視化されていて、通すにはここまでしっかり分析必要なんだなと思った
論文でも述べられているが video の memory 保持には結構使えそう。
使用リソースがやばいのでどちらにせよ再現モデルは作れない。。。

cfiken / paper-reading

[2019] Compressive Transformers for Long-Range Sequence Modelling #40

0. 論文

タイトル

リンク

著者

投稿日付

1. どんなもの？

2. 先行研究と比べてどこがすごい？

3. 技術や手法のキモはどこ？

4. どうやって有効だと検証した？

5. 議論はある？

6. 次に読むべき論文は？

レイヤーごとの圧縮性能

どのように attention されているか

コメント