[2019] Transformer-XL: Attentive Language Models Beyond a Fixed-Length Context

IkokObi commented 5 years ago

ざっくり言うと

Transformerはinputの長さが固定されるため，固定長の関係性しか表現できないが，segment毎に隠れ状態を再帰的に用いることで，複数segmentの関係性を埋め込むことを可能にした
複数segmentを扱うためにrelative positional encodingsを用いた
いくつかのデータセットにおいて言語モデルとしてSOTAを達成

キーワード

transformer
language model
recurrence

1. 情報

論文リンク

https://arxiv.org/abs/1901.02860

著者

Zihang Dai, Zhilin Yang, Yiming Yang, Jaime Carbonell, Quoc V. Le, Ruslan Salakhutdinov

投稿日付

2019/1/9 (ACL 2019)

2. 先行研究と比べてどこがすごい？

固定長の関係性しか表現できないTransformerについて，recurrenceを用いて複数segmentに渡る情報を伝播させられるようにした点
次の単語の予測において，1単語進める毎にゼロから計算する必要がないため計算が速い

3. 技術や手法のキモはどこ？

1つ前のsegmentの隠れ状態を，固定された（勾配計算されない）メモリ情報のような形で次のsegmentに渡すようにした点
複数segmentを扱えるようなpositional encodingsとして，relative positional encodingsを導入した点

4. どうやって有効だと検証した？

5つのデータセットにおいてperplexityやbpc(bits per character)でSOTAを達成

5. 議論はある？

Khandelwal et al. (2018)にならって，Relative Effective Context Lengthという指標を計算し，どれくらいのコンテクストを取り込めているかを比較し，他のモデルよりも長いコンテクストを取り込めていることを検証している

6. 次に読むべき論文は？

Character-Level Language Modeling with Deeper Self-Attention
- Rami Al-Rfou, Dokook Choe, Noah Constant, Mandy Guo, Llion Jones
- https://arxiv.org/abs/1808.04444
- 2018/8/9
- 本文中で多く参照されている，Transformerを用いた文字レベルの言語モデル

IkokObi commented 5 years ago

7. 実装の詳細

記法について
- max input length : L_max
- Layer数 : N
- 隠れ状態次元数 : d
  Recurrence
transformerの入力となる1つのsequenceをsegmentと呼ぶ
1つ前のsegmentの隠れ状態を次のsegmentにreccurent的に渡す
式として表すと次のようになる
- 上付きのnなどはlayerを表す添字で，下付きのtauはsegmentを表す添字
- \circ はconcatenationを表す
- key, valueは1つ前のsegment情報を含む

Relative Positional Encodings

L_max * dのpositional encoding Uを用いると，異なるsegment間の同じ位置の判別が出来ない（segment tauの位置iの単語と，segment tau + 1の位置iについて，同じpositional encodingとなってしまう）
現在位置からの相対位置でpositional encodingを行うように変更．相対位置は，0からM+L-1まで取りうる（ただし，Mは保持している過去のsegmentの長さ）.このrelative positional encodingは学習パラメータではなく，正弦関数でencodingされる（オリジナルのTransformerと同じ形）
通常のpositional encodingでself-attentionを計算すると左のように分解できるが，これをrelative positional encodingで右のように変更
まとめると，通常のself-attentionに，過去のsegmentの情報が組み込まれ，relative positional encodingが用いられるという形

IkokObi commented 5 years ago

8. データセット

WikiText-103
- 28,000の記事を含み，103M training tokens
- 1記事あたり平均3,600 tokens
- 長い相関情報を取り込めないと上手くモデリング出来ないデータセット
enwik8
- wikipediaから取られたデータセット
- 100M bytes
text8
- wikipediaから取られたデータセット
- 100Mの前処理された文字
One Billion Word
- 短い相関のみをモデリング出来ればよいデータセット
Penn Treebank
- 1M training tokens

IkokObi commented 5 years ago

9. 結果の詳細

5つのタスク全てにおいて，perplexityやbpcでSOTA（下図はWikiText-103）

IkokObi commented 5 years ago

雑感&メモ

XLNetのベースとなったモデルとして読んだ
XLは "extra long" の略
TensorFlowとPyTorchの実装(https://github.com/kimiyoung/transformer-xl)

karakuri-ai / paper-readings

[2019] Transformer-XL: Attentive Language Models Beyond a Fixed-Length Context #29

ざっくり言うと

キーワード

1. 情報

論文リンク

著者

投稿日付

2. 先行研究と比べてどこがすごい？

3. 技術や手法のキモはどこ？

4. どうやって有効だと検証した？

5. 議論はある？

6. 次に読むべき論文は？

7. 実装の詳細

Recurrence

Relative Positional Encodings

8. データセット

9. 結果の詳細

雑感&メモ