nogawanogawa / paper_memo

4 stars 0 forks source link

Recurrent Memory Transformer #94

Closed nogawanogawa closed 9 months ago

nogawanogawa commented 1 year ago

論文URL

https://arxiv.org/abs/2207.06881

著者

Aydar Bulatov, Yuri Kuratov, Mikhail S. Burtsev

会議

NeurIPS 2022

背景

Transformerではグローバルなシーケンスレベルの情報とローカルな情報が単一のembeddingに格納される。 この2つの情報を1つの表現に混在させるのは限界があり、全体の特徴がぼやけ、アクセスしにくくなる。

また、self attentionはスケーリングが良くないという問題もある。 長い入力に対する応用は現状まだまだ難しい。

目的

アプローチ

image

ひとことメモ

nogawanogawa commented 10 months ago

背景

Transformerではグローバルなシーケンスレベルの情報とローカルな情報が単一のembeddingに格納される。 この2つの情報を1つの表現に混在させるのは限界があり、全体の特徴がぼやけ、アクセスしにくくなる。

また、self attentionはスケーリングが良くないという問題もある。 長い入力に対する応用は現状まだまだ難しい。

nogawanogawa commented 10 months ago

目的

アプローチ

nogawanogawa commented 10 months ago

Recurrent Memory Transformer

image

Transformer-XLでは、セグメントに分割したシーケンスをTransformerに入力し、隣のセグメントの出力を次のステージに伝播している。(左図)

Recurrent Memory Transformerでは、MEMトークンと呼ばれる特殊なトークンをセグメントに付与する。 セグメントの先頭は一つ前のセグメントから伝播されてきた値を意味し、末尾のWriteの出力を次のセグメントのreadへコピーする。こうすることで、短いセグメント間での情報のやり取りと誤差逆伝播を行っている。

nogawanogawa commented 10 months ago

実験

テキストの長さに応じた精度劣化

image

評価対象では、セグメントの数が増えるに連れて精度が劣化しているが、RMTでは精度を維持することができている。

現実的な使用法に対する評価

現実的には学習済みのRobertaやDebertaを使用することになるが、Transformer-XLをベースにした部分をRobertaやDebertaに変更して精度評価を行う。

image

Robertaをbackboneに使用したとき、SEGMENTを大きくしても高い性能を達成できていることがわかる。