Recurrent Memory Transformer

nogawanogawa commented 1 year ago

論文URL

https://arxiv.org/abs/2207.06881

著者

Aydar Bulatov, Yuri Kuratov, Mikhail S. Burtsev

会議

NeurIPS 2022

背景

Transformerではグローバルなシーケンスレベルの情報とローカルな情報が単一のembeddingに格納される。この2つの情報を1つの表現に混在させるのは限界があり、全体の特徴がぼやけ、アクセスしにくくなる。

また、self attentionはスケーリングが良くないという問題もある。長い入力に対する応用は現状まだまだ難しい。

目的

長いシーケンスを使用してもTransformerの精度を維持する

アプローチ

Recurrent Memory Transformer
- 入力シーケンスに対して、特別なメモリートークン付与し予約容量をモデルに提供
- シーケンスをセグメントに分割し、前のセグメントの情報をメモリートークンを介して次のセグメントへ伝播する

ひとことメモ

https://github.com/booydar/LM-RMT

nogawanogawa commented 10 months ago

背景

Transformerではグローバルなシーケンスレベルの情報とローカルな情報が単一のembeddingに格納される。この2つの情報を1つの表現に混在させるのは限界があり、全体の特徴がぼやけ、アクセスしにくくなる。

また、self attentionはスケーリングが良くないという問題もある。長い入力に対する応用は現状まだまだ難しい。

nogawanogawa commented 10 months ago

目的

長いシーケンスを使用してもTransformerの精度を維持する

アプローチ

Recurrent Memory Transformer
- 入力シーケンスに対して、特別なメモリートークン付与し予約容量をモデルに提供
- シーケンスをセグメントに分割し、前のセグメントの情報をメモリートークンを介して次のセグメントへ伝播する

nogawanogawa commented 10 months ago