Going Beyond Linear Transformers with Recurrent Fast Weight Programmers

1 はじめに

Transformer [1]は、テキストデータを処理するための最も一般的なニューラルネットワーク（NN）の1つとなっています。ニューラル機械翻訳での成功は、言語モデリング[2, 3]や質問応答[4]など、自然言語処理(NLP)の他の問題にもすぐに応用されました。最近では、画像処理[5,6]や数学的問題解決[7,8,9]など、他の領域にも応用されています。概念的には、Transformerは、シーケンスのすべての要素を並列に処理するディープフィードフォワードNNです。リカレントNN（RNN）とは異なり、シーケンス全体に対するレイヤーの計算は、1つの大きな行列の乗算にまとめることができます。これは、並列プロセッサの数に応じてうまくスケールアップします。並列化の利点にもかかわらず、Transformerの大きな欠点は、時間的にも空間的にも計算の複雑さがシーケンスの長さに対して二次的になることです。さらに、我々の研究対象である自動回帰バージョン[1, 2]では、状態のサイズがシーケンス長に対して線形に増加します。このため、Transformerは、非常に長いシーケンスや無限に続く可能性のあるシーケンスを扱う自動回帰型の設定では実現不可能であり、実務者は時間的な文脈を切り捨て、固定サイズの時間窓を超えた長期的な依存関係を無視しなければなりません。最近の研究ではこの問題を解決しようとしていますが[10, 11]、部分的に観測可能な環境下での強化学習（RL）に関しては、Transformerは依然として困難です[12, 13]。

Transformersをより長いシーケンスに拡張するために、最近の研究では、自己注意の計算におけるソフトマックスを線形化し、後者を逐次的に再編成することが提案されています[15]。このようなモデルには、KatharopoulosらのLinear Transformer (LT) [15]、ChoromanskiらのPerformer [16]、Pengら [17]の変種があります。これらは、一定の大きさの状態を持ち、配列長に線形な時間的・空間的複雑さを持っています。いくつかのタスクにおける性能は、通常のTransformerと完全に一致するわけではありませんが[18]、すでにいくつかの改良が提案されており[17, 19]（2.2項のレビューを参照）、このTransformerファミリーは有望な代替品となっています。ここでは、「Fast Weight Programmers」（FWP）[20、21、22]の観点を採用し、強力なシーケンス処理モデルとしての線形Transformerのバリエーションをさらに一歩進めます。最近の研究では、線形化されたTransformerが、90年代の外積ベースのFWPと本質的に同等であることが強調されています（[19]、項2でレビュー）。ここでは、この関連性をさらに探り、より強力なFWPについて述べる。オリジナルのFWP[20]は、2つのNNシステムで、それぞれが任意のアーキテクチャを持つ低速ネットと高速ネットです。低速ネットは、高速ネットのために、コンテキストに依存した高速な重み修正を生成するように学習します。既存の線形トランスフォーマーの場合、低速ネットと高速ネットは単純な1層のフィードフォワードNNです。ここでは、リカレントFWP（RFWP）を得るために、これらをリカレント接続で拡張します。再帰性は、モデルの理論的な能力を向上させ[23]、解決策の一部として再帰性を自然に必要とするタスクを解決するのに役立ちます。言語モデリングデータであるWikitext-103 [24]を用いた実験により、我々のRFWPsは通常のTransformerと比較して競争力があることが示された。次に、コード実行[25]と逐次ListOps[26]という2つのアルゴリズム合成タスクにおいて、提案モデルの様々な特性を研究する。最後に、我々のモデルをLSTMの代替としてRL問題に適用することは簡単である。ここで、我々のRFWPsは、多くのAtari 2600の2Dゲーム環境において、LSTMベースラインよりも大きな改善を得た[27]。いくつかの環境ではLSTMの方が優れていますが、我々のRFWPsはスケールアップすることで一般的に改善することを示しています。

この研究の主な貢献は2つあります。 1）FWPの観点からは、シーケンス処理のための新しい強力なFWPを研究し、NNが単一のフィードフォワード層よりも複雑なNNを制御することを容易に学習できることを実証し、（2）Transformerモデルの観点からは、我々のRFWPは線形Transformerを再帰で補強し、既存の自動回帰Transformerモデルの一般的な限界に対処している。

e4exp / paper_manager_abstract

Going Beyond Linear Transformers with Recurrent Fast Weight Programmers #536

1 はじめに