e4exp / paper_manager_abstract

0 stars 0 forks source link

Going Beyond Linear Transformers with Recurrent Fast Weight Programmers #536

Open e4exp opened 3 years ago

e4exp commented 3 years ago

線形化された注目を持つトランスフォーマー(以下、線形トランスフォーマー)は、90年代から外積ベースの高速重み付けプログラマー(FWP)の実用的なスケーラビリティと有効性を実証してきた。 しかし、元々のFWPの定式化は、リニアトランスフォーマーのものよりも一般的なもので、低速のニューラルネットワーク(NN)が、任意のNNアーキテクチャを持つ高速のNNの重みを継続的に再プログラムするものです。 既存の線形トランスフォーマーでは、どちらのNNもフィードフォワードで、単層で構成されています。 ここでは、低速と高速のNNに再帰性を加えることで、新しいバリエーションを探ります。 本研究では、2つの合成アルゴリズムタスク(コード実行と逐次ListOps)、Wikitext-103言語モデル、およびAtari 2600の2Dゲーム環境において、我々の新しいリカレントFWP(RFWP)を評価した。 このモデルは、TransformerとRNNの性質を持っています。 強化学習では、いくつかのアタリのゲームでLSTMよりも大幅に改善したことを報告しています。 我々のコードは公開されています。

e4exp commented 3 years ago

1 はじめに

Transformer [1]は、テキストデータを処理するための最も一般的なニューラルネットワーク(NN)の1つとなっています。 ニューラル機械翻訳での成功は、言語モデリング[2, 3]や質問応答[4]など、自然言語処理(NLP)の他の問題にもすぐに応用されました。 最近では、画像処理[5,6]や数学的問題解決[7,8,9]など、他の領域にも応用されています。 概念的には、Transformerは、シーケンスのすべての要素を並列に処理するディープフィードフォワードNNです。 リカレントNN(RNN)とは異なり、シーケンス全体に対するレイヤーの計算は、1つの大きな行列の乗算にまとめることができます。 これは、並列プロセッサの数に応じてうまくスケールアップします。 並列化の利点にもかかわらず、Transformerの大きな欠点は、時間的にも空間的にも計算の複雑さがシーケンスの長さに対して二次的になることです。 さらに、我々の研究対象である自動回帰バージョン[1, 2]では、状態のサイズがシーケンス長に対して線形に増加します。 このため、Transformerは、非常に長いシーケンスや無限に続く可能性のあるシーケンスを扱う自動回帰型の設定では実現不可能であり、実務者は時間的な文脈を切り捨て、固定サイズの時間窓を超えた長期的な依存関係を無視しなければなりません。 最近の研究ではこの問題を解決しようとしていますが[10, 11]、部分的に観測可能な環境下での強化学習(RL)に関しては、Transformerは依然として困難です[12, 13]。

Transformersをより長いシーケンスに拡張するために、最近の研究では、自己注意の計算におけるソフトマックスを線形化し、後者を逐次的に再編成することが提案されています[15]。 このようなモデルには、KatharopoulosらのLinear Transformer (LT) [15]、ChoromanskiらのPerformer [16]、Pengら [17]の変種があります。 これらは、一定の大きさの状態を持ち、配列長に線形な時間的・空間的複雑さを持っています。 いくつかのタスクにおける性能は、通常のTransformerと完全に一致するわけではありませんが[18]、すでにいくつかの改良が提案されており[17, 19](2.2項のレビューを参照)、このTransformerファミリーは有望な代替品となっています。 ここでは、「Fast Weight Programmers」(FWP)[20、21、22]の観点を採用し、強力なシーケンス処理モデルとしての線形Transformerのバリエーションをさらに一歩進めます。 最近の研究では、線形化されたTransformerが、90年代の外積ベースのFWPと本質的に同等であることが強調されています([19]、項2でレビュー)。 ここでは、この関連性をさらに探り、より強力なFWPについて述べる。 オリジナルのFWP[20]は、2つのNNシステムで、それぞれが任意のアーキテクチャを持つ低速ネットと高速ネットです。 低速ネットは、高速ネットのために、コンテキストに依存した高速な重み修正を生成するように学習します。 既存の線形トランスフォーマーの場合、低速ネットと高速ネットは単純な1層のフィードフォワードNNです。 ここでは、リカレントFWP(RFWP)を得るために、これらをリカレント接続で拡張します。 再帰性は、モデルの理論的な能力を向上させ[23]、解決策の一部として再帰性を自然に必要とするタスクを解決するのに役立ちます。 言語モデリングデータであるWikitext-103 [24]を用いた実験により、我々のRFWPsは通常のTransformerと比較して競争力があることが示された。 次に、コード実行[25]と逐次ListOps[26]という2つのアルゴリズム合成タスクにおいて、提案モデルの様々な特性を研究する。 最後に、我々のモデルをLSTMの代替としてRL問題に適用することは簡単である。 ここで、我々のRFWPsは、多くのAtari 2600の2Dゲーム環境において、LSTMベースラインよりも大きな改善を得た[27]。 いくつかの環境ではLSTMの方が優れていますが、我々のRFWPsはスケールアップすることで一般的に改善することを示しています。

この研究の主な貢献は2つあります。 1)FWPの観点からは、シーケンス処理のための新しい強力なFWPを研究し、NNが単一のフィードフォワード層よりも複雑なNNを制御することを容易に学習できることを実証し、 (2)Transformerモデルの観点からは、我々のRFWPは線形Transformerを再帰で補強し、既存の自動回帰Transformerモデルの一般的な限界に対処している。