e4exp / paper_manager_abstract

0 stars 0 forks source link

Beyond Self-attention: External Attention using Two Linear Layers for Visual Tasks #516

Open e4exp opened 3 years ago

e4exp commented 3 years ago

注意メカニズム、特に自己注意は、視覚タスクのための深い特徴表現において、ますます重要な役割を果たしています。 自己注意では、1つのサンプル内の長距離依存性を捉えるために、すべての位置でのペアワイズの親和性を用いて特徴量の加重和を計算することで、各位置の特徴量を更新します。 しかし、自己注意は2次的な複雑さを持ち、異なるサンプル間の潜在的な相関を無視する。 本論文では、外部アテンションと呼ぶ新しいアテンションメカニズムを提案する。 このメカニズムは、2つの外部の小さな学習可能な共有メモリに基づいており、2つのカスケード接続された線形層と2つの正規化層を用いるだけで簡単に実装できる。 外部注意は線形の複雑さを持ち、すべてのデータサンプル間の相関を暗黙的に考慮します。 さらに、マルチヘッドメカニズムを外部注意に組み込むことで、画像分類のためのオールMLPアーキテクチャ、外部注意MLP(EAMLP)を提供する。 画像分類、オブジェクト検出、セマンティックセグメンテーション、インスタンスセグメンテーション、画像生成、点群分析などの広範な実験により、本手法は、自己注意メカニズムやそのいくつかのバリエーションと同等またはそれ以上の結果を、はるかに低い計算コストとメモリコストで提供することが明らかになった。

e4exp commented 3 years ago

1 はじめに

セルフアテンションは,長距離の依存性を捉えることができるため,自然言語処理[1], [2]やコンピュータビジョン[3], [4]などのさまざまなタスクにおいて,パフォーマンスの向上に役立っている. セルフアテンションは、1つのサンプル内の他のすべての位置からの特徴を集約することによって、各位置での表現を洗練させることで機能しますが、これはサンプル内の位置の数に対して2次的な計算の複雑さをもたらします。 そのため、より低い計算コストで自己言及を近似しようとする亜種もある[5], [6], [7], [8]。 さらに,自己言及は,1つのサンプル内の異なる位置間の自己言及に集中し,他のサンプルとの潜在的な相関を無視しています. 異なるサンプル間の相関を取り入れることで、より良い特徴の表現に貢献できることは容易に理解できるでしょう。 例えば、セマンティックセグメンテーションタスクでは、同じカテゴリーに属するが異なるサンプルに分散している特徴を一貫して扱うべきであり、同様の観察は画像分類やその他の様々な視覚タスクにも当てはまる。 この論文では、外部注意と呼ぶ新しい軽量注意メカニズムを提案している(図1c))。 図1a)に示すように、自己注目を計算するには、まず、自己クエリベクトルと自己キーベクトルの間の親和性を計算して注目マップを算出し、次に、この注目マップで自己値ベクトルを重み付けして新しい特徴マップを生成する必要がある。

外部注意の仕組みは異なります。 まず、自己クエリベクトルと外部の学習可能なキーメモリとの間の親和性を計算してアテンションマップを算出し、このアテンションマップに別の外部の学習可能な値メモリを乗じることで、洗練された特徴マップを生成します。 実際には、この2つのメモリは線形層で実装されており、エンド・ツー・エンドでバックプロパゲーションにより最適化することができます。 これらは個々のサンプルから独立しており、データセット全体で共有されているため、強力な正則化の役割を果たし、アテンションメカニズムの一般化能力を向上させます。 外部注意の軽量性の鍵は、記憶の要素数が入力特徴の要素数よりもはるかに少なく、入力の要素数に線形の計算量をもたらすことにあります。 外部記憶は、データセット全体で最も識別性の高い特徴を学習するように設計されており、最も情報量の多い部分を捕捉するとともに、他のサンプルからの干渉情報を除外します。 同様の考え方は,スパース・コーディング[9]や辞書学習[10]にも見られる. しかし,これらの手法とは異なり,我々は入力特徴を再構成しようとはせず,注意マップに明示的なスパース正則化を適用することもない.

提案された外部注意アプローチは単純ですが、様々な視覚タスクに有効です。 そのシンプルさゆえに、DANet[4]、SAGAN[11]、T2T-Transformer[12]など、既存の一般的な自己注意ベースのアーキテクチャに簡単に組み込むことができる。 図3は、画像のセマンティックセグメンテーションタスクにおいて、自己注意を外部注意に置き換える典型的なアーキテクチャを示しています。 我々は、異なる入力モダリティ(画像や点群)を用いて、分類、オブジェクト検出、セマンティックセグメンテーション、インスタンスのセグメンテーションと生成などの基本的な視覚タスクに関する広範な実験を行った。 その結果、我々の手法は、オリジナルの自己注意メカニズムおよびそのいくつかのバリエーションと同等以上の結果を、はるかに低い計算コストで達成できることが明らかになった。 また、同じ入力に対して異なる局面での注意を学習するために、マルチヘッドメカニズムを外部注意に組み込み、その能力を高めている。 この提案されたマルチヘッド外部注目を利用して、我々はEAMLPと名付けられた新しいオールMLPアーキテクチャを設計し、画像分類タスクにおいてCNNやオリジナルのTransformerに匹敵する性能を持つ。

本論文の主な貢献は以下の通りである。

image

e4exp commented 3 years ago

5 結論

本論文では、様々な視覚タスクに有用な、軽量かつ効果的な新規の注意メカニズムである外部注意を紹介した。 外部注意に採用された2つの外部記憶装置は、データセット全体の辞書とみなすことができ、計算コストを削減しながら、入力に対するより代表的な特徴を学習することができる。 我々は、external attentionが、NLPなどの他の領域での実用化や研究のきっかけになることを期待している。