e4exp / paper_manager_abstract

0 stars 0 forks source link

Visual Saliency Transformer #425

Open e4exp opened 3 years ago

e4exp commented 3 years ago

最近では、CNNベースのアーキテクチャに依存した大規模な顕著性検出手法が有望な結果を得ています。 本研究では、この課題を畳み込みなしの配列対配列の観点から再考し、畳み込みでは実現できない長距離依存性をモデル化することで、顕著性を予測する。 具体的には、RGBとRGB-Dの両方の顕著なオブジェクト検出(SOD)のために、純粋な変換器に基づいた新しい統一モデル、すなわち、Visual Saliency Transformer(VST)を開発します。 このモデルは、画像パッチを入力とし、変換器を利用して画像パッチ間のグローバルコンテキストを伝播させます。 Vision Transformer (ViT)で使用されている従来のトランスフォーマ・アーキテクチャとは別に、マルチレベルのトークン・フュージョンを活用し、トランスフォーマ・フレームワークの下で新しいトークン・アップサンプリング法を提案して、高解像度の検出結果を得ます。 また,タスクに関連するトークンと新しいパッチ・タスク・アテンション・メカニズムを導入することで,顕著性検出と境界検出を同時に行うトークンベースのマルチタスクデコーダを開発した. 実験結果は、RGBおよびRGB-D SODベンチマークデータセットの両方において、我々のモデルが既存の最先端の結果を上回ることを示している。 最も重要なことは、我々のフレームワーク全体が、SOD分野に新しい視点を提供するだけでなく、トランスフォーマーベースの緻密な予測モデルのための新しいパラダイムを示すことである。

e4exp commented 3 years ago
  1. はじめに

SODは,画像を見たときに顕著な物体や領域を検出し,それを分割することを目的としています。 深度データは,顕著性の検出に有用な空間構造情報を提供することができるため,RGB画像でSODを実行する以外に,RGB-D SODも近年関心を集めている. 現在の最新のSOD手法は、RGBおよびRGB-Dデータの両方において、畳み込みアーキテクチャ[28]が主流となっています。 これらの手法は,エンコーダ-デコーダ型のCNNアーキテクチャ[47, 57]を採用しており,エンコーダが入力画像を多段階の特徴にエンコードし,デコーダが抽出された特徴を統合して最終的な saliency マップを予測する. この単純なアーキテクチャに基づいて、より良い saliency の結果を予測するための強力なデコーダを構築するための努力がなされてきた。 この目的のために、彼らは様々な注意モデル[37, 79, 7]、マルチスケール特徴統合法[24, 49, 17, 43]、マルチタスク学習フレームワーク[67, 76, 81, 68, 25]を導入した。 RGB-D SODのさらなる要求は,クロスモダリティ情報,すなわち,外観情報と深度キューを効果的に融合することである. これまでの研究では,特徴融合法[22, 4, 17, 19],知識蒸留法[53],動的畳み込み法[48],注意モデル[31, 77],グラフニューラルネットワーク[43]など,さまざまなモダリティ融合法が提案されている. その結果、CNNベースのSOD手法は素晴らしい結果を達成している[66, 87]。 しかし、これまでの手法では、グローバルな長距離依存性の学習に限界がある。 グローバルコンテキスト[21, 82, 56, 44, 37]とグローバルコントラスト[74, 2, 8]は、長い間、顕著性の検出に不可欠であることが証明されてきた。 しかし、CNNは局所的なスライディング・ウィンドウで特徴を抽出するという本質的な限界があるため、これまでの手法では重要なグローバル・キューを利用することができなかった。 完全連結層[36, 22]、グローバル・プーリング層[44, 37, 65]、ノンローカル・モジュール[38, 7]を利用してグローバルな文脈を取り入れる手法もあるが、それらは特定の層でのみ行われており、標準的なCNNベースのアーキテクチャは変わっていない。

近年、機械翻訳のために、単語列間のグローバルな長距離依存関係をモデル化するTransformer [61]が提案されました。 Transformerの核となっているのは、クエリ・キーの相関を利用して単語列の異なる位置を関連付ける自己注釈メカニズムです[61]。 Transformerは、自己注釈層をエンコーダとデコーダの両方で複数回積み重ねることで、すべての層で長距離依存性をモデル化することができます。 したがって、TransformerをSODに導入し、モデル内のグローバルな手掛かりを全面的に活用することは自然なことです。 本論文では、初めてSODを新たなシーケンス間の視点から再考し、Visual Saliency Transformerと名付けられた純粋なトランスフォーマーに基づいて、RGBおよびRGB-Dの両方のSODのための新しい統一モデルを開発します。 最近提案されたViTモデル[13, 73]に従い、各画像をパッチに分割し、パッチのシーケンスにTransformerモデルを採用します。 そして、Transformerは、画像パッチ間の長距離依存性を、畳み込みを使わずに伝播します。 しかし、ViTをSODに適用するのは簡単なことではありません。 一方で、純粋なTransformerに基づいて、どのように高密度の予測タスクを実行するかは、まだ未解決の問題です。 一方で、ViTは通常、非常に粗いスケールで画像をトークン化します。 ViTをSODの高解像度の予測要求にどのように適応させるかも不明である。

第一の問題を解決するために、我々は決定埋め込みを学習するためにタスクに関連するトークンを導入することで、トークンベースのトランスフォーマデコーダを設計する。 そして、密な予測結果を生成するための斬新なパッチ・タスク・アテンション・メカニズムを提案し、密な予測タスクにおけるトランスフォーマーの使用に関する新しいパラダイムを提供する。 境界検出を利用してSOD性能を向上させた過去のSODモデル[81, 86, 78, 25]に触発され、我々は、サリエンシートークンとバウンダリートークンを導入することで、サリエンシーと境界検出を同時に行うマルチタスクデコーダを構築する。 この戦略は、タスクに関連するトークンを学習するだけで、マルチタスク予測のワークフローを単純化し、計算コストを大幅に削減しながら、より良い結果を得ることができます。 2つ目の問題を解決するために、トークンの長さを短縮するToken-to-Token (T2T)変換[73]にヒントを得て、各トークンを複数のサブトークンに展開することでトークンをアップサンプルする新しい逆T2T変換を提案する。 そして,パッチトークンを段階的にアップサンプルし,ローレベルトークンと融合させて,最終的な完全解像度の saliency マップを得る. さらに、クロスモダリティ変換器を用いて、RGB-D SODのマルチモーダル情報の相互作用を深く追求します。 最後に、我々のVSTは、RGBとRGB-Dの両方のデータにおいて、同程度のパラメータ数と計算コストで、既存の最先端のSOD法よりも優れている。 我々の主な貢献は以下のようにまとめられる。

e4exp commented 3 years ago
  1. 結論

本論文では,SODを配列対配列の観点から再考し,RGBとRGB-Dの両方のSODに対して,純粋な変換器に基づく新しい統一モデルを開発した最初の例である。 緻密な予測タスクにおいてトランスフォーマーを適用することの難しさに対処するために、トランスフォーマーフレームワークの下で新しいトークンアップサンプリング法を提案し、マルチレベルのパッチトークンを融合する。 また、タスクに関連したトークンを導入することで、マルチタスクデコーダを設計し、新規のパッチ-タスク-アテンションメカニズムを導入することで、顕著性と境界の検出を共同で行う。 我々のVSTモデルは、RGBとRGB-Dの両方のSODにおいて、最先端の性能を達成した。

e4exp commented 3 years ago

image