e4exp / paper_manager_abstract

0 stars 0 forks source link

XCiT: Cross-Covariance Image Transformers #586

Open e4exp opened 3 years ago

e4exp commented 3 years ago

自然言語処理での成功に続いて、トランスフォーマは最近、コンピュータビジョンに大きな期待が寄せられています。 変換器の基礎となる自己注意操作は、すべてのトークン、すなわち単語や画像パッチの間にグローバルな相互作用をもたらし、畳み込みの局所的な相互作用を超えて画像データを柔軟にモデル化することができる。 しかし、この柔軟性は、時間とメモリの2次的な複雑さを伴い、長いシーケンスや高解像度の画像への適用を妨げている。 本研究では、トークンではなく特徴チャネルで動作する自己注意の「転置版」を提案する。 ここでの相互作用は、キーとクエリの間の相互共分散行列に基づいている。 このようにして得られた交差共分散注目(XCA)は,トークンの数に対して線形の複雑さを持ち,高解像度の画像を効率的に処理することができる. XCAに基づいて構築されたXCiT(Cross-Covariance Image Transformer)。 この変換器は、従来の変換器の精度と、畳み込みアーキテクチャのスケーラビリティを兼ね備えています。 XCiTは、ImageNet-1kにおける画像分類と自己教師付き特徴学習、COCOにおけるオブジェクト検出とインスタンス・セグメンテーション、ADE20kにおけるセマンティック・セグメンテーションなど、複数の視覚ベンチマークにおいて優れた結果を示し、その有効性と汎用性を検証しました。

e4exp commented 3 years ago

1 はじめに

トランスフォーマーアーキテクチャ[69]は,音声処理や自然言語処理(NLP)に おいて量的・質的な飛躍的進歩をもたらしました. 最近では,Dosovitskiyら[22]が,トランスフォーマーを視覚表現の学習に適したアーキテクチャとして確立し,大規模な事前学習に頼りながらも,画像分類において競争力のある結果を報告しています. Touvronら[65]は,ImageNet-1k上で大規模なデータ拡張と改良された学習スキームを用いて変換器を学習した際に,EfficientNets[58]などの強力な畳み込みベースラインと比較して,同等以上の精度とスループットを示した. また,画像検索[23],物体検出とセマンティックセグメンテーション[44, 71, 81, 83],ビデオ理解[2, 7, 24]など,他のビジョンタスクにおいても有望な結果が得られている. 変形器の大きな欠点の1つは,コアとなる自己保持演算の時間とメモリの複雑さであり,これは入力トークンの数(コンピュータビジョンでは同様にパッチの数)に対して2次関数的に増加する. w×h個の画像の場合,これはO(w 2h 2 )の複雑さに相当し,物体の検出やセグメンテーションなど,高解像度の画像を扱うほとんどのタスクにとっては非常に困難なものです. この複雑さを軽減するために,さまざまな戦略が提案されている. たとえば,自己注意の近似形式を使用したり[44, 81],特徴マップを徐々にダウンサンプリングするピラミッド型アーキテクチャを使用したり[71]している. しかし,これらの解決策は,複雑さと精度を引き換えにしているか,あるいは,非常に大きな画像を処理するためには複雑さが過大であるため,完全に満足できるものではない. 我々は、Vaswaniら[69]によって最初に導入された自己注目を、我々が「交差共分散注目」(XCA)と呼ぶ「転置」された注目に置き換える。 交差共分散注目は,トークン間の明示的な完全ペアワイズ相互作用を,特徴間の自己注目に置き換えるもので,注目マップは,トークン特徴のキーとクエリの投影にわたって計算された交差共分散行列から得られます. 重要なのは,XCAはパッチの数に対して線形の複雑さを持つことです. クロス共分散画像トランスフォーマー(XCiT)を構築するために,XCAと,トランスフォーマーで一般的に使用される効率的な深さ方向の畳み込みと点方向のフィードフォワードネットワークに依存するローカルパッチインタラクションモジュールを組み合わせる(図1参照). XCAは、すべてのトークンに同じデータ依存の重み行列を乗算する、動的な1×1畳み込みの一形態とみなすことができます。 XCAレイヤーは、すべてのチャンネルを直接混ぜるのではなく、チャンネルのブロックに適用することで、さらに性能が向上することがわかりました。 このXCAの「ブロック対角線」形状は、ブロック数に線形な係数で計算の複雑さをさらに軽減します。

トークンの数に比例して複雑になるため、XCiTは各次元で1000ピクセル以上の画像を効率的に処理することができます。 特に、我々の実験では、XCITが精度を損なうことなく、DeiT[65]やCaiT[68]と同等の設定で同様の結果を得られることを示している。 さらに、物体検出や画像セグメンテーションなどの高密度な予測タスクでは、我々のモデルは、一般的なResNet [28]バックボーンや、最近の変換器ベースのモデル [44, 71, 81]よりも優れている。 最後に,DINO [12]を用いた自己教師付き特徴学習にXCITを適用し,DeiTベースのバックボーン[65]と比較して性能が向上したことを示した. 全体として、我々の貢献を以下のように要約する。