XCiT: Cross-Covariance Image Transformers

1 はじめに

トランスフォーマーアーキテクチャ[69]は，音声処理や自然言語処理（NLP）において量的・質的な飛躍的進歩をもたらしました．最近では，Dosovitskiyら[22]が，トランスフォーマーを視覚表現の学習に適したアーキテクチャとして確立し，大規模な事前学習に頼りながらも，画像分類において競争力のある結果を報告しています． Touvronら[65]は，ImageNet-1k上で大規模なデータ拡張と改良された学習スキームを用いて変換器を学習した際に，EfficientNets[58]などの強力な畳み込みベースラインと比較して，同等以上の精度とスループットを示した．また，画像検索[23]，物体検出とセマンティックセグメンテーション[44, 71, 81, 83]，ビデオ理解[2, 7, 24]など，他のビジョンタスクにおいても有望な結果が得られている．変形器の大きな欠点の1つは，コアとなる自己保持演算の時間とメモリの複雑さであり，これは入力トークンの数（コンピュータビジョンでは同様にパッチの数）に対して2次関数的に増加する． w×h個の画像の場合，これはO(w 2h 2 )の複雑さに相当し，物体の検出やセグメンテーションなど，高解像度の画像を扱うほとんどのタスクにとっては非常に困難なものです．この複雑さを軽減するために，さまざまな戦略が提案されている．たとえば，自己注意の近似形式を使用したり[44, 81]，特徴マップを徐々にダウンサンプリングするピラミッド型アーキテクチャを使用したり[71]している．しかし，これらの解決策は，複雑さと精度を引き換えにしているか，あるいは，非常に大きな画像を処理するためには複雑さが過大であるため，完全に満足できるものではない．我々は、Vaswaniら[69]によって最初に導入された自己注目を、我々が「交差共分散注目」(XCA)と呼ぶ「転置」された注目に置き換える。交差共分散注目は，トークン間の明示的な完全ペアワイズ相互作用を，特徴間の自己注目に置き換えるもので，注目マップは，トークン特徴のキーとクエリの投影にわたって計算された交差共分散行列から得られます．重要なのは，XCAはパッチの数に対して線形の複雑さを持つことです．クロス共分散画像トランスフォーマー（XCiT）を構築するために，XCAと，トランスフォーマーで一般的に使用される効率的な深さ方向の畳み込みと点方向のフィードフォワードネットワークに依存するローカルパッチインタラクションモジュールを組み合わせる（図1参照）． XCAは、すべてのトークンに同じデータ依存の重み行列を乗算する、動的な1×1畳み込みの一形態とみなすことができます。 XCAレイヤーは、すべてのチャンネルを直接混ぜるのではなく、チャンネルのブロックに適用することで、さらに性能が向上することがわかりました。このXCAの「ブロック対角線」形状は、ブロック数に線形な係数で計算の複雑さをさらに軽減します。

トークンの数に比例して複雑になるため、XCiTは各次元で1000ピクセル以上の画像を効率的に処理することができます。特に、我々の実験では、XCITが精度を損なうことなく、DeiT[65]やCaiT[68]と同等の設定で同様の結果を得られることを示している。さらに、物体検出や画像セグメンテーションなどの高密度な予測タスクでは、我々のモデルは、一般的なResNet [28]バックボーンや、最近の変換器ベースのモデル [44, 71, 81]よりも優れている。最後に，DINO [12]を用いた自己教師付き特徴学習にXCITを適用し，DeiTベースのバックボーン[65]と比較して性能が向上したことを示した．全体として、我々の貢献を以下のように要約する。

交差共分散注目（Cross-Covariance Attention: XCA）を導入し、従来の自己注目の代わりに、トークンの代わりにチャンネルに注目する「転置型」の注目を提供します。XCAの複雑さはトークンの数に対して線形であり、高解像度の画像を効率的に処理することができます（図2参照）。
XCAは、トークンの数に関わらず、固定数のチャンネルに注目します。その結果，我々のモデルは，テスト時の画像解像度の変化に対するロバスト性が大幅に向上し，可変サイズの画像を処理するのに適したモデルとなっている．
また、画像の分類については、単純な列挙型アーキテクチャ（レイヤー間で解像度を一定に保つアーキテクチャ）を用いて、複数のモデルサイズにおいて、我々のモデルが最先端のビジョン変換器と同等であることを実証しました。特に、XCIT-L24モデルは、ImageNetにおいて86.0%のトップ1精度を達成し、CaiT-M24[68]やNFNet-F2[10]を同等のパラメータ数で凌駕しています。
高解像度の画像を用いた高密度の予測タスクにおいて，我々のモデルはResNetや複数の変換器を用いたバックボーンよりも優れている．また，COCOベンチマークにおいて，物体検出では48.5%，インスタンス分割では43.7%のmAPを達成しました．さらに，ADE20kベンチマークでは，セマンティックセグメンテーションにおいて48.4%のmIoUを達成し，比較可能なすべてのモデルサイズにおいて最先端のSwin Transformer[44]バックボーンを上回りました．
最後に，我々のXCiTモデルは，DINO[12]を用いたImageNet-1kにおいて80.9%のトップ1精度を達成するなど，自己教師付き学習のセットアップにおいても高い効果を発揮します．

e4exp / paper_manager_abstract

XCiT: Cross-Covariance Image Transformers #586

1 はじめに