CrossViT: Cross-Attention Multi-Scale Vision Transformer for Image Classification

e4exp commented 3 years ago

https://arxiv.org/abs/2103.14899
2021

近年開発されたビジョントランスフォーマー（ViT）は、畳み込みニューラルネットワークと比較して、画像分類において有望な結果を得ている。これに触発されて、本稿では、画像分類のための変換モデルにおいて、マルチスケールの特徴表現を学習する方法を研究する。この目的のために、より強い画像特徴を生成するために、異なるサイズの画像パッチ（すなわち、変換器内のトークン）を組み合わせるデュアルブランチ変換器を提案する。このアプローチでは、小さなパッチのトークンと大きなパッチのトークンを、計算量の異なる2つの別々のブランチで処理し、これらのトークンを純粋に複数回注目して融合させることで、お互いを補完する。さらに、計算量を減らすために、クロスアテンションに基づいたシンプルかつ効果的なトークン融合モジュールを開発しました。このモジュールは、各ブランチの単一のトークンを、他のブランチと情報を交換するためのクエリとして使用します。我々の提案するクロスアテンションは、計算量とメモリの複雑さの両方において、他の方法では二次的な時間を必要とするところを、線形的な時間しか必要としません。広範な実験により、提案手法は、効率的なCNNモデルに加えて、ビジョン変換に関するいくつかの先行研究よりも優れた、あるいは同等の性能を発揮することが実証された。例えば、ImageNet1Kデータセットでは、いくつかのアーキテクチャの変更により、我々のアプローチは最近のDeiTを2%の大差で上回る。

e4exp commented 3 years ago

結論

本論文では、画像分類の認識精度を向上させるために、マルチスケール特徴を学習するデュアルブランチのビジョン変換器であるCrossViTを紹介する。異なるスケールの画像パッチトークンを効果的に結合するために、我々はさらに、線形時間で効率的に2つのブランチ間の情報を交換するクロスアテンションに基づいた融合法を開発した。大規模な実験により、我々の提案モデルは、効率的なCNNモデルに加えて、ビジョン変換に関するいくつかの先行研究よりも優れた、あるいは同等の性能を発揮することを実証した。今回の研究は、画像分類のためのマルチスケール・ビジョン変換の表面をなぞったものであるが、将来的には、物体検出、セマンティック・セグメンテーション、ビデオ・アクション認識など、他のビジョン・アプリケーションのための効率的なマルチスケール・ビジョン変換の開発について、より多くの研究がなされることを期待している。

e4exp / paper_manager_abstract

CrossViT: Cross-Attention Multi-Scale Vision Transformer for Image Classification #306