ViDT: An Efficient and Effective Fully Transformer-based Object Detector

1 INTRODUCTION

物体検出は、画像内の関心のある各物体について、バウンディングボックスと物体クラスの両方を予測するタスクである。最近の深層物体検出器は，アンカー生成や非最大値抑圧など，綿密に設計されたコンポーネントに大きく依存している(Papageorgiou & Poggio, 2000; Liu et al., 2020)．その結果、これらのオブジェクト検出器の性能は、特定の後処理ステップに依存しており、これは複雑なパイプラインを含み、完全にエンドツーエンドのトレーニングを困難にしている。 NLPにおけるTransformer（Vaswani et al., 2017）の最近の成功に刺激されて、多数の研究がコンピュータビジョンのタスクにTransformerを導入している。 Carionら(2020)は、特徴抽出のためのCNN本体と予測のための検出器ヘッドを橋渡しするネックコンポーネントとして機能するシンプルなトランスフォーマーのエンコーダとデコーダのアーキテクチャを採用することで、綿密に設計されたコンポーネントを排除するDetection Transformers(DETR)を提案した。このようにDETRは、ディープオブジェクトディテクターのエンドツーエンドのトレーニングを可能にする。対照的に、Dosovitskiyら（2021）は、畳み込み層を持たない完全な変換器バックボーンであるVision Transformer（ViT）が、画像分類ベンチマークにおいて最先端の結果を達成することを示した。 ViTのようなアプローチは、人間の強い帰納的バイアスなしに効果的な表現モデルを学習することが示されている。例えば、物体検出(DETR)における綿密に設計されたコンポーネント、畳み込み層やプーリング機構などの局所性を考慮した設計などが挙げられる。しかし、DETRとViTを相乗的に利用して、より優れた物体検出アーキテクチャを実現するための取り組みは不足しています。

本論文では、両方のアプローチを統合し、計算負荷を増加させることなく最先端の性能を達成する、完全なトランスフォーマーベースのエンドツーエンドのオブジェクト検出器を構築します。 DETRとViTの素直な統合は、DETRのResNetバックボーン（本体）をViTに置き換えることで実現できる-図2（a）。この素朴な統合、DETR (ViT)1 には2つの限界がある。まず、従来のViTは、画像サイズが大きくなるにつれて複雑さが2次関数的に増加するため、スケーラビリティに欠けるという問題がある。さらに、変換器のエンコーダーとデコーダーでのアテンション操作（つまり、「ネック」コンポーネント）は、検出器に大きな計算オーバーヘッドを追加します。そのため、DETRとViTを素直に統合すると、図1の青線のように非常に高いレイテンシーが発生します。

最近、Fangら（2021）は、ViTを物体検出に拡張したYOLOSを提案しています。これは、検出トークン[DET]をパッチトークン[PATCH]に付加することで実現しています（図2（b））。ここで、[DET]トークンは、検出する異なる物体を指定するための学習可能な埋め込みです。 YOLOSはネックフリー・アーキテクチャであり、ネック・エンコーダーから追加の計算コストを取り除くことができる。しかし、YOLOSは、マルチスケール特徴や補助損失など、ネック・アーキテクチャ上の追加の最適化技術を使用できないため、限られた性能しか発揮できません。さらに，YOLOSは，そのアーキテクチャ上の制限から，カノニカル変換器にしか対応できず，その結果，入力サイズに対して2次関数的な複雑さとなってしまう．本論文では、ViDT（Vision and Detection Transformers）の新しい統合を提案します（図2（c））。我々の貢献は3つあります。

まず、ViDTは、再構成されたアテンション・モジュール（RAM）と呼ばれる修正されたアテンション・メカニズムを導入しています。これにより、ViTのどのバージョンでも、オブジェクト検出のために付加された[DET]および[PATCH]トークンを処理できるようになります。これにより、最新のSwin Transformer (Liu et al., 2021)のバックボーンをRAMに変更してオブジェクト検出器とし、そのローカルアテンションメカニズムを用いて線形の複雑さで高いスケーラビリティを得ることができます。

第二に、ViDTは軽量なエンコーダフリーのネック・アーキテクチャを採用し、ネック・モジュール上の追加の最適化技術を有効にしながら、計算オーバーヘッドを削減しています。これは、オブジェクト検出のための細かな表現、すなわち[DET]トークンをRAMが直接抽出するためで、ネックエンコーダは不要である。その結果，ViDTはネックフリーのものよりも優れた性能を得ることができました．最後に，知識抽出のためのトークンマッチングという新しい概念を導入することで，検出効率を損なうことなく，大規模モデルから小規模モデルへの追加的な性能向上をもたらす．

ViDTは、既存のアプローチに比べて2つのアーキテクチャ上の利点があります。

まず，YOLOSと同様に，ViDTは[DET]トークンを追加入力とし，物体検出のための固定スケールを維持しつつ，[PATCH]トークンの小さなサイズの画像パッチから始まる階層的な表現を構築する．
第二に，ViDTは大きな計算オーバーヘッドなしに，階層的（マルチスケール）な特徴と追加技術を使用することができます．

このように、ViDTは完全にトランスフォーマーベースのオブジェクト検出器として、ビジョンと検出トランスフォーマーのより良い統合を促進する。 Microsoft COCOベンチマーク(Lin et al., 2014)を用いた広範な実験により、ViDTは1億個のパラメータを持つSwin-baseのような大規模なViTモデルに対しても高いスケーラビリティを持ち、既存の完全変換器ベースの検出器の中で最も優れたAPとレイテンシーのトレードオフを達成していることが示された。

e4exp / paper_manager_abstract

ViDT: An Efficient and Effective Fully Transformer-based Object Detector #672

1 INTRODUCTION