Focal Self-attention for Local-Global Interactions in Vision Transformers

https://arxiv.org/abs/2107.00641
2021

近年、Vision Transformerとその亜種は、様々なコンピュータビジョンのタスクで大きな期待を集めています。自己注意によって短距離および長距離の視覚的依存性を捉えることができることが、成功の主な原因であることは間違いありません。しかし、特に高解像度のビジョンタスク（例：物体検出）では、二次的な計算オーバーヘッドによる課題も生じている。本論文では、細かい局所的な相互作用と粗いグローバルな相互作用の両方を取り入れた新しいメカニズムである「フォーカルセルフアテンション」を紹介します。この新しいメカニズムを用いることで、各トークンは、最も近い周囲のトークンには細かい粒度で、遠くのトークンには粗い粒度で注意を払うことができ、短距離と長距離の視覚的依存関係を効率的かつ効果的に捉えることができる。フォーカル・セルフアテンションにより、我々はビジョントランスフォーマーモデルの新たなバリエーションであるフォーカル・トランスフォーマー（Focal Transformer）を提案し、様々な公共画像の分類や物体検出のベンチマークにおいて、最先端のビジョントランスフォーマーよりも優れた性能を達成しました。特に、51.1Mという適度なサイズのFocal Transformerモデルと89.8Mという大きなサイズのFocal Transformerモデルは、224x224解像度のImageNet分類において、それぞれ83.5と83.8のTop-1精度を達成しました。 Focal Transformerをバックボーンにして、標準的な1xおよび3xスケジュールで学習した6種類の物体検出法に対して、現在の最先端のSwin Transformersよりも一貫して大幅な改善を得た。最大のFocal Transformerは、COCO mini-val/test-devで58.7/58.9のボックスmAPと50.9/51.3のマスクmAPを、セマンティックセグメンテーションのADE20Kで55.4mIoUを生成し、最も困難なコンピュータビジョンタスクの3つで新しいSoTAを生み出しました。

e4exp / paper_manager_abstract

Focal Self-attention for Local-Global Interactions in Vision Transformers #587