Rethinking Spatial Dimensions of Vision Transformers

e4exp commented 3 years ago

https://arxiv.org/abs/2103.16302
2021

Vision Transformer（ViT）は、既存の畳み込みニューラルネットワーク（CNN）に代わるアーキテクチャとして、トランスフォーマーの応用範囲を、言語処理からコンピュータビジョンのタスクにまで広げます。トランスフォーマーに基づくアーキテクチャは、コンピュータ・ビジョン・モデリングのための革新的なものであるため、効果的なアーキテクチャに向けた設計規約はまだあまり研究されていません。 CNNの成功した設計原理から、我々はトランスフォーマーベースのアーキテクチャにおける空間次元変換の役割とその有効性を調査する。特にCNNの次元削減原理に注目しています。深さが増すにつれて、従来のCNNはチャネル次元を増やし、空間次元を減らします。我々は、このような空間次元の縮小がトランスフォーマー・アーキテクチャにも有益であることを経験的に示し、オリジナルのViTモデルに基づいた新しいPooling-based Vision Transformer (PiT)を提案する。 PiTはViTと比較して、モデル能力と汎用性の向上を達成していることを示す。さらに、幅広い実験を通して、画像分類、物体検出、ロバスト性評価などのタスクにおいて、PiTがベースラインよりも優れた性能を発揮することを示している。ソースコードとImageNetモデルはこちらのhttps URLから入手可能です。

e4exp commented 3 years ago

結論

本稿では，CNNで広く用いられている設計原理である，ストライドを用いたプーリングや畳み込みによって行われる空間次元変換が，ViTのような変換器ベースのアーキテクチャでは考慮されておらず，結果的にモデルの性能に影響を与えることを示した．我々はまずResNetで研究し、空間次元の変換が計算効率と一般化能力を高めることを発見しました。 ViTの利点を活用するために、我々はVitにプーリング層を組み込んだPiTを提案し、PiTは広範な実験を通して、これらの利点がViTによく調和することを示した。その結果、ViTアーキテクチャの性能を大幅に向上させる一方で、空間的な相互作用比を考慮したプーリング層が自己注意ベースのアーキテクチャに不可欠であることを示した。

e4exp / paper_manager_abstract

Rethinking Spatial Dimensions of Vision Transformers #313