CvT: Introducing Convolutions to Vision Transformers

e4exp commented 3 years ago

https://arxiv.org/abs/2103.15808
2021

本論文では，コンボリューショナル・ビジョントランスフォーマー（CvT）と名付けられた新しいアーキテクチャを紹介します．このアーキテクチャは，ビジョントランスフォーマー（ViT）の性能と効率を向上させるために，ViTに畳み込みを導入し，両方のデザインの長所を生かすものです．これは，新しい畳み込みトークンエンベッディングを含むトランスフォーマーの階層と，畳み込み射影を利用した畳み込みトランスフォーマーブロックという，2つの主要な変更によって実現されています．これらの変更により，ViTアーキテクチャに畳み込みニューラルネットワーク（CNN）の望ましい特性（シフト，スケール，歪みの不変性）を導入する一方で，Transformerの利点（動的注目，グローバルコンテキスト，優れた一般化）を維持している．大規模な実験を行ってCvTを検証し，ImageNet-1kにおいて，この手法が他のビジョントランスフォーマーやResNetsよりも少ないパラメータと少ないFLOPで最先端の性能を達成することを示しました．さらに，大規模なデータセット（ImageNet-22k）で事前学習を行い，下流のタスクに合わせて微調整しても，性能の向上は維持されます． ImageNet-22kで事前学習したCvT-W24は，ImageNet-1k val setにおいて，87.7%のトップ1精度を達成しました．最後に，既存のビジョントランスフォーマーでは重要な要素である位置情報の符号化を，我々のモデルでは安全に取り除くことができ，高解像度の視覚タスクのための設計を単純化できることを示しています．このコードは、以下のURLで公開されます。 https://github.com/leoxiaobin/CvT

e4exp commented 3 years ago

結論

本作品では、画像認識タスクにおいてトランスフォーマーの利点とCNNの利点を融合させるために、ビジョントランスフォーマーのアーキテクチャに畳み込みを導入する詳細な研究を紹介しました。大規模な実験により、導入された畳み込みトークンエンベディングと畳み込みプロジェクション、そして畳み込みによって可能になったネットワークの多段設計により、我々のCvTアーキテクチャが、計算効率を維持しながら優れた性能を達成することが実証されました。さらに，畳み込みによって局所的な文脈構造が組み込まれているため，CvTはもはや位置の埋め込みを必要とせず，可変の入力解像度を必要とするさまざまな視覚タスクに適応できるという利点があります．

e4exp / paper_manager_abstract

CvT: Introducing Convolutions to Vision Transformers #304