Swin Transformer: Hierarchical Vision Transformer using Shifted Windows

e4exp commented 3 years ago

https://arxiv.org/abs/2103.14030
2021

本稿では、コンピュータビジョンの汎用バックボーンとして機能する、Swin Transformerと呼ばれる新しいVision Transformerを紹介します。言語から視覚へのTransformerの適応における課題は、視覚的なエンティティのスケールに大きな変化があることや、テキストの単語と比較して画像のピクセルの解像度が高いことなど、2つのドメインの違いから生じる。これらの違いに対処するために、我々は、表現がシフトした窓で計算される階層的なTransformerを提案する。シフトされたウィンドウのスキームは、自己言及の計算をオーバーラップしないローカルウィンドウに限定する一方で、ウィンドウ間の接続を可能にすることで、より大きな効率性をもたらします。この階層型アーキテクチャは、様々なスケールのモデルに対応できる柔軟性を持ち、画像サイズに対して線形の計算量を持ちます。 Swin Transformerのこれらの特性により、画像分類（ImageNet-1Kでのトップ1精度86.4）や、物体検出（COCO test-devでのボックスAP58.7、マスクAP51.1）、セマンティックセグメンテーション（ADE20K valでのmIoU53.5）などの緻密な予測タスクを含む、幅広いビジョンタスクに対応しています。その性能は、COCOではボックスAP+2.7、マスクAP+2.6、ADE20Kでは+3.2mIoUと、これまでの最先端技術を大きく上回り、Transformerベースのモデルがビジョンのバックボーンとしての可能性を示しています。このコードとモデルは、以下のURLで公開されます。 https://github.com/microsoft/Swin-Transformer

e4exp commented 3 years ago

結論

本論文では、階層的な特徴表現を生成し、入力画像のサイズに対して線形の計算量を持つ、新しい視覚トランスフォーマーであるSwin Transformerを紹介します。 Swin Transformerは、COCOオブジェクト検出とADE20Kセマンティックセグメンテーションにおいて、これまでの最良の手法を大幅に上回る、最先端の性能を達成しました。様々な視覚問題に対するSwin Transformerの優れた性能が、視覚と言語信号の統一的なモデリングを促進することを期待しています。 Swin Transformerの重要な要素であるシフト窓に基づく自己注目は、視覚問題において効果的かつ効率的であることが示されており、自然言語処理においてもその利用を検討することを楽しみにしています。

e4exp / paper_manager_abstract

Swin Transformer: Hierarchical Vision Transformer using Shifted Windows #332