論文情報

タイトル：Swin Transformer: Hierarchical Vision Transformer using Shifted Windows
発表年：2021年3月25日
URL：https://arxiv.org/abs/2103.14030
github：https://github.com/microsoft/Swin-Transformer

一言説明

Vision Transformerの問題点を解決する方法を提案
Object Detection, Semantic Segmentation タスクでSoTA

Vision Transformerって？

入力画像をパッチに分割し、Transformerへ入力

パッチ内のピクセルを1次元に並び替えた上で線形写像を取る
パッチの元画像内での位置を表現

Vision Transformerの問題点

認識する対象は画像中で様々な大きさを取る -> パッチは対象物体をぶつ切りにする可能性がある
画像の解像度が高くなると計算量が膨大になる

なんで計算量が膨大になるの？	自然言語	画像
単語（文字数）	画像（高さ×幅）

画像内のすべてのPatchに対してAttentionの計算を行うため、計算コストは画像サイズに対して二乗（h×w）で増加する

Swin Transformer 全体像

transformer_v2

入力画像を重なりの無いパッチに分割する。
最初のステージでは、48チャネルをCチャネルへと変換するLinear Embeddingが使用される。
Patch MergingというPoolingのように画像の縦横を小さくする機構を導入。
各ステージには複数のSwin TransformerBlockが含まれる。

技術や手法のキモ

Patch MergingというPoolingのように画像の縦横を小さくする機構を導入

隣接2×2のパッチ（チャネル数C）を1つにまとめ、チャネル数が4倍になったあと(チャネル数4C)線形変換を行うことでチャネル数を半分に減らす。CNNで言うPoolingのようなことを行っている。 →階層が深くなるにつれて特徴マップが小さくなるように設計し、階層的な特徴量を取得している。

Swin Transformer Block

ほとんどTransformerと同じ違うのは

Window-based Multi-head Self-attention(W-MSA)
Shifted Window-based Multi-head Self-attention(SW-MSA)

W-MSAとSW-MSAはBlock毎に交互に適応される。

W-MSA

特徴マップをサイズがM×Mのwindowに区切り、window内でのみself-attentionを求める

h×w個のパッチが存在する特徴マップにおいて、(hw)×(hw)= h^2×w^2の計算量がM^2×M^2×（h/M)×(w/M) = M^2hwに削減
Mは定数なので、計算コストが画像サイズの2乗から画像サイズの線形に緩和

SW-MSA

入力された特徴マップの解像度が8×8で、64個のパッチからなるとする（下図左）。 M=4として、1つのWindowにはM^2=16個のパッチを含む、重なりの無いWindowに分割することができる。 llayer

このWindowを(M/2, M/2)(2,2)シフトさせると、上図右のようになる。元のWindowの大きさを保っているのは1つのみ。この状態でそのまま処理を進めるのはやや複雑な処理となる。

そのため、SW-MSAにおいては、cyclic shiftという工夫をしている。下図のように、Windowをシフトしてはみ出した部分（薄く表示されているA, B, C）をWindowの反対位置へ移動させる。 →Windowの数やWindowあたりのパッチ数は一定となる。標準的なMSAでよく使用されるマスクを設定してあげることで、無関係なパッチ間でAttentionが生じないようにできるので、複雑な実装を回避することができる。 cylce

こうして得られた特徴マップの移動していた部分を本来の位置へと戻す（reverse cyclic shift）ことで、SW-MSAの処理が完了する。

実験

実験設定

アーキテクチャ：レイヤー数、チャネル数の異なる複数のモデルを定義

タスク

ImageNet 1000クラス分類のタスク（train：1.23M）をスクラッチで学習
ほかのモデルで同様の複雑度（パラメーター数・速度）のものと比較して評価

結果

EfficientNetB7のモデルと同様の精度

タスク

COCO Object Detection
結果

タスク

ADE20K（セマンティックセグメンテーション）

結果

読んだ所感

Swin Transformerって部分的にはCNNと同じことをしている気がしました。

まとめきれなかった内容

Attentionの計算
Pre-norm and Post-norm

aifield / CV_News

#5 Swin Transformer: Hierarchical Vision Transformer using Shifted Windows #5