IsHYuhi / PaperSummary

Summaries of Papers in Japanese/日本語での論文要旨
3 stars 1 forks source link

SegFormer: Simple and Efficient Design for Semantic Segmentation with Transformers #23

Open IsHYuhi opened 3 years ago

IsHYuhi commented 3 years ago

INFO

author

Enze Xie1∗, Wenhai Wang2, Zhiding Yu3, Anima Anandkumar3, 4, Jose M. Alvarez3, Ping Luo1

affiliation

1The University of Hong Kong, 2Nanjing University, 3NVIDIA, 4Caltech

conference or year

2021

link

arXiv 実装

概要

SegFormerは, トランスフォーマーと軽量な多層パーセプトロン(MLP)デコーダを統合した, シンプルで効率的かつ強力なセマンティックセグメンテーションフレームワークである. SegFormerには2つの特徴があり,

  1. SegFormerは、マルチスケールの特徴を出力する新しい階層構造のTransformerエンコーダで構成されている. positional encodingを必要としないため, テストの解像度がトレーニングと異なる場合に性能低下につながるpositional codesの補間を避けることができる.

  2. SegFormerは複雑なデコーダを避ける. 提案されたMLPデコーダは, 異なる層からの情報を集約することで、ローカルな注意とグローバルな注意の両方を組み合わせ、強力な表現を実現します。このシンプルで軽量な設計が, Transformerでの効率的なセグメンテーションの鍵であることを示す.

アプローチをスケールアップして, SegFormer-B0からSegFormer-B5までの一連のモデルを取得し, 先行研究よりも大幅に優れた性能と効率を達成した. SegFormer-B4はADE20Kで64Mのパラメータを用いて50.3%のmIoUを達成し, 以前の最良の手法よりも5倍小さく, 2.2%良い結果となった.最良のモデルであるSegFormer-B5は, Cityscapes検証セットで84.0%mIoUを達成し, Cityscapes-Cでは優れたゼロショットのロバスト性を示した.

スクリーンショット 2021-10-12 15 56 43 semantic segmentationでは, Zheng et al. がSETRを提案し, segmentationタスクでTransformerを使用することの実現可能性を示した. SETRはバックボーンとしてViTを採用し, 特徴の解像度を高めるために複数のCNNデコーダを組み込んでいる. 性能は良いが, ViTにはいくつかの制限がある.

  1. ViTはマルチスケールではなく, シングルスケールの低解像度特徴を出力する.
  2. 大きな画像では計算コストが高くなる.

これらの限界を解決するために, Wang et al. は, Pyramid Vison Transformer(PVT)を提案した. PVTは, ViTを自然に拡張し, 高密度な予測のためのピラミッド構造を持つ. PVTは, 物体の検出と意味的なセグメンテーションにおいて, ResNet対応のものよりもかなりの改善を示している. しかし, Swin TransformerやTwinsなどの他の新しい手法とともに, これらの手法は主にTransformerエンコーダの設計を考慮しており, さらなる改善のためのデコーダの貢献を無視している. 本論文では, 効率, 精度, 堅牢性を共同で考慮した, semantic segmentationのための最先端のTransformerフレームワークであるSegFormerを導入する. 従来の手法とは対照的に, 本フレームワークはエンコーダとデコーダの両方を再設計している.

提案手法

スクリーンショット 2021-10-12 15 56 56

SegFormerは2つの主要モジュールから構成されている.

  1. 高解像度の粗い特徴と低解像度の細かい特徴を生成する階層型Transformer encoder
  2. これらの複数レベルの特徴を融合して最終的なsemantic segmentation maskを生成する軽量のAll-MLP decoder

HxWx3の画像を, 4x4のパッチに分割する. ViTは16x16のパッチに分割するが, より小さいパッチを使うことで, 高密度な予測タスクに有利になる. これらのパッチを hierachical transformer encoderに入力しmulti-level features {1/4, 1/8, 1/16, 1/32} を得る. それらをAll-MLP decoder に私, H/4xW/4xNclsの解像度でセグメンテーションマスクを予測する.

Hierarchical Feature Representation

単一解像度の特徴マップしか生成できないViTとは異なり, このモジュールの目的は, 入力画像に対して, CNNのような多階層の特徴を生成する. これらの特徴は, 高解像度の粗い特徴と低解像度の細かい特徴を提供し, セマンティックセグメンテーションの性能を向上させる。

より正確には, H × W × 3の解像度を持つ入力画像が与えられたとき, パッチのマージを実行して、H/(2i+1) × W/(2i+1) × Ci の解像度を持つ階層的特徴マップFiを得る, ここでi∈{1, 2, 3, 4}で, Ci+1はCiより大きい.

Overlapped Patch Merging

画像パッチが与えられたとき,ViTのパッチマージ処理では,N×N×3個のパッチを1×1×C個のベクトルに統一する.これを拡張すると, 2 × 2 × Ci 個の特徴パスを 1 × 1 × Ci+1 個のベクトルに統一し, 階層的な特徴マップを容易に得ることができる, これを利用して, F1 ( H/4 × W/4 × C1 ) から F2 ( H/8 × W/8 × C2 ) へと階層化された特徴量を縮小し, 階層内の他の特徴量マップを反復することができる.

この処理はパッチ周辺の局所的な連続性を保つことができていないのでm オーバーラップしているパッチを結合する処理を行う.オーバーラップしたパッチのマージを行うことで, オーバーラップしていない場合と同じサイズの特徴量を生成する.

Efficient Self-Attention

PVTのようにシーケンスのリダクション処理を行う. KをN/R x (CR) にreshapeし, Linear(in=CR, out=C). O(N2) -> O(N2/R)

Mix-FFN

ViTでは, 位置情報の導入にPE(Positional Encoding)を用いている. しかし, PEの解像度は固定されている. そのため, テストの解像度がトレーニングの解像度と異なる場合, 位置コードを補間する必要があり, これがしばしば精度の低下につながる. この問題を軽減するために, CPVTでは, 3×3のConvをPEと共に使用し, データ駆動型のPEを実現している. この研究では, セマンティックセグメンテーションには, 位置のエンコードは実際には必要ないと主張する. その代わりに, フィードフォワードネットワーク(FFN)に3×3 Convを直接使用することで, 位置情報をリークするゼロパディングの効果[How much position information do convolutional neural networks encode?]を考慮したMix-FFNを導入する. Mix-FFNは以下のように定式化. xout = MLP(GELU(Conv3x3(MLP(xin)))) + xin, ここで、xinはself-attentionモジュールからの特徴量. Mix-FFNは、各FFNに3×3ConvとMLPを混在させる.実験では, トランスフォーマーの位置情報を提供するには, 3×3畳み込みで十分であることを示した. 特に, 深さ方向の畳み込みを使うことで, パラメータ数を減らし, 効率を向上させている.

Lightweight All-MLP Decoder

SegFormerはMLP層のみで構成された軽量のデコーダを搭載しており, 他の手法で一般的に使用されている, 手作業で計算負荷の高いコンポーネントを回避している. このようなシンプルなデコーダーを可能にする鍵は, 階層型Transformerエンコーダーが, 従来のCNNエンコーダーよりも大きなeffective receptive field(ERF)を持っていることである. 提案するAll-MLPデコーダは, 主に4つのステップで構成されている.

  1. MiTエンコーダーからのmulti-levelの特徴Fiは、MLP層を経てチャネル次元を統一する.
  2. 第2段階として, 特徴量を1/4 thの大きさにアップサンプリングし, 連結する.
  3. 最後に, 別のMLP層で、融合された特徴量を用いて, H/4 × W/4 × Nclsの解像度でセグメンテーションマスクMを予測する. スクリーンショット 2021-10-12 17 58 17

Effective Receptive Field (ERF)

スクリーンショット 2021-10-12 15 57 21

CNNでは受容野が限られているため, ASPPのような受容野を広げるコンテキストモジュールに頼らざるを得ないが, どうしてもheavyになってしまう. 本研究のdecoderは, Transformersの非局所的な注意から恩恵を受け, 複雑にならずに大きな受容野を得ることができる.

しかし, 同じdecoderデザインはCNNバックボーンではうまく機能しない. なぜなら, 全体の受容野はステージ4での限定されたものによって上限されるからである. さらに重要なのは, 高度に局所的な注意と非局所的な注意の両方を同時に生成するというTransformerに起因する特徴を本質的に利用していることである.

これらを統一することで, 私たちのMLPデコーダは, わずかなパラメータを追加するだけで, 補完的で強力な表現をレンダリングする.

検証

スクリーンショット 2021-10-12 22 26 51

スクリーンショット 2021-10-12 22 27 22

新規性

議論,展望

Comment

date

Oct. 12nd, 2021