e4exp / paper_manager_abstract

0 stars 0 forks source link

S2-MLPv2: Improved Spatial-Shift MLP Architecture for Vision #607

Open e4exp opened 3 years ago

e4exp commented 3 years ago

近年、MLPベースのビジョンバックボーンが登場しています。 誘導バイアスの少ないMLPベースのビジョンアーキテクチャは、CNNやビジョントランスフォーマーと比較して、画像認識において競争力のある性能を達成しています。 その中でも、空間シフトMLP(S2-MLP)は、単純な空間シフト操作を採用しており、MLP-mixerやResMLPなどの先駆的な作品よりも優れた性能を達成しています。 最近では,より小さなパッチを用いたピラミッド構造のVision Permutator (ViP)やGlobal Filter Network (GFNet)がS2-MLPよりも優れた性能を発揮しています。

本論文では、S2-MLPのビジョンバックボーンを改良します。 S2-MLPでは、特徴量マップをチャネル次元に沿って拡張し、拡張した特徴量マップを複数の部分に分割します。 分割された部分に対して、異なる空間シフト操作を行います。 また、分割された部分を融合させるために、Split-attentionオペレーションを利用します。 さらに、画像認識精度を向上させるために、他の手法と同様に、より小さいスケールのパッチを採用し、ピラミッド構造を使用しています。 このように改良された空間シフトMLPビジョンバックボーンを「S2-MLPv2」と呼んでいます。 S2-MLPv2-Mediumは、55M個のパラメータを用いて、224×224枚の画像を用いたImageNet-1Kベンチマークにおいて、83.6%のトップ1精度を達成しました(自己学習なし、外部学習データなし)。

e4exp commented 3 years ago

1 はじめに

近年,コンピュータビジョンでは,誘導バイアスを抑えて高性能を実現するための研究が盛んに行われている。 ビジョントランスフォーマー(Dosovitskiy et al., 2021; Touvron et al., 2020)やMLPベースのバックボーン(Tolstikhin et al., 2021; Touvron et al., 2021a)など、2種類のアーキテクチャが登場している。 繊細に考案された畳み込みカーネルを持つデファクトのビジョンバックボーンCNN(He et al., 2016)と比較して、ビジョントランスフォーマーもMLPベースのバックボーンも、高価な手作りの設計をすることなく、画像認識において競争力のある性能を実現しています。 具体的には、ビジョントランスフォーマーモデルは、一連のトランスフォーマーブロックを積み重ね、グローバルな受信フィールドを実現しています。 MLPベースの手法としては、MLP-Mixer (Tolstikhin et al., 2021)やResMLP (Touvron et al., 2021a)などがあり、MLPによって実装された異なるパッチに沿った投影によってパッチ間のコミュニケーションを実現しています。 MLP-MixerやResMLPとは異なり、空間シフトMLP (S2 -MLP) (Yu et al., 2021b)は、パッチ間の通信に空間シフトという非常に簡単な操作を採用しており、ImageNet1Kデータセットにおいて、外部の学習データなしに高い画像認識精度を実現しています。 また、Vision Permutator (ViP) (Hou et al., 2021)は、特徴表現を縦横方向に符号化し、一方で2レベルのピラミッド構造でより細かいパッチサイズを利用することで、S2 -MLPよりも高い性能を実現しています。 CCS-MLP (Yu et al., 2021a) は、循環型のトークン混合MLPを考案し、翻訳不変性の特性を実現しています。 Global Filter Networks (GFNet) (Rao et al., 2021b)は、2D Fourier Transformを利用して空間パッチの特徴を周波数領域にマッピングし、周波数領域でクロスパッチ通信を行う。 Raoら(2021b)が指摘しているように、周波数領域でのトークンミックス演算は、サーキュラントウェイトを用いた深さ方向の畳み込みに相当します。 また、GFNetでは、高い認識精度を実現するために、より小さなサイズのパッチをピラミッド構造で利用しています。 最近では、AS-MLP (Lian et al., 2021) が、特徴マップのチャネルを軸方向にシフトして4段ピラミッドを考案し、優れた性能を実現しています。 並行して、Cycle-MLP(Chen et al., 2021a)は、空間投影のために複数の擬似カーネルを考案し、こちらも優れた性能を達成しています。 AS-MLP (Lian et al., 2021)とCycle-MLP (Chen et al., 2021a)の両方が、よく考案された4レベルのピラミッドに基づいていることは注目に値します。 本研究では、空間シフトMLP (S2 -MLP) (Yu et al., 2021b)の設計を再考し、改良された空間シフトMLP (S2 -MLPv2)を提案する。 オリジナルのS2 -MLPと比較して、修正は主に2つの側面で行われています。

改良された空間シフトMLPアーキテクチャをS2 -MLPv2と呼びます。 オリジナルの空間シフトMLP(S2 -MLP)と、改良版S2 -MLPv2の違いを図1に示します。 公開ベンチマークであるImageNet-1Kを用いた実験では,提案したS2 -MLPv2が最先端の画像認識精度を持つことが示されました. 中規模モデルであるS2 -MLPv2-Mediumは,55M個のパラメータを用いて,224×224枚の画像を用いて83.6%のトップ1精度を達成しています.

image