Open mei28 opened 1 year ago
id: "mlp-mixer-an-all-mlp-architecture-for-vision" aliases:
MLPを用いて,ViTのように画像を分割するパッチで処理.単純な行列演算のみで,事前学習ありではSOTAと同等の性能を出した.
https://arxiv.org/abs/2105.01601
NeurIPS2021
Mixerは一般的な行列演算のみで処理
画像をpatch(token)としてpatch x channelに変換を行う
Mixerは極端なケースでは1x1のCNNのようになる.
100M以下の大規模データセットを用いて事前学習した時は,SOTAと同等の性能を出した.
10M以下のデータセットでは,さまざまな正規化手法を用いることで,良い成果を達成することができた.ただViTには及ばない.
画像処理では大きく分けて3つの特徴量をmixする方法がとられる.
入力画像を重複がないようにSこのpatchに分割 -> X \in R^{S x C}, S:= HW/P**2
X \in R^{S x C}, S:= HW/P**2
toke-mixing: patchを一列に並べ,転置したX^Tに対して写像 -> R^S -> R^S
channel-mixing: patchを一列に並べ,転置したX^Tに対して写像 -> R^C -> R^C
それぞれのmixing層では2つのFC層をもつ
sigmaはelement-wise nonlinearity関数.例えばGELU
Mixerではサイズはずっと固定している.これはCNNのピラミッド構造とは違う.
Mixerではskip-connection, layer-normalizeationを使う.ViTと違い,postion embeddingsは使わない.これはtoken-mixingが入力の順序に対して敏感であるから.
中規模〜大規模データセットでの事前学習で分類問題を解く
評価指標として
分類タスクとしてILSVRC2021"ImageNet"(1.3Mimages, 1kclasses), CIFAR-10/100(50kimages, 10/100class), Oxford-IIIT Pets(3.7kimages, 36classes), Oxford Flowers-102(2k images, 102class)を使う.ベンチマークデータセットとしてVTAB-1kを用いる
ILSVRC2021, ImageNet-21Kを使って,事前学習を行う.
事前学習時の解像度は224, Adam, linear learning rate warmupを10kごとでlinear decay, batch size=4096, weight decay, gradient clipping at global norm1
imageの事前処理としてcrop, forizontal flipをする.またデータ拡張と正規化手法として,RandmAugment, mixup, dropout, stochastic depth
fine-tuningでは,momentumSGD, batchsize=512, gradiwnt clipping at global norm1, cosine learning rate schedule with a linear warmup.
weight decayは行わない.
評価しようとして,1. TPU-v3の事前学習時の計算コスト(FLOPs, 効率性,Throughput) 2. top-1のaccuracyで見る.
各モデルの帰納バイアスがどうなのか見る
予測通り,Mixerは順番入れ替えに影響を受けていない.ResNetは強い帰納バイアスを受けている.
id: "mlp-mixer-an-all-mlp-architecture-for-vision" aliases:
"TSUNDOKU"
MLP-Mixer: An all-MLP Architecture for Vision
一言で言うと
MLPを用いて,ViTのように画像を分割するパッチで処理.単純な行列演算のみで,事前学習ありではSOTAと同等の性能を出した.
論文リンク
https://arxiv.org/abs/2105.01601
著者/所属機関
投稿日付(yyyy/MM/dd)
NeurIPS2021
先行研究と比べてどこがすごい?
技術・手法のキモはどこ?
どうやって有効だと検証した?
コメント
次はなに読む?
Mixerは一般的な行列演算のみで処理
画像をpatch(token)としてpatch x channelに変換を行う
Mixerは極端なケースでは1x1のCNNのようになる.
100M以下の大規模データセットを用いて事前学習した時は,SOTAと同等の性能を出した.
10M以下のデータセットでは,さまざまな正規化手法を用いることで,良い成果を達成することができた.ただViTには及ばない.
画像処理では大きく分けて3つの特徴量をmixする方法がとられる.
入力画像を重複がないようにSこのpatchに分割 ->
X \in R^{S x C}, S:= HW/P**2
toke-mixing: patchを一列に並べ,転置したX^Tに対して写像 -> R^S -> R^S
channel-mixing: patchを一列に並べ,転置したX^Tに対して写像 -> R^C -> R^C
それぞれのmixing層では2つのFC層をもつ
sigmaはelement-wise nonlinearity関数.例えばGELU
Mixerではサイズはずっと固定している.これはCNNのピラミッド構造とは違う.
Mixerではskip-connection, layer-normalizeationを使う.ViTと違い,postion embeddingsは使わない.これはtoken-mixingが入力の順序に対して敏感であるから.
中規模〜大規模データセットでの事前学習で分類問題を解く
評価指標として
分類タスクとしてILSVRC2021"ImageNet"(1.3Mimages, 1kclasses), CIFAR-10/100(50kimages, 10/100class), Oxford-IIIT Pets(3.7kimages, 36classes), Oxford Flowers-102(2k images, 102class)を使う.ベンチマークデータセットとしてVTAB-1kを用いる
ILSVRC2021, ImageNet-21Kを使って,事前学習を行う.
事前学習時の解像度は224, Adam, linear learning rate warmupを10kごとでlinear decay, batch size=4096, weight decay, gradient clipping at global norm1
imageの事前処理としてcrop, forizontal flipをする.またデータ拡張と正規化手法として,RandmAugment, mixup, dropout, stochastic depth
fine-tuningでは,momentumSGD, batchsize=512, gradiwnt clipping at global norm1, cosine learning rate schedule with a linear warmup.
weight decayは行わない.
評価しようとして,1. TPU-v3の事前学習時の計算コスト(FLOPs, 効率性,Throughput) 2. top-1のaccuracyで見る.
各モデルの帰納バイアスがどうなのか見る
予測通り,Mixerは順番入れ替えに影響を受けていない.ResNetは強い帰納バイアスを受けている.