problem : vision backbone without CNN and transformer
idea : ViT의 input 방식을 따라가되, attention이나 convolution 없이 MLP로만 해보자!
architecture : 이미지를 겹치지 않는 패치 단위로 자르고, 하나의 projection으로 C차원으로 보냄. 그러면 S개의 C차원의 matrix $\mathbb{R}^{S\times C}$ 가 생기는데 이를 열 차원에서 하면 "token-mixing MLP", 행 차원에서 하면 "channel-mixing MLP"이 되게 됨.
objective : CrossEntropy Loss
baseline : BiT-R, Mixer-L, HaloNet
data : ILSVRC2012 ImageNet, CIFAR-10/100, Oxford-IIIT-pets, JFT-30
paper
TL;DR
Details