[63] Masked Autoencoders Are Scalable Vision Learners

TL;DR

task : self-supervised learning -> image classification / object detection / segmentation
problem : BERT처럼 masked 예측하는 방식으로 pretraining 하고 싶다
idea : 오토인코더처럼 해보자. 그리고 image는 text 보다 각 토큰의 정보량이 적으니(spatial redundancy가 있다고 표현) mask ratio를 대신 엄청 높이자(논문에서 75%)
architecture : encoder-decoder인데 encoder에는 mask되지 않은 토큰만 들어가고 encoder output에 원래 위치에 mask 임베딩을 끼워넣어서 decoder가 이를 보고 reconstruct하는 형태. encoder는 ViT-L, decoder는 자유롭게 선택해도 되나 논문에서는 encoder의 10% 정도의 computation이 드는 작은 decoder 사용.
objective : mask된 토큰들에 대한 mean squared error(MSE)
baseline : supervised learning, MoCov3, BeiT
data : ImageNet-1K로 self-supervised pretraining. 이후 linear probing / finetuning. COCO, ADE20K, iNaturalists, Places로 finetuning.
result : 다른 task로 transfer했을 때 SOTA
contribution : simple architecture with strong result!
limitation or 이해 안되는 부분 :