[55] Position Prediction as an Effective Pretraining Strategy

TL;DR

task : image pretraining
problem : simple and effective pretraining
idea : PE를 input에 넣어주지 말고 output으로 예측하도록 하자!
architecture : 기본적으로 ViT. n개의 patch 중에 m개의 context patch를 뽑고 Q=all patches, K=V=context patches인 cross-attention.
objective : Cross Entropy Loss
baseline : ResNext, ViT-S, MOCOv3, MAE
data : CIFAR-100, ImageNet, ImagNet-1K
result : 효율적인 프리트레이닝(모든 patch를 안봐서), 100에폭에서 ViT-S나 MOCO보다 좋은 성능.(ResNeXT보단 낮음). MAE보다도 성능이 낮은데 앙상블 했더니 1600에폭 학습한 MAE 보다 성능이 더 좋았다고 하면서 다른 representation을 학습한거라고 주장
contribution : simple!
limitation or 이해 안되는 부분 :