architecture : 기본적으로 ViT. n개의 patch 중에 m개의 context patch를 뽑고 Q=all patches, K=V=context patches인 cross-attention.
objective : Cross Entropy Loss
baseline : ResNext, ViT-S, MOCOv3, MAE
data : CIFAR-100, ImageNet, ImagNet-1K
result : 효율적인 프리트레이닝(모든 patch를 안봐서), 100에폭에서 ViT-S나 MOCO보다 좋은 성능.(ResNeXT보단 낮음). MAE보다도 성능이 낮은데 앙상블 했더니 1600에폭 학습한 MAE 보다 성능이 더 좋았다고 하면서 다른 representation을 학습한거라고 주장
paper
TL;DR
Details