Microsoft에서 나온, Swin transformer와 같은 multi-stage ViT를 backbone으로 하고, region-based pre-training task를 추가하여 memory/연산 cost는 별로 추가되지 않은 채, self-sup 분야에서 SOTA를 달성한 논문입니다.
선택 이유
몰랐던 region-based 라는 새로운 개념이 제시되어 있어서 읽어보았습니다. (읽어보니 완전히 새로운 개념은 아니네요. augmentation에 기반했던 기존의 self-supervised learning이 view-level 학습에 치중되었기 때문에 dense prediction 성능이 약한 것이라고 주장합니다.)
Links
한 줄 요약
선택 이유