Advances in Neural Information Processing Systems}

Abstract

Vision transformer를 pose estimation task에 접목시킨 Baseline 논문. TR계열 답게 parameters의 개수를 100M to 1B까지 다양하게 변경할 수 있음.

OCHuman에서 1위를 한 데이터셋

기존 연구들은 TR을 전적으로 사용하지 않고 CNN을 backbone으로 사용하고 TR을 feature나 model과 body keypoints의 관계를 추출하는데 사용함.
- PRTR, TokenPose, TransPose등
위의 연구와는 다르게 순수한 ViTR이 pose estimation에 기여할 수 있는지 검증을 해보는 논무
성능면에서 뛰어난 결과
- 80.9AP (on COCO)
성능면 외에도, simplicity, scalability, flexibility, transferability 측면에서 뛰어난 면을 보임
- simplicity: 다른 연구와는 다르게 간단한 ViTR을 그대로 가져다 썼으므로 Domain 지식이 필요하지 않음(당연하지 그렇게 쓰는게 목표였으니까..)
- scalability: 전형적인 TR의 장점
- flexibility: multi-resolution, multi-pose를 대응하기 위해서 간단한 데코더를 추가하면 됌. Fine-tunning이 매우 쉬움(TR의 특징)
- transferability: small-ViPose를 만들기 위해 기존의 big-ViPose에 간단한 토큰을 추가하는 것으로 이식될 수 있음

Vision Transformer의 구조

최대한 간단한 구조를 유지하려고 노력했으며, skip-connections 나 cross-attentions와 같은 것도 decoder에서 찾아 볼 수 없음.

Pre-training에 사용된 데이터의 수보다 훨씬 작은 pose dataset의 사용으로도 경쟁력있는 학습이 가능
Resolution flexibility
해상도를 조절하기 위해서 path embedding layer의 stride만 조절
Attention type flexibility
ViT의 attention에서 모든 윈도우를 다 검증하는 것은 리소스를 많이 사용함
Shift window: 인접 window의 정보를 전달하기 위해서 사용(다른 논문 참조해서 설명 많이 X)
Pooling window: 구체적인 설명 X
Finetuning flexibility
TR 계열의 특징
Task flexibility
multiple pose estimation dataset에 ViTPose의 경량화된 버전이 쉽게 적용 될 수 있음.
The transferability of ViTPose
knowledge distillation이 쉽게 가능함
- 보통 knowledge distillation은 L = MSE(K_s, K_t)로 이루어짐 K는 각 네트워크의 아웃풋(똑같은 인풋에 대해)
추가적인 학습가능한 파라미터 토큰 t를 초기화하고 teacher 모델의 patch embedding layer 이후의 visual tokes에 추가함.
나머지 parameter는 freeze하고 학습 수행
위의 수식으로 t를 학습

위의 수식으로 knowledge distillation