Open Jungduri opened 1 year ago
official repo: https://github.com/vitae-transformer/vitpose
Vision transformer를 pose estimation task에 접목시킨 Baseline 논문. TR계열 답게 parameters의 개수를 100M to 1B까지 다양하게 변경할 수 있음.
OCHuman에서 1위를 한 데이터셋
Vision Transformer의 구조
최대한 간단한 구조를 유지하려고 노력했으며, skip-connections 나 cross-attentions와 같은 것도 decoder에서 찾아 볼 수 없음.
위의 수식으로 t를 학습
위의 수식으로 knowledge distillation
Resolution flexibility
TR 내부의 attention 모듈에 의해 Occlusion에 강하고 TR의 특징으로 인해 말단 관절에서 추정 오차의 drop이 심하지 않다.
Advances in Neural Information Processing Systems}
official repo: https://github.com/vitae-transformer/vitpose
Abstract
Vision transformer를 pose estimation task에 접목시킨 Baseline 논문. TR계열 답게 parameters의 개수를 100M to 1B까지 다양하게 변경할 수 있음.
Introduction
ViPose
The simplicity of ViTPose
최대한 간단한 구조를 유지하려고 노력했으며, skip-connections 나 cross-attentions와 같은 것도 decoder에서 찾아 볼 수 없음.
The scalability of ViTPose
The flexibility of ViTPose
Pre-training data flexibility
Resolution flexibility
Attention type flexibility
Finetuning flexibility
Task flexibility
The transferability of ViTPose
위의 수식으로 t를 학습
위의 수식으로 knowledge distillation
Experiments
Resolution flexibility
TR 내부의 attention 모듈에 의해 Occlusion에 강하고 TR의 특징으로 인해 말단 관절에서 추정 오차의 drop이 심하지 않다.
고찰