Jungduri / MLPaperReivew

0 stars 0 forks source link

ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation #4

Open Jungduri opened 1 year ago

Jungduri commented 1 year ago

Advances in Neural Information Processing Systems}

official repo: https://github.com/vitae-transformer/vitpose

Abstract

Vision transformer를 pose estimation task에 접목시킨 Baseline 논문. TR계열 답게 parameters의 개수를 100M to 1B까지 다양하게 변경할 수 있음.

image

OCHuman에서 1위를 한 데이터셋

Introduction

ViPose

image

image Vision Transformer의 구조

The simplicity of ViTPose

최대한 간단한 구조를 유지하려고 노력했으며, skip-connections 나 cross-attentions와 같은 것도 decoder에서 찾아 볼 수 없음.

The scalability of ViTPose

The flexibility of ViTPose

Pre-training data flexibility

Experiments

image image

고찰