Transformers
Transformers는 전 범위에 걸쳐서 ML 분야를 선도하고 있습니다. 특히나 Vision tasks에서도 최근 필수적으로 존재를 자리 매김하고 있고, pose estimation tasks에도 많은 성능 향상을 야기했으며 특히 2D pose estimation에서 좋은 결과를 보여주고 있습니다. 3D mesh를 추정하는 여러 연구에서도 transformers을 사용하고 있습니다. 이 논문은 이를 Human Mesh Recovery(HMR 2.0)라고 명명합니다.
4DHumans
HMR 2.0 에서는 트랙킹을 기능을 추가합니다. 기존의 3D mesh 추정 + tracking 기능을 합하여 human 4D를 추정합니다.
Large pre-trained model
최근 AI계의 다른 혁명적인 연구들에서 제공하듯, HMR2.0 모델 또한 약간의 meta learning으로 vision field 외에 graphics, biomechanics 등에서 사용할 수 있습니다.
Better 3D poses
Tracking 성능과 mesh 추정 성능 모두 각 분야에서 SOTA를 달성 했습니다.
Reconstructing People
Tasks
Input image(I) 에 대해서 SMPL 모델 [th, beta, pi]를 추정합니다.
Notations
th: pose ( 24x3x3 )
beta: shape ( 10 )
M(output of th, beta): mesh ( 3x6890 )
X: body joints ( 3xk )
pi: camera parameter (R, t)
Architecture
Model
위의 그림에서 보이는 바와 같이 HMR2.0은 vision transformers, transformers, MLP로 구성되어 있습니다. 구조를 위와 같이 단순하게 가져가면 model이 domain 종속성이 사라집니다. 이러한 이유로 introduciton에서 이야기한 pre-trained model의 기능을 수행할 수 있습니다.
Losses
아웃풋 종류에 맞추어 총 3개의 loss와 선택적인 loss를 추가적으로 제공합니다.
SMPL(th, beta): L2 norm
KP3D(X): L1 norm
KP2D(x): L1 norm
adversial prior(th_b, beta):
reprojection error(KP2D)는 SMPL에서 얻어진 결과를 바탕으로 추정될 3D 좌표와 X의 오차를 어느정도 줄여주는 역할을 합니다. 하지만, SMPL 모델과 X를 추정함에 있어서 생기는 필연적 오차는 발생하기 마련임으로, 모델의 입장에선 추정을 진행하는데 어려움이 있을 수 있습니다. 이런 부분을 정규화 시켜주기 위해서 SMPL 매개변수가 실제 신체에 해당하는지 여부를 알려주도록 훈련된 판별 네트워크 D를 사용합니다. X가 우선순위로 작동하기 때문에 추정하고 하는 값 SMPL과 적대적으로 동작하여 adversial prior라고 명명합니다.
Tracking People
최신의 성능을 보장하는 PHALP를 사용합니다. PHALP는 HMR과 같은 스타일의 3D reconstrution에서 파생되었습니다. 기본적인 아이디어는 각각의 프레임들에서 사람을 검출 한 뒤, pose와 3D공간에서 위치를 함께 추출하면서 검출된 사람 그리고 외관을 3D로 "lift"합니다. 3D 모델의 출력에서, 3D 공간은 카메라에서, 3D 외관은 texture map에서 추정합니다.
PHALP 원문 논문(2022 · 16회 인용, 버클리)에서 발췌. Appearance, pose, location을 이전 프레임에서 참조하면서 tracklet을 만듭니다. 이 축적된 결과를 바탕으로 t+1에서 추정을 하고 t+1에서 얻어지는 이미지와 detection 결과를 바탕으로 관계를 파악하여 tracking을 풀어냅니다.
Experiments
세가지 테스트를 진행합니다. 첫번째는 HMR2.0의 2D, 3D pose 추정 결과와 비교합니다. 두번쨰는 4DHumans의 결과를 보여줍니다. 마지막으로 downstream application(모델의 범용성을 보여주기 위한 테스트)로 action recognition을 테스트합니다.
Dataset
Human3.6M, MPI-INF- 3DHP, COCO, MPII. InstaVariety, AVA, AI Challenger
Baseline
PyMAF, CLIFF, HMAR, PARE, PyMAF-X
1. Pose accuracy
2. Tracking
데이터셋은 Posetrack을 사용합니다. IDs (ID switches), MOTA, IDF1, and HOTA의 metrics를 사용하여 결과를 봅니다.
3. Action recognition
Action recognition을 위해서 다른 논문(On the benefits of 3D tracking and pose for human action recognition)을 인용합니다. 해당 논문은 SMPL 파라미터를 인풋으로 받으며 액션 라벨을 아웃풋으로 추정합니다. 데이터셋은 AVA를 사용했으며, action classification을 위한 transformer를 각각의 베이스라인에 대해서 학습했습니다.
official repo: https://shubham-goel.github.io/4dhumans/ 아카이브 논문 모체 논문인 HMR(2018)은 6월 29일 기준 1491회 인용
Introduction
Transformers Transformers는 전 범위에 걸쳐서 ML 분야를 선도하고 있습니다. 특히나 Vision tasks에서도 최근 필수적으로 존재를 자리 매김하고 있고, pose estimation tasks에도 많은 성능 향상을 야기했으며 특히 2D pose estimation에서 좋은 결과를 보여주고 있습니다. 3D mesh를 추정하는 여러 연구에서도 transformers을 사용하고 있습니다. 이 논문은 이를 Human Mesh Recovery(HMR 2.0)라고 명명합니다.
4DHumans HMR 2.0 에서는 트랙킹을 기능을 추가합니다. 기존의 3D mesh 추정 + tracking 기능을 합하여 human 4D를 추정합니다.
Large pre-trained model 최근 AI계의 다른 혁명적인 연구들에서 제공하듯, HMR2.0 모델 또한 약간의 meta learning으로 vision field 외에 graphics, biomechanics 등에서 사용할 수 있습니다.
Better 3D poses Tracking 성능과 mesh 추정 성능 모두 각 분야에서 SOTA를 달성 했습니다.
Reconstructing People
Tasks
Input image(I) 에 대해서 SMPL 모델 [th, beta, pi]를 추정합니다.
Notations
Architecture
Model 위의 그림에서 보이는 바와 같이 HMR2.0은 vision transformers, transformers, MLP로 구성되어 있습니다. 구조를 위와 같이 단순하게 가져가면 model이 domain 종속성이 사라집니다. 이러한 이유로 introduciton에서 이야기한 pre-trained model의 기능을 수행할 수 있습니다.
Losses 아웃풋 종류에 맞추어 총 3개의 loss와 선택적인 loss를 추가적으로 제공합니다.
Tracking People
최신의 성능을 보장하는 PHALP를 사용합니다. PHALP는 HMR과 같은 스타일의 3D reconstrution에서 파생되었습니다. 기본적인 아이디어는 각각의 프레임들에서 사람을 검출 한 뒤, pose와 3D공간에서 위치를 함께 추출하면서 검출된 사람 그리고 외관을 3D로 "lift"합니다. 3D 모델의 출력에서, 3D 공간은 카메라에서, 3D 외관은 texture map에서 추정합니다.
Experiments
세가지 테스트를 진행합니다. 첫번째는 HMR2.0의 2D, 3D pose 추정 결과와 비교합니다. 두번쨰는 4DHumans의 결과를 보여줍니다. 마지막으로 downstream application(모델의 범용성을 보여주기 위한 테스트)로 action recognition을 테스트합니다.
Dataset
Human3.6M, MPI-INF- 3DHP, COCO, MPII. InstaVariety, AVA, AI Challenger
Baseline
PyMAF, CLIFF, HMAR, PARE, PyMAF-X
1. Pose accuracy
2. Tracking
데이터셋은 Posetrack을 사용합니다. IDs (ID switches), MOTA, IDF1, and HOTA의 metrics를 사용하여 결과를 봅니다.
3. Action recognition
Action recognition을 위해서 다른 논문(On the benefits of 3D tracking and pose for human action recognition)을 인용합니다. 해당 논문은 SMPL 파라미터를 인풋으로 받으며 액션 라벨을 아웃풋으로 추정합니다. 데이터셋은 AVA를 사용했으며, action classification을 위한 transformer를 각각의 베이스라인에 대해서 학습했습니다.