Jungduri / MLPaperReivew

0 stars 0 forks source link

Humans in 4D: Reconstructing and Tracking Humans with Transformers #11

Open Jungduri opened 1 year ago

Jungduri commented 1 year ago

official repo: https://shubham-goel.github.io/4dhumans/ 아카이브 논문 모체 논문인 HMR(2018)은 6월 29일 기준 1491회 인용

Introduction

image

Reconstructing People

Tasks

Input image(I) 에 대해서 SMPL 모델 [th, beta, pi]를 추정합니다.

Notations

Architecture

image

reprojection error(KP2D)는 SMPL에서 얻어진 결과를 바탕으로 추정될 3D 좌표와 X의 오차를 어느정도 줄여주는 역할을 합니다. 하지만, SMPL 모델과 X를 추정함에 있어서 생기는 필연적 오차는 발생하기 마련임으로, 모델의 입장에선 추정을 진행하는데 어려움이 있을 수 있습니다. 이런 부분을 정규화 시켜주기 위해서 SMPL 매개변수가 실제 신체에 해당하는지 여부를 알려주도록 훈련된 판별 네트워크 D를 사용합니다. X가 우선순위로 작동하기 때문에 추정하고 하는 값 SMPL과 적대적으로 동작하여 adversial prior라고 명명합니다.

Tracking People

image

최신의 성능을 보장하는 PHALP를 사용합니다. PHALP는 HMR과 같은 스타일의 3D reconstrution에서 파생되었습니다. 기본적인 아이디어는 각각의 프레임들에서 사람을 검출 한 뒤, pose와 3D공간에서 위치를 함께 추출하면서 검출된 사람 그리고 외관을 3D로 "lift"합니다. 3D 모델의 출력에서, 3D 공간은 카메라에서, 3D 외관은 texture map에서 추정합니다.

image

PHALP 원문 논문(2022 · 16회 인용, 버클리)에서 발췌. Appearance, pose, location을 이전 프레임에서 참조하면서 tracklet을 만듭니다. 이 축적된 결과를 바탕으로 t+1에서 추정을 하고 t+1에서 얻어지는 이미지와 detection 결과를 바탕으로 관계를 파악하여 tracking을 풀어냅니다.

Experiments

세가지 테스트를 진행합니다. 첫번째는 HMR2.0의 2D, 3D pose 추정 결과와 비교합니다. 두번쨰는 4DHumans의 결과를 보여줍니다. 마지막으로 downstream application(모델의 범용성을 보여주기 위한 테스트)로 action recognition을 테스트합니다.

Dataset

Human3.6M, MPI-INF- 3DHP, COCO, MPII. InstaVariety, AVA, AI Challenger

Baseline

PyMAF, CLIFF, HMAR, PARE, PyMAF-X

1. Pose accuracy

image image

2. Tracking

데이터셋은 Posetrack을 사용합니다. IDs (ID switches), MOTA, IDF1, and HOTA의 metrics를 사용하여 결과를 봅니다.

image

3. Action recognition

Action recognition을 위해서 다른 논문(On the benefits of 3D tracking and pose for human action recognition)을 인용합니다. 해당 논문은 SMPL 파라미터를 인풋으로 받으며 액션 라벨을 아웃풋으로 추정합니다. 데이터셋은 AVA를 사용했으며, action classification을 위한 transformer를 각각의 베이스라인에 대해서 학습했습니다.

image