Jungduri / MLPaperReivew

0 stars 0 forks source link

Explicit Box Detection Unifies End-to-End Multi-Person Pose Estimation #3

Open Jungduri opened 1 year ago

Jungduri commented 1 year ago

Explicit Box Detection Unifies End-to-End Multi-Person Pose Estimation

official repo: https://github.com/IDEA-Research/ED-Pose

Abstract

Explicit box Detection multi-person pose estimation: ED-Pose. 명시적이라는 키워드에 주목해서 볼 필요가 있다. 아래와 같은 키워드가 논문에서 제시하는 가장 주요한 포인트이다.

Introduction

image

Figure 1에 있는 그림과 같이 Pose estimation은 1. global(Human-level), local(keypoint-level)의 의존성을 가지고 이러한 이유로 two-stage subtasks로 분리된 두가지 문제를 푸는데 집중하는 경향이 있다(e.g. global person detection, keypoint regression).

Rethinking one-stage multi-person pose estimation

The Necessities of One-stage Methods

TD는 global에서 object detection을 통해 사람을 검출 및 cropping하고, local level에서 keypoint를 추정하는 방식으로 진행됌. 이러한 방식은 아래와 같은 문제점을 갖고 있음.

one-stage 방식은 위에서 언급한 모든 단점을 경감시킬 수 있고 end-to-end 방식으로 최적화 할 수 있다는 장점을 갖고 있다. 최근 DETR에서 영감을 받은 방식이 one-stage로 해결하려는 노력을 했으나, 성능의 심각한 하락을 야기했다.

The Bottlenecks of Existing One-stage Methods

DETR 기반의 방식이라는 용어에서 대부분의 연구는 여전히 TD framework를 고수해왔고 두번째 사람의 pose estimation 결과를 sequential 정보를 추가하여 key points 결과를 좋게 만드는데 성공함. PETR는 모든 pipeline을 end-to-end로 어떠한 후처리 없이 성공함. 하지만 이러한 방식은 여전히 문제점을 가지고 있음.

Methodology

Overview

image

Human Detection Decoder

image

Human-to-Keypoint Detection Decoder

image

Experiments

image image