Synthetic to Real: Unsupervised Domain Adaptation for Animal Pose Estimation

Paper : https://arxiv.org/pdf/2103.14843.pdf

Introduction

오늘 읽어볼 논문은 CVPR 2021년에 소개된 "From Synthetic to Real: Unsupervised Domain Adaptation for Animal Pose Estimation" 입니다. Synthetic Dataset을 이용하여 동물의 자세를 추정하는 논문이며, Domain Adaptation 기법을 사용했다고 합니다. Animal Pose Estimation에서 Synthetic Dataset을 사용하는 이유는 정확하게 라벨링된 데이터의 부족 문제 때문입니다.

Synthetic Dataset의 문제점은 아래와 같습니다.

데이터의 domain shift 현상
noisy가 많음
즉, domain gap 존재

따라서 본 논문에서는 multi-scale domain adaptation module(MDAM)을 제안하게 됩니다. 참고로 human과는 달리 동물의 domain gap은 더 다루기 쉽다고 합니다. Syn data에서 주로 real data와 다른 점은 texture, background, limited pose variance가 있습니다. 다른 연구에서는 이러한 domain gap을 해결하기 위해 syn data에 학습된 모델을 이용하여 pose를 생성하고, Consistency check 및 confidence-based filtering을 수행했는데도 정확도가 굉장히 낮았다고 합니다. 이는 생각해보면 real과 syn사이에 격차가 존재한다는 것을 알 수 있고, syn dataset 만으로 학습하게 되면 real 결과에서 좋지 않을 수 있다는 것을 의미하기도 합니다.

Multi-scale Domain Adaptation Module (MDAM)

MDAM은 pose estimation module, domain classifier로 구성됩니다. 먼저 syn dataset를 이용하여 pose estimation module을 학습하여 real dataset에 대한 label을 생성합니다. 그 다음 real dataset에 대해 생성된 synthetic label과 pseudo label을 MDAM으로 학습합니다. 하지만 pseudo label의 noisy 때문에 정확도가 제한되는 문제점이 있습니다. 따라서 이러한 문제를 해결하기 위해 pseudo label updating strategy을 사용합니다. 이는 self-distillation module과 mean-teacher로 이루어져 있습니다. memorization effect에 따라 updating strategy을 설정하고, 초기 단계에서 noisy가 없는 샘플에서 학습한 후 noisy가 많은 샘플을 기억하여 더 학습시키게끔 합니다. 이렇게 점진적으로 학습하게 되면 noisy가 점차 줄게 됩니다. 그림 1에서 확인 할 수 있습니다.

MDAD 방법은 heatmap 기반 방식으로 MSE loss를 사용하여 pose를 추출하게 되고, syn data인지 real data인지 판별하게 되는 domain classification은 cross-entropy loss를 사용하여 분류하게 됩니다. inner loop에서는 self-distillation module인 refinement block(RB)와 self-feedback loop로 이루어집니다. outer loop는 student-teacher 구조인데, multi-scale domain adaptation module과 self-distillation module로 이루어집니다.

Experiments

강아지와 고양이 같은 동물에대한 성능은 좋지 않다고 합니다. 강아지와 고양이의 모양과 크기는 말, 호랑이와는 다르며, 크기도 작고, 항상 앉거나 엎드린 자세를 취하고 있기 때문에 성능이 좋지 않다고 합니다.

참고

Relative works에 소개된 Co-teaching 방식

Noisy label이 있는 데이터 환경에서 CNN Classifier를 잘 학습하는 방법
Noisy label 데이터를 학습에서 배제한다는 매우 직관적인 방법으로 문제를 해결
방법
- 미니배치에서 상대적으로 loss 가 큰 R(T)비율만큼의 데이터를 제외하고, loss가 적은 데이터(small-loss instances)를 이용하여 가중치를 학습. (R(T)는 epoch에 따라 점차적으로 증가)
- 초기 값이 다른 두 모델이 서로 small-loss instances를 교환하며 학습(Cross-update)
이 개념을 이해하기 위해 등장한 개념이 memorization effect
- memorization effect
- 딥러닝 학습 시 모델은 전체 데이터중 쉬운 데이터 패턴부터 학습한다는 특징이 있음, 쉬운 패턴 먼저 학습 하고 이후에 세부 패턴들을 배우면서 데이터를 하나하나씩 외우기 시작함
- 하지만 이러한 방식은 outlier와 noise에 취약함 (loss가 잘 감소하지 않음, 특정 데이터에 오버피팅 되는 경향)
따라서 co-teaching 방식은 이러한 단점을 보완하기 위해 2개의 모델을 동시에 cross-update 하는 방식으로 학습
서로 상호보완적으로 학습하며, 서로 loss가 작은 인스턴스 정보를 교환하여 학습하기 때문에 서로 특정 데이터에 overfit 되지 않음

eehoeskrap / PaperReview