sy00n / DL_paper_review

issues에 논문 요약
0 stars 0 forks source link

[10] Continual Detection Transformer for Incremental Object Detection #12

Open sy00n opened 1 year ago

sy00n commented 1 year ago

Abstract

Incremental Object Detection(IOD)에는 catastrophic forgetting 문제가 있다. 문제를 단순히 knowledge distillation이나 exemplar replay처럼 접근해서 바로 Deformable DETR이나 UP-DETR에 적용하면 성능이 잘 안나온다. 본 논문에서는 knowledge distillation이나 exemplar replay를 잘 적용할 수 있는 새로운 방법론인 Continual DEtection TRansformer(CL_DETR)을 제안한다. 핵심은 이하 2가지이다.

  1. Detector Knowledge Distillation(DKD) loss
  2. Calibration Strategy를 통한 exemplar replay 개선

Introduction

(KD(knowledge Distillation은 아니까 설명 패스) ER(Exempler replay) 방법론은 과거 학습 데이터에서(예시) 일부를 기억하고 다음단계에서 replay하여 old object categories를 기억하는 방식이다. image fig1을 보면 KD(knowledge Distillation), ER(Exempler replay) 방법을 Deformable DETR에 바로 적용했을 시(그림에서 남색) standard non-incremental setting(그림에서 초록색) 에비해 성능이 훨씬 떨어지는 것을 확인할 수 있다.

위와 같은 performence drop의 원인을 다음과 같이 분석함.

  1. transformer-based detectors work by testing a large number of object hypotheses in parallel.
    • 일반적으로 이미지에 해당하는 objects 수보다 훨씬 많고 대부분은 negative기 때문에 KD Loss가 unbalance된다.
    • 그리고 training image에는 old/new object categories가 둘다 존재할 수 있기 때문에 KD loss, regular training objective loss로 하급하게 되면 contradictory evidence문제가 발생할 수 있다.
  2. ER 방법론은 각 카테고리에 대해 동일한 수의 exemplars로 샘플링하는데 IOD에서는 object category distribution이 skewed 되어있기 때문에(마치 long tail 분포에 가까움) 적절하지 않다. 즉, Balanced sampling을 하게 되면 training , testing data statistics 의 mismatch 문제가 생긴다.

Method

image Fig2를 보면 standard방식과 본 논문에서의 방식을 비교하고 있다. 먼저 old modeld에서 most confident foregroud prediction을 select해서 이를 pseudo label로 쓴다. 의도적으로 background prediction을 무시하는 이유는 백그라운드가 훨씬 많아서 imbalanced되기도 하고 new class label이랑 contradict될 수도 있기 때문이다. 그다음, pseudo label을 ground-truth labels랑 merge시키고 bipartite matching을 통해 joint labels로 학습한다.