dhkim0225 / 1day_1paper

read 1 paper everyday (only weekday)
54 stars 1 forks source link

[62] Detecting Twenty-thousand Classes using Image-level Supervision (Detic) #90

Open dhkim0225 opened 2 years ago

dhkim0225 commented 2 years ago

paper code

Image-level supervision 이용한 20000 개 class detection?!?!

LVIS dataset 에서 놀라운 성능향상 보임 (무려 41.7 mAP) image

INTRO

image 기존 open-set detection 을 위한 학습들은, model 의 box proposal 에다가 label 을 붙여주는 식이었다. (WLSL, YOLO9000) 문제는 이게 vocab 이 크면 클 수록 동작하기 어려운 방식이라는 것. 제안하는 Detric 은 max-size proposal 에 라벨을 붙여주는 식으로 학습하는데, 이게 꽤 잘 된다.

LVIS 는 1000+ class detection 이 필요한 dataset 인데, 여기서 굉장한 성능을 보여준다.

Approach

Region Proposal 쪽은 LVIS 데이터로 먼저 학습시킨다. 학습된 RPN 은 generalizable 하더라. 저자들은 주로 classification 을 개선하는데 집중한다.

weakly supervision 방식은 INTRO 에서 말한 것과 같다. 학습된 RPN 에서 제일 큰 proposal 에다가 image-level label을 붙여주는 방식이다. caption label도 당연히 활용 가능하다 (명사 가져다 쓰면 된다) label weight (GT) 는 CLIP의 text encoder를 통과시켜서 가져온다. image

Results

image

with Image Labels

image

open-vocab detector 비교 (Open-vocabulary COCO 수치)

image

21K detection

image

Ablation

제일 큰 proposal 전, 아이디어 2개도 먼저 실험해 봤는데 max-size proposal 이 제일 성능이 좋았다.