Image-level supervision 이용한 20000 개 class detection?!?!
LVIS dataset 에서 놀라운 성능향상 보임 (무려 41.7 mAP)
INTRO
기존 open-set detection 을 위한 학습들은, model 의 box proposal 에다가 label 을 붙여주는 식이었다. (WLSL, YOLO9000)
문제는 이게 vocab 이 크면 클 수록 동작하기 어려운 방식이라는 것.
제안하는 Detric 은 max-size proposal 에 라벨을 붙여주는 식으로 학습하는데, 이게 꽤 잘 된다.
LVIS 는 1000+ class detection 이 필요한 dataset 인데, 여기서 굉장한 성능을 보여준다.
Approach
Region Proposal 쪽은 LVIS 데이터로 먼저 학습시킨다.
학습된 RPN 은 generalizable 하더라.
저자들은 주로 classification 을 개선하는데 집중한다.
weakly supervision 방식은 INTRO 에서 말한 것과 같다.
학습된 RPN 에서 제일 큰 proposal 에다가 image-level label을 붙여주는 방식이다.
caption label도 당연히 활용 가능하다 (명사 가져다 쓰면 된다)
label weight (GT) 는 CLIP의 text encoder를 통과시켜서 가져온다.
Results
with Image Labels
open-vocab detector 비교 (Open-vocabulary COCO 수치)
21K detection
Ablation
제일 큰 proposal 전, 아이디어 2개도 먼저 실험해 봤는데 max-size proposal 이 제일 성능이 좋았다.
paper code
Image-level supervision 이용한 20000 개 class detection?!?!
LVIS dataset 에서 놀라운 성능향상 보임 (무려 41.7 mAP)
INTRO
기존 open-set detection 을 위한 학습들은, model 의 box proposal 에다가 label 을 붙여주는 식이었다. (WLSL, YOLO9000) 문제는 이게 vocab 이 크면 클 수록 동작하기 어려운 방식이라는 것. 제안하는 Detric 은 max-size proposal 에 라벨을 붙여주는 식으로 학습하는데, 이게 꽤 잘 된다.
LVIS 는 1000+ class detection 이 필요한 dataset 인데, 여기서 굉장한 성능을 보여준다.
Approach
Region Proposal 쪽은 LVIS 데이터로 먼저 학습시킨다. 학습된 RPN 은 generalizable 하더라. 저자들은 주로 classification 을 개선하는데 집중한다.
weakly supervision 방식은 INTRO 에서 말한 것과 같다. 학습된 RPN 에서 제일 큰 proposal 에다가 image-level label을 붙여주는 방식이다. caption label도 당연히 활용 가능하다 (명사 가져다 쓰면 된다) label weight (GT) 는 CLIP의 text encoder를 통과시켜서 가져온다.
Results
with Image Labels
open-vocab detector 비교 (Open-vocabulary COCO 수치)
21K detection
Ablation
제일 큰 proposal 전, 아이디어 2개도 먼저 실험해 봤는데 max-size proposal 이 제일 성능이 좋았다.