I read this because.. : NeurIPS, open-vocab object detection
task : open-vocab object detection
problem : CLIP은 이미지 레벨의 표현이어서 detection task를 잘 하도록 align이 되어있지 않다.
idea : 1) class agnostic한 Object detection 모델로 image classification dataset으로 pseudo-label을 만들어 vocab을 확장하자 2) region feature와 CLIP이 가까워 지도록 KD를 하자 3) 1, 2가 반대 방향으로 움직이니 둘의 weight를 tie 시키자
architecture : Faster RCNN에서 Region proposal한거에다가 classifier 대신 image feature를 CLIP image encoder에 넣고 a photo of {category}의 CLIP text embedding과 가장 가까운 것으로 분류하는 방식
objective : 1) point-wise embedding matching loss 2) inter-embedding relationship matching loss 3) image-level supervision loss
paper
TL;DR
a photo of {category}
의 CLIP text embedding과 가장 가까운 것으로 분류하는 방식Details
Preliminaries
Detection Pipeline
Loss
Point-wise embedding matching loss![image](https://user-images.githubusercontent.com/46675408/212805517-b4f1723f-fa9e-4001-b896-b557d4282525.png)
Inter-embedding relationship matching loss![image](https://user-images.githubusercontent.com/46675408/212805553-b266b8ab-7fe2-412e-b0cb-a5978d863727.png)
Image-level Supervision with Pseudo Box Labels ...
Weight Transfer Function![image](https://user-images.githubusercontent.com/46675408/212805629-0afafaba-60a4-4bdc-a8f9-44bfd2b45f26.png)
Result