[64] Open-Vocabulary DETR with Conditional Matching

TL;DR

task : open vocab object detection
problem : 기존의 object detection 모델들은 closed set으로 예측하여 확장성이 어렵다. 이를 해결하기 위한 open vocab object detection 들은 PRN을 먼저 하고 class 예측을 해서 새로운 class에 대한 bbox 예측이 어렵다.
idea : DETR을 사용하여 end2end로 object detection을 해보자! class로 사용하고 있던걸 CLIP을 사용하여 텍스트 임베딩으로 보내자.
architecture : image와 text(=class)를 CLIP을 통해 임베딩을 한 뒤에 object queries와 합해주어 conditional query를 만든다. 한 이미지에 여러 object가 나올 수 있으니 N개로 복사해준다. 이후 bipartite matching은 [obj], [no obj]가 아니라 input image와 conditional query가 주어졌을 때 [matched], [not matched]로 하게 된다.
objective : bce(match / not match) + bbox loss(gIoU, L1) + embedding reconstruction loss(L1)
baseline : OVR-CNN, ViLD
data : COCO, ELVIS
result : OV OD 모델 대비 그냥 AP, novel 클래스에 대한 AP 둘다 SOTA
contribution : end2end open vocab object detection
limitation or 이해 안되는 부분 : 모든 base class / novel class에 대한 임베딩을 이미 가지고 있고(논문에서 말하는 R개), 그거랑 다 매칭을 해서 예측을 하는게 맞나? 헷갈림. 그럼 학습할 때는 in batch negative 이런 식으로 하려나?