issues
search
long8v
/
PTIR
Paper Today I Read
19
stars
0
forks
source link
[73] Simple Open-Vocabulary Object Detection with Vision Transformers
#81
Open
long8v
opened
1 year ago
long8v
commented
1 year ago
paper
TL;DR
task :
open vocab object detection
problem :
novel한 class에 대한 od annotation이 없음
idea :
CLIP 임베딩을 사용하자
architecture :
CLIP을 사용하여 class를 text embedding으로 만들어주고 ViT의 토큰들을 query로 삼아서 bipartite matching을 한 뒤 DETR loss를 주어서 학습.
objective :
DETR loss but sigmoid focal loss for class label
baseline :
ViLD, GLIP
data :
OI, VG, Object 365 -> LVIS(long-tail)
result :
GLIP 보다 좋아보임
contribution :
아주 간단한 아키텍쳐로 Open vocab OD를 풀었다
limitation or 이해 안되는 부분 :
GLIP이 Open vocab용으로 만들어진게 아닐듯?
Details
Architecture
training details
처음에 각 이미지 토큰에서 한 bbox Prediction의 x, y가 해당 이미지 토큰 좌표 안에 있도록 초기화하니 성능이 더 빠르게 수렴
다양한 augmentation / cleaning 적용
zero-shot performance
one-shot image-conditioned result
one-/few-shot performance
paper
TL;DR
Details
Architecture
training details
zero-shot performance
one-shot image-conditioned result
one-/few-shot performance