long8v / PTIR

Paper Today I Read
19 stars 0 forks source link

[51] Structured Sparse R-CNN for Direct Scene Graph Generation #57

Open long8v opened 1 year ago

long8v commented 1 year ago

image

paper, code

TL;DR

Details

Sparse R-CNN

https://github.com/long8v/PTIR/issues/58

Architecture

image

Triplet query

Triplet detection head

image

image

$X_s'$, $X_o'$를 query, key로 사용. value는 두 개 각각의 object vector 자체가 될듯 여기서 강화된 object feature는 Dynamic Conv에 사용됨.

image

Relation recognition

image

relation도 bbox의 가장 큰 영역으로 해서 DyConv+ 위의 E2R fusion해서 뽑음. image

Learning with Siamese Sparse R-CNN

ground-truth triplet만으로 학습하기에는 object들이 너무 sparse 함. structured sparse r-cnn과 파라미터를 공유하는 Siamese Sparse R-CNN을 object detector로 사용하여 virtual object pairs를 pseudo-label로 써서 knowledge distilation으로 사용.

image

two-stage triplet label assignment

1) ground-truth triplet과 예측된 triplet을 매칭함 image

2) gt에 매칭되지 않은 triplet에 대해서 siamese sparse R-CNN이 내 뱉은 object pairs와 매칭을 시킴 남은 triplet에 대해서 box는 그대로 두고 object classification score만 label로 바꿈. siamese sparse R-CNN이 내뱉은 pseudo-label과 나머지 triplet의 object에 대해 아래 matching cost로 hungarian을 부과 image

그리고 relation에 대해서는 background로 패딩한 뒤 loss 계산 image

Imbalance Class Distribution

Results

image