task : segmentation 기반 SGG 태스크인 panoptic scene graph generation 제안
problem : SGG를 위한 데이터셋들이 많이 제안되었지만 bbox 기반의 SGG는 의미없이 중복되는 정보(e.g. hair)가 많고, background는 빼고 있어서 문제가 있다.
idea : 데이터셋 제안 / two-stage, one-stage baseline 제안
architecture : (one-stage baseline) 1) PGSTR: DETR에 triplet query 넣고 바로 뽑기 2) PGSFormer: relation query와 object 쿼리를 만든 뒤, cosine 유사도로 relation과 가장 관련 높은 object들을 뽑은 뒤에 이를 subject로 두고 object는 두 층의 FFN추가해서 triplet을 구성.
objective : SGG triplet loss. 근데 bbox loss 대신에 다른거 줬겠지?
paper, dataset, code
TL;DR
Details
SGG datasets
PGSTR
PGSFormer