[86] Graph R-CNN for Scene Graph Generation

paper

TL;DR

I read this because.. : sgg 초기 논문
task : Scene Graph Generation
problem : object 뽑고 quadratic한 relation을 잘 다뤄보자. 강화된 그래프 표현을 만들어보자.
idea : object 간의 relation을 pruning하는 모듈을 중간에 넣자. attentional GCN을 적용하자.
architecture : 1) Faster RCNN으로 Object 뽑고 2) object cls logit 값들 concat해서 relation pruning 3) attentional GCN을 적용해서 object, relation 노드의 표현을 강화 -> 각 subject, object, relation 표현에 classifier 붙여서 예측한듯?
objective : 1) bbox loss + cls loss 2) bce for relationship score 3) ce for object cls and predicate cls
baseline : IMP, MSDN, NeuralMotif
data : Visual Genome
evaluation : PredCls, PhrCls, SGGen, SGGen+(proposed in this paper)
result : SOTA
contribution : 아마 GCN을 적용한 최초의 논문이 아닐런지?
limitation / things I cannot understand : SGG은 정말 GCN을 쓸 정도로 graph 적인 특성을 가지고 있는가?

Details

Architecture

3단계로 나눔 1) Object Region Proposal : image가 주어졌을 때 node(=vertex, V)들 뽑기 => Faster RCNN 2) Relationship Proposal : image와 node가 주어졌을 때 모든 경우의 수 n*(n-1)에서 있을만한 relation pruning 3) Graph Labeling : image, node, edge가 주어졌을 때 relation과 object 찾기