long8v / PTIR

Paper Today I Read
19 stars 0 forks source link

[86] Graph R-CNN for Scene Graph Generation #95

Open long8v opened 1 year ago

long8v commented 1 year ago
image

paper

TL;DR

Details

Architecture

image image image

3단계로 나눔 1) Object Region Proposal : image가 주어졌을 때 node(=vertex, V)들 뽑기 => Faster RCNN 2) Relationship Proposal : image와 node가 주어졌을 때 모든 경우의 수 n*(n-1)에서 있을만한 relation pruning 3) Graph Labeling : image, node, edge가 주어졌을 때 relation과 object 찾기

Relation Proposal Network

object의 class logit을 사용하여 "relatedness"를 측정. 일종의 soft한 prior를 주는 형식(가령, person-ride-chicken은 될 수 없으니?)

image

구현은 cat한 뒤에 MLP 쌓음. score를 매겨서 sorting을 한 뒤에 K개의 pair를 뽑음. Faster RCNN이기 때문에 많이 나올거라서 pair에 대한 NMS를 해서 top m개의 pair만 남김

image

Attentional GCN

Vanilla GCN은 아래와 같음

image

이를 $Z\in \mathbb{R}^{d\times T_n}$라는 matrix로 표현하면

image

우리는 여기서 $\alpha_{ij}$를 주어지는게 아니라 학습하려고 함

image

2 layer MLP + softmax로 $\alpha_{ij}$가 학습

aGCN for SGG

N개의 Object region들과 m개의 relationship을 각각 node로 만들고 위의 네트워크에서 나온걸로 edge들을 연결해줌. 추가적으로 object간에는 direct edge들을 추가해줌.

object node에 대한 표현은 아래와 같음

image

relation node에 대한 표현은 아래와 같음.

image

Result

image image

Ablation for modules

image

image