Open long8v opened 1 year ago
paper
3단계로 나눔 1) Object Region Proposal : image가 주어졌을 때 node(=vertex, V)들 뽑기 => Faster RCNN 2) Relationship Proposal : image와 node가 주어졌을 때 모든 경우의 수 n*(n-1)에서 있을만한 relation pruning 3) Graph Labeling : image, node, edge가 주어졌을 때 relation과 object 찾기
object의 class logit을 사용하여 "relatedness"를 측정. 일종의 soft한 prior를 주는 형식(가령, person-ride-chicken은 될 수 없으니?)
person-ride-chicken
구현은 cat한 뒤에 MLP 쌓음. score를 매겨서 sorting을 한 뒤에 K개의 pair를 뽑음. Faster RCNN이기 때문에 많이 나올거라서 pair에 대한 NMS를 해서 top m개의 pair만 남김
Vanilla GCN은 아래와 같음
이를 $Z\in \mathbb{R}^{d\times T_n}$라는 matrix로 표현하면
우리는 여기서 $\alpha_{ij}$를 주어지는게 아니라 학습하려고 함
2 layer MLP + softmax로 $\alpha_{ij}$가 학습
N개의 Object region들과 m개의 relationship을 각각 node로 만들고 위의 네트워크에서 나온걸로 edge들을 연결해줌. 추가적으로 object간에는 direct edge들을 추가해줌.
object node에 대한 표현은 아래와 같음
relation node에 대한 표현은 아래와 같음.
paper
TL;DR
Details
Architecture
3단계로 나눔 1) Object Region Proposal : image가 주어졌을 때 node(=vertex, V)들 뽑기 => Faster RCNN 2) Relationship Proposal : image와 node가 주어졌을 때 모든 경우의 수 n*(n-1)에서 있을만한 relation pruning 3) Graph Labeling : image, node, edge가 주어졌을 때 relation과 object 찾기
Relation Proposal Network
object의 class logit을 사용하여 "relatedness"를 측정. 일종의 soft한 prior를 주는 형식(가령,
person-ride-chicken
은 될 수 없으니?)구현은 cat한 뒤에 MLP 쌓음. score를 매겨서 sorting을 한 뒤에 K개의 pair를 뽑음. Faster RCNN이기 때문에 많이 나올거라서 pair에 대한 NMS를 해서 top m개의 pair만 남김
Attentional GCN
Vanilla GCN은 아래와 같음
이를 $Z\in \mathbb{R}^{d\times T_n}$라는 matrix로 표현하면
우리는 여기서 $\alpha_{ij}$를 주어지는게 아니라 학습하려고 함
2 layer MLP + softmax로 $\alpha_{ij}$가 학습
aGCN for SGG
N개의 Object region들과 m개의 relationship을 각각 node로 만들고 위의 네트워크에서 나온걸로 edge들을 연결해줌. 추가적으로 object간에는 direct edge들을 추가해줌.
object node에 대한 표현은 아래와 같음
relation node에 대한 표현은 아래와 같음.
Result
Ablation for modules