problem : 선행 연구들 중 하나. 이 논문 전에 neural motfis, #104, SGG with iterative message passing 정도 있었던 듯
idea : 각 오브젝트들을 강화된 embedding으로 만들어서 예측하자!
architecture : Faster-RCNN + object를 표현하는 임베딩을 만들고 이걸로 $O(n^2)$개 pair에 대해 relation cls 분류. global feature + od가 뽑은 cls에 대한 임베딩 + RoI visual feature + relative geometric 정보들이 들어감.
objective : 1) 이미지 레벨에서 object class를 multi-label loss 2) 각 object에 대해 cls loss 3) relation classification loss
baseline : neural motfis, #104, SGG with iterative message passing
data : Visual Genome
evaluation : SGdet, SGcls, PredCls
result : sota
contribution : simple !
Details
Architecture
Global Context Encoding Module
feature에 대해 AvgPool 한 뒤에 FC 붙여서 multi-label classification
Relation Embedding Module
Obejct feature $O_i$를 만드는데 OD가 예측한 cls $l_i$의 임베딩과 RoI pooling으로 뽑은 feature, image 전체의 context feature $c$를 해서 임베딩을 만들고, FCN을 쌓아서 cls를 예측한다
paper
TL;DR
Details
Architecture
Global Context Encoding Module feature에 대해 AvgPool 한 뒤에 FC 붙여서 multi-label classification
Relation Embedding Module Obejct feature $O_i$를 만드는데 OD가 예측한 cls $l_i$의 임베딩과 RoI pooling으로 뽑은 feature, image 전체의 context feature $c$를 해서 임베딩을 만들고, FCN을 쌓아서 cls를 예측한다
relation을 구할 때 geometric feature도 넣어준다![image](https://user-images.githubusercontent.com/46675408/213085699-659b7f28-23b3-47fd-8936-0528bff1bcb6.png)
Loss
Result