[37] Relationformer: A Unified Framework for Image-to-Graph Generation

paper, code

TL;DR

task : image-to-graph generation
problem : two-stage image-to-graph generation 모델도 복잡하고 복잡도도 O(n**2).
idea : entity들의 pair-wise interaction(=>O(n**2)) 대신 relation token과 entity의 interaction을 사용하도록 하자.
architecture : CNN backbone + deformable DETR(Encoder, Decoder with N + 1(=relation) tokens) + Object Detection Head and Relation Prediction Head.
objective : bbox loss(gIOU + regression loss) + cross-entropy for entity class + hungarian으로 뽑힌 object에 대한 relation에 대한 cross-entropy loss.
baseline : two-stage models, FCSGG, #40
data : Toulouse, 20 US Cities, DeepVesselNet, and Visual Genome.
result : SGG) extra feature(단어의 glove vector, knowledge graph)를 안쓴 것들 중에서는 SOTA
contribution : simple architecture with inductive bias!

Details

Parameter

log softmax, frequency-bias 넣어줬음.

Relation Prediction Head

pair-wise [obj] token, shared [rln]-token -> $MLP{rln}({o^i, r, o^j}){i!=j}$

object detection에서 뽑은 k개의 object에 대해 k(k-1)개의 pair에 대해 [rln] 토큰의 output을 3-layer FCN 돌린거랑 concat해서 relation 뽑음. -> 여전히 $O(n^2)$임!

MLP -> 3 layer FCN + LN SGG 같은 경우엔 order가 subject, object를 결정함

`[rln]` 토큰들에 대한 저자들의 주장

object에 비해 higher order topological를 가지고 있어서 expressive capacity가 추가적으로 필요하다
[obj] 토큰들이 relation까지 뽑아야하는 burden을 줄인다
[obj] 토큰들이 [rln]토큰들과 attention이 걸리면서 global semantic reasoning을 한다

SGTR과 비교했을 때,

entity와 subject / object 가 구분되지 않음 -> entity에 대한 loss는 한번만!
SGTR에서는 image feature를 계속 명시적으로 모델에게 넣어줬는데 여기는 그러지 않음.

Loss

Stochastic Relation Loss

hungarian matcher에 의해 gt object와 매칭된 object들에 대해서 pair-wise relation에 대해 cross entropy loss를 구했다. relation이 있으면 valid, 없으면 background라는 relation을 두었는데 background가 많으므로 1:3 비율로 맞췄다.

Ablation

[rln] 토큰 있고 없고에 대한 ablation

성능 차이가 많이 난다

Results

SGG를 읽으면서 느낀점들
- object detector는 다들 대동소이(중요하지 않고 어쩌면 fix해놓는게 셋팅인듯)
- 어떻게 그래프를 만들까?의 방법이 다른 듯.
- 여기선 token 순서로 그래프 만듦
- SGTR은 entity, relation을 node로 만들고 graph 만듦.
- RelTR은 subject / object가 주어졌을 때 relation 예측해서 그래프 만듦.
- object n개 중에 relation 후보가 O(n**2)되는게 문제임 -> 이걸 tackle할 때 inductive bias가 들어감.
- encoder에서 나온 output을 어떻게 decoder에 건네주는지가 좀 다른듯?
- relation을 구할 때, subject object에 대한 feature를 어떻게 건네주는지 다름
- 이 논문은 그냥 명시적으로 벡터 concat해서 head 붙임.
- RelTR에서는 subject object 뽑을 때 활성화된 feature map을 concat해서 Conv로 뽑음
- SGTR에서는 subject object query를 relation query에 concat 시키고 fusion도 많이 해서 뽑음.
- background를 처리 하기 위한 휴리스틱이 좀 들어가는듯?

long8v / PTIR

[37] Relationformer: A Unified Framework for Image-to-Graph Generation #42

TL;DR

Details

Parameter

Relation Prediction Head

`[rln]` 토큰들에 대한 저자들의 주장

SGTR과 비교했을 때,

Loss

Stochastic Relation Loss

Ablation

[rln] 토큰 있고 없고에 대한 ablation

Results

long8v / PTIR

[37] Relationformer: A Unified Framework for Image-to-Graph Generation #42

TL;DR

Details

Parameter

Relation Prediction Head

[rln] 토큰들에 대한 저자들의 주장

SGTR과 비교했을 때,

Loss

Stochastic Relation Loss

Ablation

[rln] 토큰 있고 없고에 대한 ablation

Results

`[rln]` 토큰들에 대한 저자들의 주장