long8v / PTIR

Paper Today I Read
19 stars 0 forks source link

[37] Relationformer: A Unified Framework for Image-to-Graph Generation #42

Open long8v opened 2 years ago

long8v commented 2 years ago

image

paper, code

TL;DR

Details

Parameter

image image

log softmax, frequency-bias 넣어줬음.

image

Relation Prediction Head

pair-wise [obj] token, shared [rln]-token -> $MLP{rln}({o^i, r, o^j}){i!=j}$

MLP -> 3 layer FCN + LN SGG 같은 경우엔 order가 subject, object를 결정함

[rln] 토큰들에 대한 저자들의 주장

SGTR과 비교했을 때,

Loss

Stochastic Relation Loss

image

hungarian matcher에 의해 gt object와 매칭된 object들에 대해서 pair-wise relation에 대해 cross entropy loss를 구했다. relation이 있으면 valid, 없으면 background라는 relation을 두었는데 background가 많으므로 1:3 비율로 맞췄다.

Ablation

[rln] 토큰 있고 없고에 대한 ablation

image

성능 차이가 많이 난다

Results

image

long8v commented 2 years ago

image

image

image