object에 비해 higher order topological를 가지고 있어서 expressive capacity가 추가적으로 필요하다
[obj] 토큰들이 relation까지 뽑아야하는 burden을 줄인다
[obj] 토큰들이 [rln]토큰들과 attention이 걸리면서 global semantic reasoning을 한다
SGTR과 비교했을 때,
entity와 subject / object 가 구분되지 않음 -> entity에 대한 loss는 한번만!
SGTR에서는 image feature를 계속 명시적으로 모델에게 넣어줬는데 여기는 그러지 않음.
Loss
Stochastic Relation Loss
hungarian matcher에 의해 gt object와 매칭된 object들에 대해서 pair-wise relation에 대해 cross entropy loss를 구했다.
relation이 있으면 valid, 없으면 background라는 relation을 두었는데 background가 많으므로 1:3 비율로 맞췄다.
paper, code
TL;DR
Details
Parameter
log softmax, frequency-bias 넣어줬음.
Relation Prediction Head
pair-wise [obj] token, shared [rln]-token -> $MLP{rln}({o^i, r, o^j}){i!=j}$
MLP -> 3 layer FCN + LN SGG 같은 경우엔 order가 subject, object를 결정함
[rln]
토큰들에 대한 저자들의 주장SGTR과 비교했을 때,
Loss
Stochastic Relation Loss
hungarian matcher에 의해 gt object와 매칭된 object들에 대해서 pair-wise relation에 대해 cross entropy loss를 구했다. relation이 있으면 valid, 없으면 background라는 relation을 두었는데 background가 많으므로 1:3 비율로 맞췄다.
Ablation
[rln] 토큰 있고 없고에 대한 ablation
성능 차이가 많이 난다
Results