Open long8v opened 1 year ago
paper
Faster RCNN으로 object들 뽑고 거기서 visual feature $v_i$, geometric feature $g_i$, class word embedding feature $w_i$를 가지고 entity 표현 $e_i$를 만듦
relation representation $r_{i->j}$는 entity 표현 $e_i$, $e_j$를 결함해서 만듦. $u_i,j$는 두 entity의 union region의 convolutional feature.
1) Relationship Confidence Estimation Module 각 entity $e_i$, $e_j$의 class probability를 가지고 confidence를 구함.
(???) 이부분 이해가 안됨 어느 점에서 global인지?
2) Confidence-aware message
entity-to-predicate
predicate-to-entity
$\alpha$, $\beta$는 theshold parameter.
each entity node $e_i$ by aggregating neighbors' messages
1) image-level over-sampling repeat factor를 구해서 안나온 class에 대한 이미지가 들어있으면 그 이미지 더 많이 뽑은듯. $r^c=max(1, \sqrt(t/f^c))$
2) instance-level under-sampling 각 이미지의 다른 predicate class에 따라 instance를 없앤듯. -> Iterative SGG는 one-stage인데 이거 어떻게 했지? gt label에서 그냥 지운건가
paper
TL;DR
Details
Architecture
Proposal generation network
Faster RCNN으로 object들 뽑고 거기서 visual feature $v_i$, geometric feature $g_i$, class word embedding feature $w_i$를 가지고 entity 표현 $e_i$를 만듦
relation representation $r_{i->j}$는 entity 표현 $e_i$, $e_j$를 결함해서 만듦. $u_i,j$는 두 entity의 union region의 convolutional feature.
Bipartite Graph Neural Network
1) Relationship Confidence Estimation Module 각 entity $e_i$, $e_j$의 class probability를 가지고 confidence를 구함.
(???) 이부분 이해가 안됨 어느 점에서 global인지?
2) Confidence-aware message
entity-to-predicate
predicate-to-entity
$\alpha$, $\beta$는 theshold parameter.
each entity node $e_i$ by aggregating neighbors' messages
Scene Graph Prediction
Bi-level Resampling
1) image-level over-sampling repeat factor를 구해서 안나온 class에 대한 이미지가 들어있으면 그 이미지 더 많이 뽑은듯. $r^c=max(1, \sqrt(t/f^c))$
2) instance-level under-sampling 각 이미지의 다른 predicate class에 따라 instance를 없앤듯. -> Iterative SGG는 one-stage인데 이거 어떻게 했지? gt label에서 그냥 지운건가
Result