직접적인 word-region에 대한 supervision을 주는건 아니고 Optimal Transport라는 알고리즘으로 image embedding과 word embedding 사이의 transport를 최소화하는 cost를 구해서 이걸 loss로 추가해서 alignment가 더 잘되도록
c: distance. cosine 유사도 사용.
$T\in \mathbb{R}^{T\times K}$ : transport plan. learned to optimize alignment between $w$ and $v$. 학습되는 건가보넹..
여기서 이 최소 거리를 구하는 방법이 어려워서 IPOT이라는 wasserstein distance를 approximate하는 복잡한 방법으로 근사.
이 부분 구현은 여기
paper, code
TL;DR
Details
Motivation
Word Patch Alignment
여기서 무슨 일이 일어날까? 이전 UNITER: UNiversal Image-TExt Representation Learning에서 거의 비슷. region 대신 patch로 했다는게 다른 점.
직접적인 word-region에 대한 supervision을 주는건 아니고 Optimal Transport라는 알고리즘으로 image embedding과 word embedding 사이의 transport를 최소화하는 cost를 구해서 이걸 loss로 추가해서 alignment가 더 잘되도록
여기서 이 최소 거리를 구하는 방법이 어려워서 IPOT이라는 wasserstein distance를 approximate하는 복잡한 방법으로 근사. 이 부분 구현은 여기
이런 결과 ->WPA 때문인가?