long8v / PTIR

Paper Today I Read
19 stars 0 forks source link

[126] ViLT: Vision-and-Language Transformer Without Convolution or Region Supervision #138

Open long8v opened 1 year ago

long8v commented 1 year ago
image

paper, code

TL;DR

Details

Motivation

image image

Word Patch Alignment

image

여기서 무슨 일이 일어날까? 이전 UNITER: UNiversal Image-TExt Representation Learning에서 거의 비슷. region 대신 patch로 했다는게 다른 점.

image

직접적인 word-region에 대한 supervision을 주는건 아니고 Optimal Transport라는 알고리즘으로 image embedding과 word embedding 사이의 transport를 최소화하는 cost를 구해서 이걸 loss로 추가해서 alignment가 더 잘되도록

image

여기서 이 최소 거리를 구하는 방법이 어려워서 IPOT이라는 wasserstein distance를 approximate하는 복잡한 방법으로 근사. 이 부분 구현은 여기

image

이런 결과 ->WPA 때문인가?