long8v / PTIR

Paper Today I Read
19 stars 0 forks source link

[132] Hyperbolic Image-Text Representations #144

Open long8v opened 9 months ago

long8v commented 9 months ago
image

paper, code

TL;DR

Details

Motivation

image

Arch

image

Lifting embeddings onto the hyperboloid

CLIP encoder를 통과하면 각각의 이미지, 텍스트 벡터는 n차원의 벡터로 나오고 여기에 origin 0벡터를 추가하는 transformation을 적용 $v =[v_{enc}, 0]\in\mathbb{R}^{n+1}$ 이 origin O의 tangent space에 들어가게 되고, 이러면 0과 내적하면 0이되는 조건을 충족하게 된다. Lorents 모델의 space 공간에 대해서만 계산하게 되면 된다. 그럴 경우에 x 벡터에 대한 exponential map(tangent space -> manifold로 투영하는 map vectors)은 아래와 같이 정리된다.

image image

즉 CLIP encoder에서 나온 임베딩에다가 저 transformation을 적용하면 hyperbolic space로 가게 된다.

Lorents inner product는 아래와 같으므로 내적을 통해 similiarity를 구하고 contrastive loss를 추가하면 된다

image

Entailment loss

image

아래와 같은 loss를 contrastive loss에 추가해줌 수학적 이해는 잘 모르겠고 이 loss를 추가하는 직관은 {Text-image}페어가 있을 때 text가 image를 entail 해야 함.

image image

Results

image image

Ablations

image image

Image Traverse

image