long8v / PTIR

Paper Today I Read
19 stars 0 forks source link

[31] GIT: A Generative Image-to-text Transformer for Vision and Language #36

Open long8v opened 2 years ago

long8v commented 2 years ago

image paper

TL;DR

Details

Architecture

image

각각의 이미지-텍스트 pair에서 이미지가 주어졌을 때, 텍스트 토큰을 LM으로 예측하는 방식으로 진행된다. 이때 loss는 cross-entropy loss이다.

Data

Related works