letme-hj / dl-papers

Archiving papers I've read! (just to remember the key ideas!)
0 stars 0 forks source link

[7] MAGVLT: Masked Generative Vision-and-Language Transformer #7

Open letme-hj opened 1 year ago

letme-hj commented 1 year ago

MAGVLT: based on non-autoregressive mask prediction.

(비교:) ARGVLT (auto-regressive generative VL transformer) - 이것도 본인들이 만든 말이긴 한 듯 (일반적인 방법론 삼아 칭하는 말일 듯..?)

tasks to train the model

접근

"Unified Generative Model" 하나의 모델에서 텍스트/이미지 두개 모두 생성 가능하도록 하는 것 (이쪽 연구도 없지는 않지만 흔한 접근은 아님)

최근에 같은 접근을 한 예시로는 Connecting representation and generation via masked vision-language transformer (찾아보니 reject 당함)가 있지만, 성능도 그닥이고 태스크도 이 논문보다 한정적이었다고 함.

letme-hj commented 1 year ago

Method

Masked Image-Text Modeling

Image input -- VQ-GAN --> latent X (16 x 16) Text input -- BPE --> tokenize Y (X, Y) -- special tokens added -- bidirectional transformer (full attention) -->

Bidirectional VS AR transformer

mask prediction losses

Screen Shot 2023-03-26 at 3 05 13 PM

inference: iterative decoding

-모든 token을 parallel하게 decoding하는 거기 때문에, autoregressive decoding 보다 훨씬 빠르다.

step-unrolled mask prediction (UnrollMask)

selective prediction on mixed context (MixSel)

letme-hj commented 1 year ago

Model

Image Encoder

Text Encoder