long8v / PTIR

Paper Today I Read
19 stars 0 forks source link

[114] MaMMUT: A Simple Architecture for Joint Learning for MultiModal Tasks #123

Open long8v opened 1 year ago

long8v commented 1 year ago
image

paper

TL;DR

Details

Related works

Architecture

image image image

main contribution인 two-pass learning captioning은 causal masking을 필요로 하고(conditioned 표현이 필요), contrastive는 text 전체의 표현이 필요. 걍 decoder로 masking 다르게 해서 두번 forward! (masking / CA 아니면 걍 이게 encoder 아니묘 ㅋㅋㅋ) ~CoCa도 text encoder 같은걸 가지고 decoder라고 표현했는데 여기도 사실상 CoCa랑 거의 유사한데 Unimodal Text Decoder + MultiModal Text Decoder가 같은 weight를 가지는거라 봐도 될듯!~ CoCa는 text decoder에 causual masking이 있는 self-attention을 추가했음! 얘는 forward 한번만 해도 됨.

image

Loss

image image

Video 처리

image

Result

image image

Ablations

image image

작아도 잘한다.