long8v / PTIR

Paper Today I Read
19 stars 0 forks source link

[137] mPLUG-Owl2: Revolutionizing Multi-modal Large Language Model with Modality Collaboration #149

Open long8v opened 11 months ago

long8v commented 11 months ago
image

paper

TL;DR

Details

image

Architecture

image image

두 단계에서 달라지는거 resolution / LLM seq len

Result

이건 MAM 덕분이다라고 말함

image image

text intstruction data사용하면 mm 성능이 안좋고 mm instruction 사용하면 text가 안 좋아지는데 둘다 사용하면 각자 사용한 것보다 성능이 약간 안좋음 + MAM 쓰면 둘다 좋아짐

text VQA가 많이 필요

textVQA가 압도적으로 효과가 좋넹 ㅋㅋ

Qualitative Result

image

MAM 덕분에 초기 레이어엔 텍스트, 후반 레이어엔 이미지를 본다고 주장 -> 뭐가 좋은건지 잘(?)

image

관련없는 이미지랑 텍스트 주어졌을 때 MAM 가 있을 경우 텍스트에 집중했다고 서술 둘다 틀린 것 같긴한데.. MAM 있으면 적어도 7개 말하긴 함 ㅋㅋ

long8v commented 11 months ago