long8v / PTIR

Paper Today I Read
19 stars 0 forks source link

[143] Honeybee: Locality-enhanced Projector for Multimodal LLM #155

Open long8v opened 9 months ago

long8v commented 9 months ago
image

paper

TL;DR

Details

벤치마크들 중 spatial 관련 애들 linear projection vs resampler 대한 분석 resampler 애들이 spatial을 못한다는 분석. finer detail들이 sampler 과정에서 사라진다. 반면에 linear 스타일은 local 정보까지 잘 전달하는 경향이 있다

Honey-bee

image

1) vision encoder 2) projector 3) large language model

image image

예를 들어 linear projection은 파라미터가 거의 없지만, 같은 # tokens resampler랑 시간이 비슷함. 즉 학습 시간은 # tokens랑 비례함 resampler의 # visual token이 늘어남에 따라 한 step 학습하는데 시간이 오래걸리는 모습 (llava에서 주장하는 파라미터가 적어서 금방 수렴한다랑 약간 다른 포인트의 논지. 거긴 파라미터가 적어서 "수렴"을 얘기하고 여긴 그냥 당장 학습 속도를 의미)

motivation에서 나온 이야기처럼 resampler 구조가 locality를 반영을 못하는 것 같다. locality를 반영할 visual projector를 추가해주자

C-abstractor는 ResNet D-abstractor는 Deformable Attention

결과

image

Training

전체적으로 llava-like training strategy

image

Hidden Recipe for Visual Instruction Tuning

image image

VSR, ShareGPT, ScienceQA, OCRVQA는 절대적이 양이 적어서 비율을 줄임 OCRVQA, VG는 실험적으로 줄임 Captioning에 BlipCapFilt을 뺀건 cost 때문이었지만 ablation 해봤을 때 성능이 떨어지진 않았음 (!! alt-text를 취하고 caption을 버렸군)

instruction을 주는 식으로 하냐 vs 데이터셋이나 태스크 이름으로 주는 식으로 하냐에서 instruction이 더 좋았다

image

granularity는 "task"별로 template을 다르게 쓰는 것이 좋았다 (!!) template을 여러개 쓰는 것보다 하나만 쓰는게 좋았다 (!!) flip은 QA 순서를 바꾸는 식인데 별로 도움이 안됐다

VQA류 같은건 multi-turn으로 만드는게 좋았다. 특히 비슷한 질문들 dedup까지 하니까 아주 좋았다

image

D-etails

SEED가 fine-grained한게 많다고 하네

캡션류는 별도 프롬프트 없이 VQA, REC task는 fine-grained하게 바꿈 가령 Visual Semantic Reasoning에서 The cat is inside the refrigerator, False를 Is the cat inside the refrigerator?를 No 형식으로 바꿈 그리고 이미 instruction용으로 나온건 template없이 그대로 사용

long8v commented 9 months ago

(궁금한거)

long8v commented 8 months ago

Google slide