long8v / PTIR

Paper Today I Read
19 stars 0 forks source link

[138] ShareGPT4V: Improving Large Multi-Modal Models with Better Captions #150

Open long8v opened 7 months ago

long8v commented 7 months ago
image

paper, page

TL;DR

Details

Data

etc: SAM, TextCaps, WikiArt + 1K images from webcrawled data (split evenly between images of landmarks and images of celebrities). (추가적으로 긁은 듯)

image

데이터 종류별로 prompt를 다르게 줬다고 함

image

이렇게 100K수집

이때 사용한 데이터

image

3개에 대한 human evaluation

image

more analysis

image image

공정한 비교를 위해 원래 쟤네 학습할 때 있었던 data recipe 중에 'detailed caption'에 해당하는 100K의 데이터를 빼고 이 데이터를 넣음

ShareGPT4V-7B model

image

Ablations

각 데이터를 넣어서 학습하는 것의 효과

image

latter half만 학습한 것의 효과

image image