Open long8v opened 6 months ago
LLaVA-NeXT https://llava-vl.github.io/blog/2024-01-30-llava-next/
high resolution 지원
더 큰 LLM Vicuna 13B -> Yi 34B https://huggingface.co/NousResearch/Nous-Hermes-2-Yi-34B
더 양질의 instruction data (1) Existing GPT-V data. LAION-GPT-V 12.4K의 이미지. 이건 뭐 설명이 없네 LAION 그룹에서 만든건가? LAION 원래 이미지랑 교집합이 있나? and ShareGPT-4V. (2) To further facilitate better visual conversation for more scenarios, we collect a small 15K visual instruction tuning dataset covering different applications. The instructions and images come from LLaVA demo, which are real-world users requests. We carefully filter samples that may have privacy concerns or are potentially harmful, and generate the response with GPT-4V.
paper
see llava https://github.com/long8v/PTIR/issues/128#issue-1749571159 here
TL;DR
Details
contribution
최소한의 tuning(1.2M scale의 public data로 8 A100 days로 끝나는)으로 좋은 성능
Dataset
alignment learning LCS-558K(LAION-CC-SBU with BLIP caption) 중간에 llava-lightning이란게 있었고 수렴을 좀 더 빨리 하기 위한 variant인 듯하다. https://github.com/haotian-liu/LLaVA/issues/86#issuecomment-1533346022 를 보면 CC랑 대략적으로 수량을 맞췄고 much larger concept converage 해서 수렴을 더 빨리 한다고 한다. CC랑 blip caption은 text 형태가 많이 다를 것 같긴 한데.. ㅋㅋ 약간 벤치마크를 찍기 위한 잘 보이지 않는 trick이 아닌지? llava 1.5가 conservation에 대한 성능을 안 잰게 아쉽다 아마 훨씬 낮게 나오지 않았을까?
end-to-end finetuning LLaVA instruction data + VQA(OKVQA, A-OKVQA), OCR(OCRVQA, TextCaps), region-level VQA(Visual Genome, RefCOCO) 몰랐는데 Visual Genome이 VQA가 있었구낭.. https://paperswithcode.com/dataset/visual-genome
Improved baseline of LLaVA
Q: {Question} A: {Answer}
대신Answer the question using a single word or phrase
라고 prompt를 줌. 이렇게 해서 단순히 VQAv2를 training data에 넣으니까 특히 MME라는 벤치마크에서 성능이 2배가 됨 502 -> 1197Result / Ability
LLaVA는 이상하게 대답
관련 없는 이미지에 대해서도 잘 대답
json 뽑기 가능! (ocr 능력)
zs multi-lingual ShareGPT(https://sharegpt.com/)라는 데이터를 사용해서인지 multilingual instruction을 따르더라 사용자가 자기가 사용한 chatGPT 질답을 올릴 수 있는 플랫폼 아마 language only 인듯하다. 특히 MMBench-CN에서 실제로 chinese instruction data를 활용한 Qwen-VL-Chat을 이겼다 (신기하네)
computational cost 6 hours for pretraining / 20 hours for visual instruction tuning using 8A100s
limitation 1) resolution에 따라 image seq len이 늘어난다는 점. q-former가 그런걸 대체하는데 이건 수렴이 느린 것 같더라. 효율적으로 q-former를 학습할 수 있는 연구가 진행되어야 2) multi image 처리 불가. 데이터가 없다. 3) 여전히 타겟 도메인에 한정되어 있다 4) hallucination이 있다
d--etails