paperswithlove / papers-we-read

3 stars 0 forks source link

TextSquare: Scaling up Text-Centric Visual Instruction Tuning #25

Open JihoonJ opened 5 months ago

JihoonJ commented 5 months ago

image

Links

  1. Archive: https://arxiv.org/pdf/2404.12803.pdf
  2. Project: N/A

Why??

Summary (by claude3)

  1. 새로운 대규모 Instruction Tuning 데이터셋인 Square-10M을 소개하고, 이를 통해 Text-centric VQA 모델인 TextSquare를 개발
  2. TextSquare는 기존의 오픈소스 최신 모델들을 넘어서는 성능을 보였으며, 일부 벤치마크에서는 GPT4V와 Gemini 같은 최고 수준 모델들보다 뛰어난 성능을 보임
  3. VQA 추론 데이터의 중요성을 입증했으며, 데이터 규모가 exponential하게 증가할수록 모델 성능도 비례하여 향상되는 패턴을 보여줌
  4. SQUARE: Self-Questioning, Answering, Reasoning, and Evaluation. (근래 보기 드문 깔끔한 네이밍)
  5. Instruction Set도 10M 정도 되면 Full parameter를 1-stage로 학습 가능
  6. 64 A100-80G GPUs with 1st Stage: 9520 GPU Hours, 2nd Stage: 7280 GPU Hours, 3rd Stage: 12350 GPU Hours

Highlights

Square-10M

TextSquare

Evaluation