long8v / PTIR

Paper Today I Read
19 stars 0 forks source link

[118] PaLI-X: On Scaling up a Multilingual Vision and Language Model #127

Open long8v opened 1 year ago

long8v commented 1 year ago
image

paper

TL;DR

Details

Related Work

image

여러 종류의 pretraining task를 한번에 학습할건데 prefix를 주고 모델이 이에 맞게 행동하도록 하는 방법론. MoE처럼 아키텍쳐가 여러개고 그런건 아님

일단 multilingual에 좀 집중한 경향이 있는 논문~

image

그냥 visual token을 input으로 밀어넣는 형태인듯 하다. pooling을 안썼다고?

ViT-e를 학습. ImageNet에서는 scaling 했을 때 성능의 향상이 marginal 했지만 multi-modal에서는 유의미한 성능

image image

PALI 전체 크기는 이러하다다

image

같은 크기의 파라미터 증가에서 성능 개선이 language model 보다 visual model 쪽이 효과가 더 좋았다고 함

image

WebLI는 multi-modal 잘하기 위해서 web에서 만든 이미지.

image

각 objective에 대한 ablation

image

mixing ratio

image

limitation으로 1) english only로 finetune을 했을 때 multilingual 능력을 일부 벤치마크에서 잃어버리더라 2) benchmark가 english라서 동의어를 잘 평가하고 있는지 잘 모르겠다

image image

이 이미지에 특정 object들 있냐?하고 물어봄

image

objective-aware를 넣었을 때 전체적인 성능이 향상 됐다. -> Visual Question Answering, visual entailment and captioning.

어려운 질문을 작은 단위의 질문으로 나누고 답변을 풀어나가는 과정을 prompt에 넣어주면 잘한다~는 연구 CoT를 위한 tuning을 한건지? decompose 하는걸 학습을 하는건지 어떤건지 잘 모르겠

Model

image

이건 few-shot 예시긴 한데 모델 아키텍쳐는 PALI랑 달라진 건 없다

Training objectives

image

Training procedure

In stage 1, the visual encoder (after mixed-objective training) is kept frozen, while the rest of the parameters are trained on a total of 2.2B examples at the base resolution 224×224 (native to ViT-22B), using the entire mixture. In stage 2, it continues training using only the OCR-related objectives (pix2struct and split-ocr) plus the object detection objective; this is done in several substages, during which image resolution is gradually increased to 448×448, 672×672 and finally 756×756.

Result

image

Per-task finetuning

image

Multi-task finetuning

image

Few-shot performance

image

zero-shot detection

image