Open JihoonJ opened 4 months ago
제목이 이상하지만 Idefics2 paper임
입력 Image의 Aspect Ratio를 유지해야 하나? 고정된 Square Size로의 Resize가 학습 성능을 약화 시키지는 않는다(속도/메모리는 효율은 향상) ... 그래도 평균 1% 성능 저하는 약화시키지 않는다고 볼 수 있을 수준은 아니지 않은가...
입력 Image Splitting은 어떤 효과가 있나? Image Splitting은 계산 효율성과 성능 사이에서 절충할 수 있게 하며, Text 관련 Task 성능 향상이 두드러진다.
Idefics2 started from SigLIP-SO400M and Mistral-7B-v0.1 and pre-train Idefics2 on 3 types of data.
Text 관련 Task 성능
They create and release The Cauldron, a massive collection of 50 vision-language datasets.
성능
제목이 이상하지만 Idefics2 paper임
Links
Insight
Summary (by claude3)
Highlights
Exploring the design space of vision-language models
입력 Image의 Aspect Ratio를 유지해야 하나? 고정된 Square Size로의 Resize가 학습 성능을 약화 시키지는 않는다(속도/메모리는 효율은 향상) ... 그래도 평균 1% 성능 저하는 약화시키지 않는다고 볼 수 있을 수준은 아니지 않은가...
입력 Image Splitting은 어떤 효과가 있나? Image Splitting은 계산 효율성과 성능 사이에서 절충할 수 있게 하며, Text 관련 Task 성능 향상이 두드러진다.
Idefics2
Multi-stage pre-training(Instruction tuning 의 pretraining 아님, casual training 임)
Idefics2 started from SigLIP-SO400M and Mistral-7B-v0.1 and pre-train Idefics2 on 3 types of data.
Text 관련 Task 성능
Instruction fine-tuning
They create and release The Cauldron, a massive collection of 50 vision-language datasets.
성능