Open SoongE opened 1 year ago
Flamingo -> Deepmind의 논문
해당 Figure가 가장 중요해보임.
Image를 Key, value 로 활용하고, Text는 Value로 활용하여, 고정된 Output을 활용하는 Perceiver Resampler 로 학습을 진행한다는 점이 신기함. 각각의 Dataset의 양과 질에 따른 Weight을 다르게 지정함.
다소 실험 결과는 cherry-pick한 느낌이 있지만, 충분한 가능성과 잠재성을 보여줌.
FLAMINGO
Key architectural innovations
i) bridge powerful pretrained vision-only, language-only models
ii) handle sequences of arbitrarily interleaves visual and text data
iii) seamlessly ingest images or videos as inputs
다양한 태스크에 대해서 놀라운 일을 할 수 있다는 것을 보여준 논문
그러나 논문에 명시된 대로 한계점도 명확했다.
Paper Flamingo: a Visual Language Model for Few-Shot Learning (a.k.a. Flamingo)
Speaker @SoongE
Summary
Key Point
Methods
Freezing Vision and Language model
Peceiver Resampler
Gated Cross-Attention
Train on mixture of datasets
strengths and weaknesses
Strengths
Weaknesses