Lab-LVM / awesome-VLM

Vision Language Model paper
5 stars 0 forks source link

[20230413] Weekly VLM2 - Flamingo #4

Open SoongE opened 1 year ago

SoongE commented 1 year ago

Paper Flamingo: a Visual Language Model for Few-Shot Learning (a.k.a. Flamingo)

Speaker @SoongE

Summary CleanShot 2023-04-13 at 16 31 25

Key Point

Methods

kalelpark commented 1 year ago

Flamingo -> Deepmind의 논문

해당 Figure가 가장 중요해보임.

image

Image를 Key, value 로 활용하고, Text는 Value로 활용하여, 고정된 Output을 활용하는 Perceiver Resampler 로 학습을 진행한다는 점이 신기함. 각각의 Dataset의 양과 질에 따른 Weight을 다르게 지정함.

다소 실험 결과는 cherry-pick한 느낌이 있지만, 충분한 가능성과 잠재성을 보여줌.

dh58319 commented 1 year ago

FLAMINGO

Key architectural innovations

i) bridge powerful pretrained vision-only, language-only models

ii) handle sequences of arbitrarily interleaves visual and text data

iii) seamlessly ingest images or videos as inputs

다양한 태스크에 대해서 놀라운 일을 할 수 있다는 것을 보여준 논문

그러나 논문에 명시된 대로 한계점도 명확했다.