Lab-LVM / awesome-VLM

Vision Language Model paper
5 stars 0 forks source link

[20230406] Weekly VLM1 - CLIP #1

Open SoongE opened 1 year ago

SoongE commented 1 year ago

Paper

Learning Transferable Visual Models From Natural Language Supervision (a.k.a. CLIP)

Speaker

@joosun7l

joosun7l commented 1 year ago

Summary CLIP은 이미지와 텍스트 쌍을 예측하는 모델 입니다. 논문에서는 초기 pre train으로 4억쌍의 이미지-텍스트 데이터를 사용 하였습니다. pre training 단계에서의 CLIP은 단순한 이미지 캡셔닝 task를 수행하지만 이후 다양한 visual concept의 task에 대해 zero shot learning으로 transfer 했을때 성능이 좋다는 것이 특징 입니다.

dsgsdgsd

이 데이터의 이미지와 텍스트는 각가 transformer 기반의 encoder를 통과 하게 됩니다. encoder를 통과한 image,text embedding 각각의 쌍(4억^2쌍)의 코사인 유사도를 계산하게 됩니다. 정답인 n개(4억)쌍의 코사인 유사도는 최대가 되고, 오답인 n^2-n개(4억^2-4억)쌍의 코사인 유사도는 최소가 되게끔 image,text encoder를 학습 합니다.

이렇게 pre train된 모델을 다양한 task에 transfer 하였을때

saghdsg

hshsdhsd

기존의 task specific 모델들과 비교하여 좋은 성능을 보임을 실험을 통해 보여 줍니다.

kalelpark commented 1 year ago

OpenAI에서 발표한 논문을 잘 설명해주셔서 감사합니다. :)

label이 지닌 정보의 양이 적으므로, text와 Image를 Pair로 맺어 학습하는 방식, 거대 데이터셋 등 상당히 잘 설명해주셔서 감사합니다.

SoongE commented 1 year ago

Text와 Image feature를 동시에 이용하여 학습하는 방법을 제안하는 거의 최초의 논문이다. Contrastive Learning을 이용해 두 feature를 동일한 space에 나타내며 정답인 쌍에 대해 distance를 줄이는 방법으로 학습한다. 특히 prompt engineering을 적용한 zero-shot에서 좋은 성능을 보이고 있으며, linear prob 형태의 few-shot learning에서도 가능성을 보여주는 논문이다. 최종 방식은 이미지를 넣었을 때 text를 output으로 내는 형식의 네트워크 구조를 가진다.

Strong Point:

gompaang commented 1 year ago

CLIP의 key point (내가 생각하는)

한줄 소감: 개인적으로, text와 image를 함께 사용한다는 발상이 놀라웠다.

dh58319 commented 1 year ago

CLIP 은 2021년 발표된 논문으로 Predetermined object categories를 통해 학습하고 예측하게끔 훈련 된 모델은 새로운 dataset이나 task에 사용되는 상황에서는 그 성능을 보장 할 수 없다. 따라서 본 연구에서는 raw-text와 image를 함께 학습시키는 방법을 통해 확장가능하고 효율적인 모델을 제시한다. NLP에서의 raw-text pre-training model은 task에 상관 없이 좋은 성능을 보여주었다. 따아서 GPT와 같은 시스템은 맞춤형 모델에 비해 경쟁력을 갖추었고 태스크별 데이터가 거의 필요하지 않게 되었다. 하지만 Vision영역에서는 이러한 방식보다는 고전적인 방식을 사용하는 것이 관행이다. NLP에서 성공한 방법을 바탕으로 vision에 적용시켜보는 pre-train모델에 관한 논문이다.

Key Idea