long8v / PTIR

Paper Today I Read
19 stars 0 forks source link

[10] CLIP: Connecting Text and Images #10

Open long8v opened 2 years ago

long8v commented 2 years ago

image article, paper, code input : text-image pair output : text-image가 올바른 pair일 경우 1, 아니면 0 problem : 기존의 이미지 분류 문제는 미리 정의된 카테고리에 대해 학습되어 generality가 떨어지고 새로운 레이블이 들어왔을 때 추가학습을 해야 함. solution : 웹에 쿼리를 날려 나온 이미지로 쿼리-이미지 페어 데이터셋을 만들고, 이미지와 텍스트를 각각 인코딩한뒤 이 코사인 유사도를 바로 logit으로 사용. loss는 symmetric CrossEntropy사용하여 P(이미지|텍스트)와 P(텍스트|이미지)가 유사하게 학습되도록 함. zero shot trasnfer의 경우 미리 텍스트들을 임베딩해놓고 이미지가 들어왔을 때, 코사인 유사도가 가장 높은 값을 label로 예측 result : zero-shot transfer성능은 fully-supervised model보다 나은 dataset이 있었고, few-shot은 다른 접근법보다 성능이 우위, linear prediction을 했을 때 ResNet보다 성능이 우위인 dataset이 많았으며, data distortion에도 더 강건함을 보임. details :

related work:

long8v commented 1 year ago

more details

notion

long8v commented 1 year ago

scaling law in CLIP

notion

long8v commented 1 year ago

more more details and following works

https://docs.google.com/presentation/d/1l7Up_2-dnWEWo8I3aLjzL7RVDnZt0zFoNCo9sWJ6_mQ/edit