long8v / PTIR

Paper Today I Read
19 stars 0 forks source link

[74] “This is my unicorn, Fluffy”: Personalizing frozen vision-language representations #82

Open long8v opened 1 year ago

long8v commented 1 year ago
image

paper

TL;DR

Details

new setup, personalized vision & language

image

Adaptor vs new vocab 추가

image

새로운 vocab을 추가하지 않으면 이전 class에 대한 encoder output이 뭉개진다. 우리의 텍스트임베딩이 새로운 컨셉을 품을 수 있을 정도로 크다는 가정으로 모델이 시작

Architecture

image

DeepSets이란 네트워크로 inverse mapping function 학습

Loss

image