Open younnggsuk opened 6 months ago
A photo of a {object}
와 같은 일종의 prompt template에 넣는 방식으로 각각의 text를 구성한 뒤, text encoder, linear projection을 통해 각각의 feature를 추출A photo of a {object}
와 같은 prompt template에 따라 성능이 약간씩 차이가 났고, 여러 prompt를 ensemble하면 성능이 더 개선되었다고 함
Learning Transferable Visual Models From Natural Language Supervision
TL;DR
Review