sy00n / DL_paper_review

issues에 논문 요약
0 stars 0 forks source link

[29] PatchCT: Aligning Patch Set and Label Set with Conditional Transport for Multi-Label Image Classification #34

Open sy00n opened 8 months ago

sy00n commented 8 months ago

Abstract

image

Method

image

Q set over textual label embeddings

여기서는 A photo of {label} prompt를 써서 M개의 class에 해당하는 문장을 만든다. image Qi가 textual representation으로 ground-truth label features를 얻음을 의미한다. BERT같은 pre-trained text encoder를 쓰게 되면 1) the textual semantics for each label, 2) the correlations among labels, which help to improve the identification of label representations 를 캡쳐할 수 있다.

요약

PatchCT는 multiclass classification task를 Conditional Transport 문제로 간주하고, visual patch 및 text label 임베딩에 대해 2개의 discrete distribution Pi, Qi를 생성한다. 이 두 representation은 semantic consistency를 공유하지만 서로 다른 support를 갖는다. PatchCT의 주요 아이디어 중 하나는 multi-class classfication을 위해 P와 Q의 bidirectional CT distance를 최소화하여 vision-text modality를 align 하는 것이다.

objective function

Asymmetric loss

image