whwu95 / Text4Vis

【AAAI'2023 & IJCV】Transferring Vision-Language Models for Visual Recognition: A Classifier Perspective
MIT License
202 stars 15 forks source link

关于多模态融合以及结果复现问题 #15

Open xiezexun opened 11 months ago

xiezexun commented 11 months ago

作者您好,看了您的论文深受启发,觉得您写的很好,有两个问题想咨询您。 1、我已经成功复现了代码,预训练模型使用的vit-l-14,两张4090显卡跑的结果是:top1: 95.3%\top5: 99.2%,跟您的结果可能还有差距。 2、关于视觉特征和文本特征融合时,您采用了CLIP模型默认的余弦相似度计算,但我不太理解这个代码思路,看CLIP原论文伪代码好像不是这样,恳请您解答一下这个logit_scale 是干啥的,有什么用,为什么要这样初始化logit_scale 。 self.logit_scale = nn.Parameter(torch.ones([]) np.log(1 / 0.07)) logit_scale = self.logit_scale.exp() logits = logit_scale image_emb @ text_emb.t()

whwu95 commented 11 months ago

感谢对我们工作的兴趣。

  1. 不清楚您指的是什么数据集上的结果?
  2. 关于logit_scale请参考CLIP官方代码https://github.com/openai/CLIP/blob/a1d071733d7111c9c014f024669f959182114e33/clip/model.py#L295
xiezexun commented 11 months ago

我是在ucf101数据集上复现的