关于多模态融合以及结果复现问题

xiezexun commented 11 months ago

作者您好，看了您的论文深受启发，觉得您写的很好，有两个问题想咨询您。 1、我已经成功复现了代码，预训练模型使用的vit-l-14，两张4090显卡跑的结果是：top1: 95.3%\top5: 99.2%，跟您的结果可能还有差距。 2、关于视觉特征和文本特征融合时，您采用了CLIP模型默认的余弦相似度计算，但我不太理解这个代码思路，看CLIP原论文伪代码好像不是这样，恳请您解答一下这个logit_scale 是干啥的，有什么用，为什么要这样初始化logit_scale 。 self.logit_scale = nn.Parameter(torch.ones([]) np.log(1 / 0.07)) logit_scale = self.logit_scale.exp() logits = logit_scale image_emb @ text_emb.t()

whwu95 commented 11 months ago

感谢对我们工作的兴趣。

不清楚您指的是什么数据集上的结果？
关于logit_scale请参考CLIP官方代码https://github.com/openai/CLIP/blob/a1d071733d7111c9c014f024669f959182114e33/clip/model.py#L295

xiezexun commented 11 months ago

我是在ucf101数据集上复现的

whwu95 / Text4Vis

关于多模态融合以及结果复现问题 #15