关于损失函数的询问

lerogo / aaai24_itr_cusa

Source code of our AAAI 2024 paper "Cross-Modal and Uni-Modal Soft-Label Alignment for Image-Text Retrieval"

29 stars 3 forks source link

Open VcRenOne opened 7 months ago

VcRenOne commented 7 months ago

大佬，对比损失使sum和mean方式不同对性能影响大吗，还是自己看情况选定。还有就是idx这个参数，为None的话是不是没有影响。

lerogo commented 7 months ago

不大，就是为了放缩到和kl差不多的量级

lerogo commented 7 months ago

idx为None，在coco和flickr30k数据集上就会有问题，因为这两个数据集都是1张图片对应5个句子

VcRenOne commented 7 months ago

如果图文是一对一的话就没问题是吧，非常感谢大佬图文检索推理部分（ itm_eval()函数），img2txt跟txt2img这两个变量是长什么样子，我自己的数据集图文是一对一的关系。个人对于图文检索推理代码一直很模糊，希望大佬有空解答一下，非常感谢

lerogo commented 7 months ago

这个相当于是ground truth

你可以尝试跑一下代码，并把这个数据保存出来。最好是自己过一遍代码，你就会明白了。

VcRenOne commented 7 months ago

好的谢谢大佬，因为需要在另外一个项目代码（dassl这个项目）上增加图文检索这个任务，比较棘手。有点急于求成了，我去复现一下

VcRenOne commented 7 months ago

大佬，我们的服务器cuda版本太低，无法使用torch2.0，哭了。scores_i2t, scores_t2i这两个参数的shape是多少

VcRenOne commented 7 months ago

大佬，对比损失使sum和mean方式不同对性能影响大吗，还是自己看情况选定。还有就是idx这个参数，为None的话是不是没有影响。大佬，想再问一下idx这个参数，idx为none的话，是不是只对test跟val有影响。

VcRenOne commented 7 months ago

训练的话还是正常的，我训练还是可以训练，但不清楚这样训练是不是错误的，然后到test阶段，就报错了

lerogo commented 7 months ago

训练的话还是正常的，我训练还是可以训练，但不清楚这样训练是不是错误的，然后到test阶段，就报错了

具体报什么错，贴出来才有可能解决