关于text-visual retrieval的问题

yangbang18 / CARE

(TIP'2023) Concept-Aware Video Captioning: Describing Videos with Effective Prior Information

23 stars 0 forks source link

关于text-visual retrieval的问题 #1

Closed Jack2Lu closed 7 months ago

Jack2Lu commented 7 months ago

你好，非常感谢你的分享，在阅读代码和论文的过程中我有一些疑惑，希望能够得到解答 1、在预处理数据(text-visual retrieval)的过程中，每个视频是和数据集中的所有caption标注进行匹配的吗，还是说只和train aplit中的caption标注进行匹配的？这是否意味着某个视频能够匹配到其他视频的caption标注呢 2、在预处理文件CLIP_ViT-B-32_unique.hdf5中有两个字段"video"和"video_i"，以及从这两个字段中获取的tensor shape均是100开头的，“video*_i”代表什么意思呢，在预处理的过程中你们是为每个视频匹配了100个最相似的文本，然后从中挑选出top20用于训练的吗非常期待能得到解答

yangbang18 commented 7 months ago

感谢你对我们的工作感兴趣，以下是对你的问题的回复：

每个视频（无论是来自训练集/验证集/测试集），都只跟train split的caption进行匹配，代码见此处，其中text_mode被设置成了train.
video*_i的含义是该视频最相关的caption的索引（见此处代码），通过记录索引，可以方便后期查看检索结果（例如，由于MSRVTT每个视频是20条ground-truth captions，索引20表示是第二个视频的第一条caption）。
我们在预处理过程中为每个视频匹配了100个最相似的文本并储存它们的特征（见此处代码），在训练时，采用top K进行训练，K可以时小于等于100的任何数字。

Jack2Lu commented 7 months ago

感谢你的回复，才发现还有pretreatment文件夹，这是我看到的近两年最好的为数不多的开源工作了，在MSRVTT上不用调参就能打败其他相似工作，另外你们有试过在MSVD数据集上，仅凭视觉模态或视觉文本模态，各个指标能达到什么程度呢，相应的seed方便提供吗，我复现了几次，发现cider都是在100往下的

yangbang18 commented 7 months ago

在论文Table VI中，我们的方法在视觉+文本特征情况下在MSVD数据集上CIDEr是106.9。

复现代码见scripts/exp_main_MSVD.sh

Jack2Lu commented 7 months ago

好的，谢谢