yangbang18 / CARE

(TIP'2023) Concept-Aware Video Captioning: Describing Videos with Effective Prior Information
23 stars 0 forks source link

关于text-visual retrieval的问题 #1

Closed Jack2Lu closed 7 months ago

Jack2Lu commented 7 months ago

你好,非常感谢你的分享,在阅读代码和论文的过程中我有一些疑惑,希望能够得到解答 1、 在预处理数据(text-visual retrieval)的过程中,每个视频是和数据集中的所有caption标注进行匹配的吗,还是说只和train aplit中的caption标注进行匹配的?这是否意味着某个视频能够匹配到其他视频的caption标注呢 2、 在预处理文件CLIP_ViT-B-32_unique.hdf5中有两个字段"video"和"video_i",以及从这两个字段中获取的tensor shape均是100开头的,“video*_i”代表什么意思呢,在预处理的过程中你们是为每个视频匹配了100个最相似的文本,然后从中挑选出top20用于训练的吗 非常期待能得到解答

yangbang18 commented 7 months ago

感谢你对我们的工作感兴趣,以下是对你的问题的回复:

  1. 每个视频(无论是来自训练集/验证集/测试集),都只跟train split的caption进行匹配,代码见此处,其中text_mode被设置成了train.
  2. video*_i的含义是该视频最相关的caption的索引(见此处代码),通过记录索引,可以方便后期查看检索结果(例如,由于MSRVTT每个视频是20条ground-truth captions,索引20表示是第二个视频的第一条caption)。
  3. 我们在预处理过程中为每个视频匹配了100个最相似的文本并储存它们的特征(见此处代码),在训练时,采用top K进行训练,K可以时小于等于100的任何数字。
Jack2Lu commented 7 months ago

感谢你的回复,才发现还有pretreatment文件夹,这是我看到的近两年最好的为数不多的开源工作了,在MSRVTT上不用调参就能打败其他相似工作, 另外你们有试过在MSVD数据集上,仅凭视觉模态或视觉文本模态,各个指标能达到什么程度呢,相应的seed方便提供吗,我复现了几次,发现cider都是在100往下的

yangbang18 commented 7 months ago

在论文Table VI中,我们的方法在视觉+文本特征情况下在MSVD数据集上CIDEr是106.9。

复现代码见scripts/exp_main_MSVD.sh

Jack2Lu commented 7 months ago

好的,谢谢