Closed Jack2Lu closed 7 months ago
感谢你对我们的工作感兴趣,以下是对你的问题的回复:
感谢你的回复,才发现还有pretreatment文件夹,这是我看到的近两年最好的为数不多的开源工作了,在MSRVTT上不用调参就能打败其他相似工作, 另外你们有试过在MSVD数据集上,仅凭视觉模态或视觉文本模态,各个指标能达到什么程度呢,相应的seed方便提供吗,我复现了几次,发现cider都是在100往下的
在论文Table VI中,我们的方法在视觉+文本特征情况下在MSVD数据集上CIDEr是106.9。
好的,谢谢
你好,非常感谢你的分享,在阅读代码和论文的过程中我有一些疑惑,希望能够得到解答 1、 在预处理数据(text-visual retrieval)的过程中,每个视频是和数据集中的所有caption标注进行匹配的吗,还是说只和train aplit中的caption标注进行匹配的?这是否意味着某个视频能够匹配到其他视频的caption标注呢 2、 在预处理文件CLIP_ViT-B-32_unique.hdf5中有两个字段"video"和"video_i",以及从这两个字段中获取的tensor shape均是100开头的,“video*_i”代表什么意思呢,在预处理的过程中你们是为每个视频匹配了100个最相似的文本,然后从中挑选出top20用于训练的吗 非常期待能得到解答