Pretrained checkpoint - Githubissues

Kamino666 / Video-Captioning-Transformer

这是一个基于Pytorch平台、Transformer框架实现的视频描述生成 (Video Captioning) 深度学习模型。视频描述生成任务指的是：输入一个视频，输出一句描述整个视频内容的文字（前提是视频较短且可以用一句话来描述）。本repo主要目的是帮助视力障碍者欣赏网络视频、感知周围环境，促进“无障碍视频”的发展。

Apache License 2.0

79 stars 17 forks source link

Pretrained checkpoint #21

Open jqsun98 opened 5 months ago

jqsun98 commented 5 months ago

您好，您在这个repo的首页提到了用finetuned CLIP提取视频特征，finetune时候用的是CLIP4CLIP的方式，请问这个finetuned CLIP checkpoint可以提供一下吗？

谢谢！

Kamino666 commented 5 months ago

抱歉，过了太久了，我刚才在网盘里又找了一下还是没找到，但是CLIP4CLIP的权重是使用它们方法在MSR-VTT数据集上训练后就能得到。

jqsun98 commented 5 months ago

好的，谢谢您了！

jqsun98 commented 5 months ago

您好，您大概还记得当时用CLIP4CLIP代码对CLIP进行finetune的时候用的参数吗？是文章里面默认的吗？我finetune完，提取特征再用您提供的caption模型在MSVD数据集上大概只能得到CIDEr 108，在MSRVTT数据上大概是57。