Kamino666 / Video-Captioning-Transformer

这是一个基于Pytorch平台、Transformer框架实现的视频描述生成 (Video Captioning) 深度学习模型。 视频描述生成任务指的是:输入一个视频,输出一句描述整个视频内容的文字(前提是视频较短且可以用一句话来描述)。本repo主要目的是帮助视力障碍者欣赏网络视频、感知周围环境,促进“无障碍视频”的发展。
Apache License 2.0
79 stars 17 forks source link

Pretrained checkpoint #21

Open jqsun98 opened 5 months ago

jqsun98 commented 5 months ago

您好,您在这个repo的首页提到了用finetuned CLIP提取视频特征,finetune时候用的是CLIP4CLIP的方式,请问这个finetuned CLIP checkpoint可以提供一下吗?

谢谢!

Kamino666 commented 5 months ago

抱歉,过了太久了,我刚才在网盘里又找了一下还是没找到,但是CLIP4CLIP的权重是使用它们方法在MSR-VTT数据集上训练后就能得到。

jqsun98 commented 5 months ago

好的,谢谢您了!

jqsun98 commented 5 months ago

您好,您大概还记得当时用CLIP4CLIP代码对CLIP进行finetune的时候用的参数吗?是文章里面默认的吗?我finetune完,提取特征再用您提供的caption模型在MSVD数据集上大概只能得到CIDEr 108,在MSRVTT数据上大概是57。