Kamino666 / Video-Captioning-Transformer

这是一个基于Pytorch平台、Transformer框架实现的视频描述生成 (Video Captioning) 深度学习模型。 视频描述生成任务指的是:输入一个视频,输出一句描述整个视频内容的文字(前提是视频较短且可以用一句话来描述)。本repo主要目的是帮助视力障碍者欣赏网络视频、感知周围环境,促进“无障碍视频”的发展。
Apache License 2.0
79 stars 18 forks source link

请问是有特定的识别类型或者视频需要处理吗,用自己的视频识别出的结果好像差强人意 #19

Open 9Edith99 opened 1 year ago

Kamino666 commented 1 year ago

有没有例子呢?

9Edith99 commented 1 year ago

有没有例子呢?

python predict_video.py -c configs\caption-task_baseline_modal_clip4clip_config.json -m checkpoint\clip4clip_msrvtt.pth -v D:\python_Vs\Graduation_project\dy_spider\video\test2.mp4 --feat_type CLIP4CLIP-ViT-B-32 --ext_type uni_12 --greedy --gpu 两个人跑步的视频,识别出test2 :a person is playing with a toy

9Edith99 commented 1 year ago

有没有例子呢? 视频链接如:https://www.douyin.com/video/7081572592464743714,请问我的命令行有问题吗还是?作者能否出一个更加详细的教程博客啥的?

Kamino666 commented 1 year ago

umm这个库已经不怎么维护了,未来我可能会开源效果更好的模型。 至于命令,我看上去没什么问题,特征提取器的预训练模型比较关键,假如CLIP的模型是好的话,那可能是因为训练数据里竖版视频比较少导致效果比较差吧