请问是有特定的识别类型或者视频需要处理吗，用自己的视频识别出的结果好像差强人意

Kamino666 / Video-Captioning-Transformer

这是一个基于Pytorch平台、Transformer框架实现的视频描述生成 (Video Captioning) 深度学习模型。视频描述生成任务指的是：输入一个视频，输出一句描述整个视频内容的文字（前提是视频较短且可以用一句话来描述）。本repo主要目的是帮助视力障碍者欣赏网络视频、感知周围环境，促进“无障碍视频”的发展。

Apache License 2.0

79 stars 18 forks source link

请问是有特定的识别类型或者视频需要处理吗，用自己的视频识别出的结果好像差强人意 #19

Open 9Edith99 opened 1 year ago

Kamino666 commented 1 year ago

有没有例子呢？

9Edith99 commented 1 year ago

有没有例子呢？

python predict_video.py -c configs\caption-task_baseline_modal_clip4clip_config.json -m checkpoint\clip4clip_msrvtt.pth -v D:\python_Vs\Graduation_project\dy_spider\video\test2.mp4 --feat_type CLIP4CLIP-ViT-B-32 --ext_type uni_12 --greedy --gpu 两个人跑步的视频，识别出test2 :a person is playing with a toy

9Edith99 commented 1 year ago

有没有例子呢？视频链接如：https://www.douyin.com/video/7081572592464743714，请问我的命令行有问题吗还是？作者能否出一个更加详细的教程博客啥的？

Kamino666 commented 1 year ago

umm这个库已经不怎么维护了，未来我可能会开源效果更好的模型。至于命令，我看上去没什么问题，特征提取器的预训练模型比较关键，假如CLIP的模型是好的话，那可能是因为训练数据里竖版视频比较少导致效果比较差吧