关于视频长度和采样问题 - Githubissues

RupertLuo / Valley

The official repository of "Video assistant towards large language model makes everything easy"

199 stars 13 forks source link

关于视频长度和采样问题 #24

Open fkcptlst opened 10 months ago

fkcptlst commented 10 months ago

代码中对于每个video固定采样8个frame，fixed_frame_number=8。

我想请教一下：

这样设计的考虑是什么？video-llama似乎没有对视频长度进行限制，video-chatgpt限制视频最长为100帧。
如果要扩展帧数，能否直接把额外的video token附加在后面？还是说需要重新finetune（使其能够适应不同帧数）？

RupertLuo commented 10 months ago

你可以把 frame_mode 改成 fps，然后修改 fps 的值，比如 0.1 就是10秒1帧这么抽取。如果要扩展帧目前只能用这个方法。

fkcptlst commented 10 months ago

可以请教一下为什么最初设计时要限制8帧么？是帧数太多性能下降吗？

RupertLuo commented 10 months ago

对的，如果视频太长，帧数太多做pooling之后会混淆，我在最新版的论文中用了一个transformer去解决这个问题，但是代码还没有更新上来。

fkcptlst commented 10 months ago

感谢解答。能问一下新版代码计划什么时候更新？

RupertLuo commented 10 months ago

争取这周吧，最近事情比较多

fkcptlst commented 10 months ago

好的谢谢！

RupertLuo commented 10 months ago

已更新

fkcptlst commented 10 months ago

我大致看了一下更新的代码，按我的理解现在还是只支持8帧输入么？另外能问一下新的模型权重计划什么时候更新吗？谢谢！

RupertLuo commented 10 months ago

把 frame mode 改成 fps, 传进去的视频就不是8帧的

RupertLuo commented 10 months ago

我知道了，train外面没有留这个接口

RupertLuo commented 10 months ago

dataset.py 里面的load video 函数传一个参数，frame mode = ‘fps’ , 就可以按照帧率抽取视频帧了。