请问多模态版本支持视频吗

ohhyeeaah commented 2 months ago

Feature request / 功能建议

我想利用多模态版本做一些视频相关任务，是否有相关支持

Motivation / 动机

从视频中抽取几帧图像，然后拼接文本，这种对于GLM-4V-9B可行吗，如果可行，有哪些需要注意的点（最大图片数量，推理输入格式等）

Your contribution / 您的贡献

谢谢！

fly-dragon211 commented 2 months ago

你好，我也想这么搞，把视频抽取几帧图像，提取 token，拼进去，目前效果不太好，GLM 还是认为自己输入的是图片：

You: 这个视频是啥场景
GLM-4V:该图来自天津卫视的《非你莫属》节目现场。图中，库尔特正在和主持人对话。
库尔特（Curtis）是美国的一位企业家、天使投资人以及畅销书作家。《福布斯》（Forbes）、《财富》（Fortune）、CNN、《纽约时报 》（New York Times）、《今日美国》（USA Today）等媒体都曾报道过他的成功故事。
库尔特创办了发家致富公司（Home Business Success），并帮助超过100万人通过在家创业实现财务自由。他还著有《在家创富：如何利 用互联网赚取你的第一桶金》、《在家创富2.0: 如何在虚拟经济中赚钱》等多部作品，《在家创富》中文版在中国大陆也获得了巨大的成功。

Feature request / 功能建议

我想利用多模态版本做一些视频相关任务，是否有相关支持

Motivation / 动机

从视频中抽取几帧图像，然后拼接文本，这种对于GLM-4V-9B可行吗，如果可行，有哪些需要注意的点（最大图片数量，推理输入格式等）

Your contribution / 您的贡献

谢谢！

ohhyeeaah commented 2 months ago

你好，你是直接拼进去的吗，有做降token操作吗（pooling那种），是不是拼太多了token过长了？

ohhyeeaah commented 2 months ago

好像不支持呀😢

fly-dragon211 commented 2 months ago

你好，你是直接拼进去的吗，有做降token操作吗（pooling那种），是不是拼太多了token过长了？

对，我是直接拼，拼几张图片的 token 还好，可以参考 https://github.com/haotian-liu/LLaVA/blob/main/llava/model/llava_arch.py#L145 把图片token拼起来

ohhyeeaah commented 2 months ago

你好，你是直接拼进去的吗，有做降token操作吗（pooling那种），是不是拼太多了token过长了？

对，我是直接拼，拼几张图片的 token 还好，可以参考 https://github.com/haotian-liu/LLaVA/blob/main/llava/model/llava_arch.py#L145 把图片token拼起来

好的多谢，我试试看

zRzRzRzRzRzRzR commented 2 months ago

这个理论可以，但是实际效果应该不好？因为就没有训多个图片，这个模型是单一图片多轮对话，VQA模型

ohhyeeaah commented 2 months ago

这个理论可以，但是实际效果应该不好？因为就没有训多个图片，这个模型是单一图片多轮对话，VQA模型

哦哦好的，那确实有可能不太适合，但我还是试试和其他模型对比一下

THUDM / GLM-4