THUDM / GLM-4

GLM-4 series: Open Multilingual Multimodal Chat LMs | 开源多语言多模态对话模型
Apache License 2.0
4.63k stars 365 forks source link

请问多模态版本支持视频吗 #266

Closed ohhyeeaah closed 2 months ago

ohhyeeaah commented 2 months ago

Feature request / 功能建议

我想利用多模态版本做一些视频相关任务,是否有相关支持

Motivation / 动机

从视频中抽取几帧图像,然后拼接文本,这种对于GLM-4V-9B可行吗,如果可行,有哪些需要注意的点(最大图片数量,推理输入格式等)

Your contribution / 您的贡献

谢谢!

fly-dragon211 commented 2 months ago

你好,我也想这么搞,把视频抽取几帧图像,提取 token,拼进去,目前效果不太好,GLM 还是认为自己输入的是图片:

You: 这个视频是啥场景
GLM-4V:该图来自天津卫视的《非你莫属》节目现场。图中,库尔特正在和主持人对话。
库尔特(Curtis)是美国的一位企业家、天使投资人以及畅销书作家。《福布斯》(Forbes)、《财富》(Fortune)、CNN、《纽约时报 》(New York Times)、《今日美国》(USA Today)等媒体都曾报道过他的成功故事。
库尔特创办了发家致富公司(Home Business Success),并帮助超过100万人通过在家创业实现财务自由。他还著有《在家创富:如何利 用互联网赚取你的第一桶金》、《在家创富2.0: 如何在虚拟经济中赚钱》等多部作品,《在家创富》中文版在中国大陆也获得了巨大的成功。

Feature request / 功能建议

我想利用多模态版本做一些视频相关任务,是否有相关支持

Motivation / 动机

从视频中抽取几帧图像,然后拼接文本,这种对于GLM-4V-9B可行吗,如果可行,有哪些需要注意的点(最大图片数量,推理输入格式等)

Your contribution / 您的贡献

谢谢!

ohhyeeaah commented 2 months ago

你好,你是直接拼进去的吗,有做降token操作吗(pooling那种),是不是拼太多了token过长了?

ohhyeeaah commented 2 months ago

image 好像不支持呀😢

fly-dragon211 commented 2 months ago

你好,你是直接拼进去的吗,有做降token操作吗(pooling那种),是不是拼太多了token过长了?

对,我是直接拼,拼几张图片的 token 还好,可以参考 https://github.com/haotian-liu/LLaVA/blob/main/llava/model/llava_arch.py#L145 把图片token拼起来

ohhyeeaah commented 2 months ago

你好,你是直接拼进去的吗,有做降token操作吗(pooling那种),是不是拼太多了token过长了?

对,我是直接拼,拼几张图片的 token 还好,可以参考 https://github.com/haotian-liu/LLaVA/blob/main/llava/model/llava_arch.py#L145 把图片token拼起来

好的多谢,我试试看

zRzRzRzRzRzRzR commented 2 months ago

这个理论可以,但是实际效果应该不好?因为就没有训多个图片,这个模型是单一图片多轮对话,VQA模型

ohhyeeaah commented 2 months ago

这个理论可以,但是实际效果应该不好?因为就没有训多个图片,这个模型是单一图片多轮对话,VQA模型

哦哦好的,那确实有可能不太适合,但我还是试试和其他模型对比一下