THUDM / VisualGLM-6B

Chinese and English multimodal conversational language model | 多模态中英双语对话语言模型
Apache License 2.0
4.07k stars 415 forks source link

接受多张图片作为输入 #21

Open tuteng0915 opened 1 year ago

tuteng0915 commented 1 year ago

InstructBLIP 论文中指出,即使他们没有针对视频进行训练和微调,他们在VideoQA测试集上,将Video切帧后直接拼接输入Q-Former,亦有一定的理解能力。想问VisualGLM是否进行过类似实验?

Sleepychord commented 1 year ago

没有,由于video一般随便一帧就有不错的正确率,这个能力提升多少需要具体检验。