接受多张图片作为输入

THUDM / VisualGLM-6B

Chinese and English multimodal conversational language model | 多模态中英双语对话语言模型

Apache License 2.0

4.07k stars 415 forks source link

Open tuteng0915 opened 1 year ago

tuteng0915 commented 1 year ago

InstructBLIP 论文中指出，即使他们没有针对视频进行训练和微调，他们在VideoQA测试集上，将Video切帧后直接拼接输入Q-Former，亦有一定的理解能力。想问VisualGLM是否进行过类似实验？

Sleepychord commented 1 year ago

没有，由于video一般随便一帧就有不错的正确率，这个能力提升多少需要具体检验。