DAMO-NLP-SG / Video-LLaMA

[EMNLP 2023 Demo] Video-LLaMA: An Instruction-tuned Audio-Visual Language Model for Video Understanding
BSD 3-Clause "New" or "Revised" License
2.77k stars 255 forks source link

如何仅使用DAMO-NLP-SG/Video-LLaMA-2-13B-Finetuned参数进行推理? #105

Closed ZhouZineng closed 1 year ago

ZhouZineng commented 1 year ago

我正在尝试使用DAMO-NLP-SG/Video-LLaMA-2-13B-Finetuned模型进行推理,但在加载模型权重时遇到了问题。根据README文件,我理解的是不再需要delta权重和单独的Q-former权重,所有运行Video-LLaMA所需的完整权重都可以在这里找到:[7B][13B]。

然而,当我尝试加载这些权重时,代码似乎仍在尝试下载vit和blip2_pretrained_flant5xxl.pth。我想确认我是否可以仅使用DAMO-NLP-SG/Video-LLaMA-2-13B-Finetuned的参数进行推理,以及如何正确地加载这些参数以避免额外的下载。我是否需要修改我的代码,或者是否有其他我可能错过的步骤?

感谢您的帮助!

hangzhang-nlp commented 1 year ago

目前代码需要下载VIT和blip2_pretrained_flant5xxl.pth,如果你想要离线加载这些参数,可以修改model文件夹下的代码