如何仅使用DAMO-NLP-SG/Video-LLaMA-2-13B-Finetuned参数进行推理？

我正在尝试使用DAMO-NLP-SG/Video-LLaMA-2-13B-Finetuned模型进行推理，但在加载模型权重时遇到了问题。根据README文件，我理解的是不再需要delta权重和单独的Q-former权重，所有运行Video-LLaMA所需的完整权重都可以在这里找到：[7B][13B]。

然而，当我尝试加载这些权重时，代码似乎仍在尝试下载vit和blip2_pretrained_flant5xxl.pth。我想确认我是否可以仅使用DAMO-NLP-SG/Video-LLaMA-2-13B-Finetuned的参数进行推理，以及如何正确地加载这些参数以避免额外的下载。我是否需要修改我的代码，或者是否有其他我可能错过的步骤？

感谢您的帮助！

DAMO-NLP-SG / Video-LLaMA

如何仅使用DAMO-NLP-SG/Video-LLaMA-2-13B-Finetuned参数进行推理？ #105