Support InternVL2‑26B

LALBJ / PAI

[ECCV 2024] Paying More Attention to Image: A Training-Free Method for Alleviating Hallucination in LVLMs

https://lalbj.github.io/projects/PAI/

MIT License

46 stars 1 forks source link

Closed zhly0 closed 2 weeks ago

zhly0 commented 1 month ago

您好，看论文中的效果很好，因此想在InternVL2‑26B中进行尝试，不知道需要怎么修改？感谢！

LALBJ commented 1 month ago

哈喽，感谢认可。

如果需要接入自定义 LVLMs，需要先检查该 LVLM 使用得语言基底模型是否为 LLaMA，如果采用 LLaMA 则可以直接参考我们的 Readme 使用对应的组件，否则则需要对这两个组件代码进行对应的修改。

使用组件时只需要对输入进行预处理得到组件所需要的参数即可，其实主要就是获取到图像 token 相关索引信息。这里部分可以参考我们在 model_loader.py 的实现。