LALBJ / PAI

[ECCV 2024] Paying More Attention to Image: A Training-Free Method for Alleviating Hallucination in LVLMs
https://lalbj.github.io/projects/PAI/
MIT License
46 stars 1 forks source link

Support InternVL2‑26B #2

Closed zhly0 closed 2 weeks ago

zhly0 commented 1 month ago

您好, 看论文中的效果很好,因此想在InternVL2‑26B中进行尝试,不知道需要怎么修改? 感谢!

LALBJ commented 1 month ago

哈喽,感谢认可。

如果需要接入自定义 LVLMs,需要先检查该 LVLM 使用得语言基底模型是否为 LLaMA,如果采用 LLaMA 则可以直接参考我们的 Readme 使用对应的组件,否则则需要对这两个组件代码进行对应的修改。

使用组件时只需要对输入进行预处理得到组件所需要的参数即可,其实主要就是获取到图像 token 相关索引信息。这里部分可以参考我们在 model_loader.py 的实现。