cnzzx / VSA

Vision Search Assistant: Empower Vision-Language Models as Multimodal Search Engines
https://cnzzx.github.io/VSA/
Apache License 2.0
86 stars 6 forks source link

hello,some questions about project #4

Open positive666 opened 6 days ago

positive666 commented 6 days ago

感谢提供的项目idea 1.if only text input , which is equivalent to Mindsearch? 2.如果VLM的能力经过微调或者是更大的vlm是否可能替代掉ground dino? 有没有考虑提供分离大模型服务的后端API? 3.搜索模型使用的是Internlm2原因是否只是因为这个模型经过相关数据训练, 这个几个步骤有没有可能可以合并为一个VLM进行,目前因为模型能力受限。所以做的过渡组合?

invictus717 commented 6 days ago
  1. 不等价,只是Mindsearch的代码在这好调用,可以被任意替换,核心还是VL的描述在搜索图里面迭代,迭代的结果只作为搜索上下文不作为回答结果。
  2. 其实可以,流程可以简化,但是我们这个只是research,更进一步的工程优化应该挺多。
  3. 用InternLM2主要是代码和MindSearch兼容好弄,以及InternLM2兼容中文好一些。论文方法里面就是一个VLM。用LLM部分来搜索,但是VLM finetune以后会影响纯文本能力,所以代码里面是VLM的LLM和搜索的LLM分开了,原生的VLM可以解决这个问题。

有什么进一步的问题欢迎接着讨论

positive666 commented 6 days ago

感谢解答,空余时间会读下Paper去学习下,另外想请教下 1.vlm 微调这里指的是需要冻结Llm部分吗 2.我自己有一个大模型平台,之前接过Mindsearch作为我的AI搜索应用,但是我觉得还不太成熟,咱们这个目的主要是解决图片搜索的场景吗?还是加深通用场景 图像caption的能力?

invictus717 commented 6 days ago
  1. VLM训练Alignment是不冻结LLM的,所以这里会损失纯文本能力;VLM在SFT又训练了LLM,整体而言还是Visual Instruction Tuning,不等价原来的LLM的。
  2. 主要是做VL内容或者说VL问题在全网的匹配+总结,实际上这样的搜索是一个用户图片->VLM的文本->网络图片和描述中相似度萃取的过程,实际上就是构建了一个动态的RAG的库,想尝试把VLM当端到端的引擎用
positive666 commented 5 days ago

好的 明白感谢解答,另外这个现在有没有通用性,比如只输入文本的网络搜索