hello,some questions about project

cnzzx / VSA

Vision Search Assistant: Empower Vision-Language Models as Multimodal Search Engines

https://cnzzx.github.io/VSA/

Apache License 2.0

86 stars 6 forks source link

hello,some questions about project #4

Open positive666 opened 6 days ago

positive666 commented 6 days ago

感谢提供的项目idea 1.if only text input , which is equivalent to Mindsearch? 2.如果VLM的能力经过微调或者是更大的vlm是否可能替代掉ground dino? 有没有考虑提供分离大模型服务的后端API？ 3.搜索模型使用的是Internlm2原因是否只是因为这个模型经过相关数据训练，这个几个步骤有没有可能可以合并为一个VLM进行，目前因为模型能力受限。所以做的过渡组合？

invictus717 commented 6 days ago

不等价，只是Mindsearch的代码在这好调用，可以被任意替换，核心还是VL的描述在搜索图里面迭代，迭代的结果只作为搜索上下文不作为回答结果。
其实可以，流程可以简化，但是我们这个只是research，更进一步的工程优化应该挺多。
用InternLM2主要是代码和MindSearch兼容好弄，以及InternLM2兼容中文好一些。论文方法里面就是一个VLM。用LLM部分来搜索，但是VLM finetune以后会影响纯文本能力，所以代码里面是VLM的LLM和搜索的LLM分开了，原生的VLM可以解决这个问题。

有什么进一步的问题欢迎接着讨论

positive666 commented 6 days ago

感谢解答，空余时间会读下Paper去学习下，另外想请教下 1.vlm 微调这里指的是需要冻结Llm部分吗 2.我自己有一个大模型平台，之前接过Mindsearch作为我的AI搜索应用，但是我觉得还不太成熟，咱们这个目的主要是解决图片搜索的场景吗？还是加深通用场景图像caption的能力？

invictus717 commented 6 days ago

VLM训练Alignment是不冻结LLM的，所以这里会损失纯文本能力；VLM在SFT又训练了LLM，整体而言还是Visual Instruction Tuning,不等价原来的LLM的。
主要是做VL内容或者说VL问题在全网的匹配+总结，实际上这样的搜索是一个用户图片->VLM的文本->网络图片和描述中相似度萃取的过程，实际上就是构建了一个动态的RAG的库，想尝试把VLM当端到端的引擎用

positive666 commented 5 days ago

好的明白感谢解答，另外这个现在有没有通用性，比如只输入文本的网络搜索