flyun / chatAir

☁️A native Android app for ChatGPT, Gemini, and Claude ☁️ChatGPT、Gemini 和 Claude 的原生安卓应用程序
GNU General Public License v3.0
413 stars 23 forks source link

Vision模型不一定每次发送消息都要带图 #6

Open XMWML opened 5 months ago

XMWML commented 5 months ago

在这个客户端用Vision模型每次发送消息都要带图,但其实不一定每一条消息都要带图,建议在使用vision模型时也允许输入框输入发送文字消息

Lianjiangwuli commented 5 months ago

确实有这个需求,希望这个建议能被采纳

flyun commented 4 months ago

后续会进行修改

Linon419 commented 1 month ago

这个确实,现在的方案有点不方便

flyun commented 1 month ago

初步改进方案: 1.如果模型不支持图片和文本上下文,将图片识别后的文本和其他文本作为上下文传递给模型。 2.如果模型支持图片和文本上下文,将图片和文本作为上下文传递给模型。

这样就会在支持上下文的模型中,显示图片上传功能,以及输入框。并且也可以在图片模型只输入文本,而不需要发送图片。

muhanstudio commented 2 weeks ago

初步改进方案: 1.如果模型不支持图片和文本上下文,将图片识别后的文本和其他文本作为上下文传递给模型。 2.如果模型支持图片和文本上下文,将图片和文本作为上下文传递给模型。

这样就会在支持上下文的模型中,显示图片上传功能,以及输入框。并且也可以在图片模型只输入文本,而不需要发送图片。

个人觉得其实没必要为不支持图片的模型进行文本识别,会引入OCR这种额外的模块,使得软件变得臃肿,然后识别效果和模型体验也不是很好,对于不支持图片的模型,可以直接不发送图片,只发送文本,截断所有图片有关的内容,把更多的精力放在支持视觉的模型的连续对话上,有更多的现成项目可以参考,而不必额外去引入OCR来进行重新的对话内容修改,反而就会造成很多麻烦

flyun commented 2 weeks ago

初步改进方案: 1.如果模型不支持图片和文本上下文,将图片识别后的文本和其他文本作为上下文传递给模型。 2.如果模型支持图片和文本上下文,将图片和文本作为上下文传递给模型。 这样就会在支持上下文的模型中,显示图片上传功能,以及输入框。并且也可以在图片模型只输入文本,而不需要发送图片。

个人觉得其实没必要为不支持图片的模型进行文本识别,会引入OCR这种额外的模块,使得软件变得臃肿,然后识别效果和模型体验也不是很好,对于不支持图片的模型,可以直接不发送图片,只发送文本,截断所有图片有关的内容,把更多的精力放在支持视觉的模型的连续对话上,有更多的现成项目可以参考,而不必额外去引入OCR来进行重新的对话内容修改,反而就会造成很多麻烦

可能我表述的不清楚,现在的方案就是按照你的那种开发的