Vision模型不一定每次发送消息都要带图

flyun / chatAir

☁️A native Android app for ChatGPT, Gemini, and Claude ☁️ChatGPT、Gemini 和 Claude 的原生安卓应用程序

GNU General Public License v3.0

413 stars 23 forks source link

初步改进方案： 1.如果模型不支持图片和文本上下文，将图片识别后的文本和其他文本作为上下文传递给模型。 2.如果模型支持图片和文本上下文，将图片和文本作为上下文传递给模型。

这样就会在支持上下文的模型中，显示图片上传功能，以及输入框。并且也可以在图片模型只输入文本，而不需要发送图片。

个人觉得其实没必要为不支持图片的模型进行文本识别，会引入OCR这种额外的模块，使得软件变得臃肿，然后识别效果和模型体验也不是很好，对于不支持图片的模型，可以直接不发送图片，只发送文本，截断所有图片有关的内容，把更多的精力放在支持视觉的模型的连续对话上，有更多的现成项目可以参考，而不必额外去引入OCR来进行重新的对话内容修改，反而就会造成很多麻烦

初步改进方案： 1.如果模型不支持图片和文本上下文，将图片识别后的文本和其他文本作为上下文传递给模型。 2.如果模型支持图片和文本上下文，将图片和文本作为上下文传递给模型。这样就会在支持上下文的模型中，显示图片上传功能，以及输入框。并且也可以在图片模型只输入文本，而不需要发送图片。

个人觉得其实没必要为不支持图片的模型进行文本识别，会引入OCR这种额外的模块，使得软件变得臃肿，然后识别效果和模型体验也不是很好，对于不支持图片的模型，可以直接不发送图片，只发送文本，截断所有图片有关的内容，把更多的精力放在支持视觉的模型的连续对话上，有更多的现成项目可以参考，而不必额外去引入OCR来进行重新的对话内容修改，反而就会造成很多麻烦

可能我表述的不清楚，现在的方案就是按照你的那种开发的

flyun / chatAir

Vision模型不一定每次发送消息都要带图 #6