gpt-4v等多模态模型的应用在通过API访问时，传入 base64 图片后请求报错

labring / FastGPT

FastGPT is a knowledge-based platform built on the LLMs, offers a comprehensive suite of out-of-the-box capabilities such as data processing, RAG retrieval, and visual AI workflow orchestration, letting you easily develop and deploy complex question-answering systems without the need for extensive setup or configuration.

https://fastgpt.in

Other

16.93k stars 4.52k forks source link

gpt-4v等多模态模型的应用在通过API访问时，传入 base64 图片后请求报错 #1217

Closed dimsky closed 4 months ago

dimsky commented 5 months ago

例行检查

[x] 我已确认目前没有类似 issue
[x] 我已完整查看过项目 README，以及项目文档
[x] 我使用了自己的 key，并确认我的 key 是可正常使用的
[x] 我理解并愿意跟进此 issue，协助测试和提供反馈
[x] 我理解并认可上述内容，并理解项目维护者精力有限，不遵循规则的 issue 可能会被无视或直接关闭

你的版本

[ ] 公有云版本
[x] 私有部署版本, 具体版本号:

问题描述 gpt-4v等多模态模型的应用在通过API访问时，传入 base64 图片后请求报错 复现步骤 创建一个使用多模态模型的应用，开放 api 访问，调用 api 接口时，传入base64格式图片就会报错

{
  "code": 500,
  "statusText": "",
  "message": "Invalid image URL. The URL must be a valid HTTP or HTTPS URL, or a data URL with base64 encoding. (request id: 202404160948162678857969870251)",
  "data": null
}

预期结果 正常返回 result

相关截图

zhjygit commented 4 months ago

我的一个需求是：大模型+本低知识库，构建了文本类型的查询和处理；是否能够大模型+图片，将本地的图片给大模型，再让大模型去处理（如文生图、图生网页等等）。fastGPT貌似不支持图片上传。那么您是如何在fastGPT中调用api接口呢？能否在高级编排中实现本地图片上传，大模型去处理图片，生成新的图片或将图片使用base64编码并生成一个单文件的html网页？

dimsky commented 4 months ago

我的一个需求是：大模型+本低知识库，构建了文本类型的查询和处理；是否能够大模型+图片，将本地的图片给大模型，再让大模型去处理（如文生图、图生网页等等）。fastGPT貌似不支持图片上传。那么您是如何在fastGPT中调用api接口呢？能否在高级编排中实现本地图片上传，大模型去处理图片，生成新的图片或将图片使用base64编码并生成一个单文件的html网页？

目前大多数通用大模型都无法直接生成图片，需要借助 Midjourney、DALL-E 2 这类工具实现，或者通过 markdown 引用图片链接的方式输出图片。
fastgpt 支持 gpt-4v、 claude3 等多模态模型，需要在模型的配置中开启 vision: true，这样在输入框前面会出现图片上传的按钮。

zhjygit commented 4 months ago

好的，感谢。

ifkd111 commented 3 months ago

我的一个需求是：大模型+本低知识库，构建了文本类型的查询和处理；是否能够大模型+图片，将本地的图片给大模型，然后让大模型去处理（如文生图、图） fastGPT模块不支持图片上传。那么您是如何在fastGPT中api接口呢？能否在高级编排中实现本地图片上传，大模型处理图片，生成新的图片或将图片使用base64编码并生成一个单文件的html网页？

目前大多数通用大模型都无法直接生成图片，需要借助 Midjourney、DALL-E 2 这类工具实现，或者通过 markdown 引用图片链接的方式输出图片。

fastgpt支持gpt-4v、claude3等多模态模型，需要在模型的配置中开启vision: true，这样在前面的输入框会出现图片上传的按钮。我用ollama开了llava，然后用oneapi链入fastgpt，图片还是识别不出

ifkd111 commented 3 months ago

我的一个需求是：大模型+本低知识库，构建了文本类型的查询和处理；是否能够大模型+图片，将本地的图片给大模型，再让大模型去处理（如文生图、图生网页等等）。fastGPT貌似不支持图片上传。那么您是如何在fastGPT中调用api接口呢？能否在高级编排中实现本地图片上传，大模型去处理图片，生成新的图片或将图片使用base64编码并生成一个单文件的html网页？

目前大多数通用大模型都无法直接生成图片，需要借助 Midjourney、DALL-E 2 这类工具实现，或者通过 markdown 引用图片链接的方式输出图片。

fastgpt 支持 gpt-4v、 claude3 等多模态模型，需要在模型的配置中开启 vision: true，这样在输入框前面会出现图片上传的按钮。

亲，我用ollama跑了个llava，然后连了oneapi接fastgpt，但是图片上传后提示报错，vision: true也改了，球球大神教教吧，小白，想学

13829386012 commented 3 months ago

我的一个需求是：大模型+本低知识库，构建了文本类型的查询和处理；是否能够大模型+图片，将本地的图片给大模型，再让大模型去处理（如文生图、图生网页等等）。fastGPT貌似不支持图片上传。那么您是如何在fastGPT中调用api接口呢？能否在高级编排中实现本地图片上传，大模型去处理图片，生成新的图片或将图片使用base64编码并生成一个单文件的html网页？

目前大多数通用大模型都无法直接生成图片，需要借助 Midjourney、DALL-E 2 这类工具实现，或者通过 markdown 引用图片链接的方式输出图片。

fastgpt 支持 gpt-4v、 claude3 等多模态模型，需要在模型的配置中开启 vision: true，这样在输入框前面会出现图片上传的按钮。

亲，我用ollama跑了个llava，然后连了oneapi接fastgpt，但是图片上传后提示报错，vision: true也改了，球球大神教教吧，小白，想学

遇到同样的问题，请问有解决吗？

ifkd111 commented 3 months ago

我的一个需求是：大模型+本低知识库，构建了文本类型的查询和处理；是否能够大模型+图片，将本地的图片给大模型，再让大模型去处理（如文生图、图生网页等等）。fastGPT貌似不支持图片上传。那么您是如何在fastGPT中调用api接口呢？能否在高级编排中实现本地图片上传，大模型去处理图片，生成新的图片或将图片使用base64编码并生成一个单文件的html网页？

目前大多数通用大模型都无法直接生成图片，需要借助 Midjourney、DALL-E 2 这类工具实现，或者通过 markdown 引用图片链接的方式输出图片。

fastgpt 支持 gpt-4v、 claude3 等多模态模型，需要在模型的配置中开启 vision: true，这样在输入框前面会出现图片上传的按钮。

亲，我用ollama跑了个llava，然后连了oneapi接fastgpt，但是图片上传后提示报错，vision: true也改了，球球大神教教吧，小白，想学

遇到同样的问题，请问有解决吗？

并没有~