[Feature]: 完善 OpenAI vision 相关接口，并将 gpt-4-turbo 从临时方案切换过去

binary-husky / gpt_academic

为GPT/GLM等LLM大语言模型提供实用化交互接口，特别优化论文阅读/润色/写作体验，模块化设计，支持自定义快捷按钮&函数插件，支持Python和C++等项目剖析&自译解功能，PDF/LaTex论文翻译&总结功能，支持并行问询多种LLM模型，支持chatglm3等本地模型。接入通义千问, deepseekcoder, 讯飞星火, 文心一言, llama2, rwkv, claude2, moss等。

https://github.com/binary-husky/gpt_academic/wiki/online

GNU General Public License v3.0

65.69k stars 8.07k forks source link

[Feature]: 完善 OpenAI vision 相关接口，并将 gpt-4-turbo 从临时方案切换过去 #1707

Closed awwaawwa closed 2 months ago

awwaawwa commented 7 months ago

Class | 类型

大语言模型

Feature Request | 功能请求

根据 https://github.com/binary-husky/gpt_academic/pull/1698#issuecomment-2049372497 ，当前 OpenAI vision 模型相关接口实现存在以下几点问题：

predict_no_ui_long_connection 暂未实现（或许没有必要？暂时应该是没有插件需要用vision能力吧）
predict 强制要求上传图片
predict 仅支持单轮对话

有必要完善相关接口并将 gpt-4-turbo 从临时方案切换过去。

awwaawwa commented 6 months ago

4o也出来了，本 issue 是否应扩展为：完善 OpenAI 多模态相关接口，并预留 audio 相关接口？

tzcskys commented 6 months ago

+1，“GPT-4o is 50% cheaper than GPT-4 Turbo”，“It has better vision capabilities and improved support for non-English languages ”，没有audio等其他接口可以后续慢慢考虑，但API价格降低50%以及更好的非英语（如中文）的支持会带来很大的提升。

awwaawwa commented 6 months ago

目前 gpt-4o 的初步支持已在 #1760 合入主线

XiaolongYang-HZAU commented 5 months ago

目前gpt-4o和turbo还不支持识图是吗

JinchaoLove commented 2 months ago

同问

目前gpt-4o和turbo还不支持识图是吗

awwaawwa commented 2 months ago

应该在 https://github.com/binary-husky/gpt_academic/commit/7de6015800d2d4de5f626dd3a278356db3292779 提交之后 gpt-4o 就支持识图了，代码详见: bridge_chatgpt.py 和 bridge_all.py。

测试效果如下图所示： CleanShot 2024-08-22 at 17 00 50@2x

JinchaoLove commented 2 months ago

非常感谢~

用Azure的朋友可以在bridge_all.py里面新加一个自定义的模型，比如：


    "azure-gpt-4o":{
        "fn_with_ui": chatgpt_ui,
        "fn_without_ui": chatgpt_noui,
        "has_multimodal_capacity": True,
        "endpoint": azure_endpoint,
        "max_token": 8192,
        "tokenizer": tokenizer_gpt4,
        "token_cnt": get_token_num_gpt4,
    },