binary-husky / gpt_academic

为GPT/GLM等LLM大语言模型提供实用化交互接口,特别优化论文阅读/润色/写作体验,模块化设计,支持自定义快捷按钮&函数插件,支持Python和C++等项目剖析&自译解功能,PDF/LaTex论文翻译&总结功能,支持并行问询多种LLM模型,支持chatglm3等本地模型。接入通义千问, deepseekcoder, 讯飞星火, 文心一言, llama2, rwkv, claude2, moss等。
https://github.com/binary-husky/gpt_academic/wiki/online
GNU General Public License v3.0
65.69k stars 8.07k forks source link

[Feature]: 完善 OpenAI vision 相关接口,并将 gpt-4-turbo 从临时方案切换过去 #1707

Closed awwaawwa closed 2 months ago

awwaawwa commented 7 months ago

Class | 类型

大语言模型

Feature Request | 功能请求

根据 https://github.com/binary-husky/gpt_academic/pull/1698#issuecomment-2049372497 ,当前 OpenAI vision 模型相关接口实现存在以下几点问题:

  1. predict_no_ui_long_connection 暂未实现(或许没有必要?暂时应该是没有插件需要用vision能力吧)
  2. predict 强制要求上传图片
  3. predict 仅支持单轮对话

有必要完善相关接口并将 gpt-4-turbo 从临时方案切换过去。

awwaawwa commented 6 months ago

4o也出来了,本 issue 是否应扩展为:完善 OpenAI 多模态相关接口,并预留 audio 相关接口?

tzcskys commented 6 months ago

+1,“GPT-4o is 50% cheaper than GPT-4 Turbo”,“It has better vision capabilities and improved support for non-English languages ”,没有audio等其他接口可以后续慢慢考虑,但API价格降低50%以及更好的非英语(如中文)的支持会带来很大的提升。

awwaawwa commented 6 months ago

目前 gpt-4o 的初步支持已在 #1760 合入主线

XiaolongYang-HZAU commented 5 months ago

目前gpt-4o和turbo还不支持识图是吗

JinchaoLove commented 2 months ago

同问

目前gpt-4o和turbo还不支持识图是吗

awwaawwa commented 2 months ago

应该在 https://github.com/binary-husky/gpt_academic/commit/7de6015800d2d4de5f626dd3a278356db3292779 提交之后 gpt-4o 就支持识图了,代码详见: bridge_chatgpt.pybridge_all.py

测试效果如下图所示: CleanShot 2024-08-22 at 17 00 50@2x

JinchaoLove commented 2 months ago

非常感谢~

用Azure的朋友可以在bridge_all.py里面新加一个自定义的模型,比如:


    "azure-gpt-4o":{
        "fn_with_ui": chatgpt_ui,
        "fn_without_ui": chatgpt_noui,
        "has_multimodal_capacity": True,
        "endpoint": azure_endpoint,
        "max_token": 8192,
        "tokenizer": tokenizer_gpt4,
        "token_cnt": get_token_num_gpt4,
    },