如何使用 Gemini 1.5 Pro ？

Cp0204 commented 7 months ago

大佬你好，现在的模型好像是全列出来，都是使用 gemini-pro

而隔壁 https://github.com/zhu327/gemini-openai-proxy 做了模型的映射，感觉这样操作比较清晰，能不能参考，例如：

gpt-3.5-turbo -> gemini-1.0-pro-latest gpt-4 -> gemini-1.0-ultra-latest gpt-4-turbo-preview -> gemini-1.5-pro-latest gpt-4-vision-preview -> gemini-1.0-pro-vision-latest

zuisong commented 7 months ago

gpt-4-vision-preview -> gemini-1.0-pro-vision-latest 目前 gemini-1.0-pro-vision 模型映射目前是自动的， api请求里带有图片就会自动使用 gemini-pro-vision 模型

后面三个很快就会支持了

zuisong commented 7 months ago

https://www.reddit.com/r/GoogleGeminiAI/comments/1b5uq8s/when_is_gemini_10_ultra_api_releasing/

gemini-ultra 的 api 好像没有公开暂时就没有支持 gemini-ultra 的映射

Cp0204 commented 7 months ago

https://www.reddit.com/r/GoogleGeminiAI/comments/1b5uq8s/when_is_gemini_10_ultra_api_releasing/

gemini-ultra 的 api 好像没有公开暂时就没有支持 gemini-ultra 的映射

好棒，ultra 应该是用不了，我实测用zhu327的 gpt-4 -> gemini-1.0-ultra-latest 不能输出

gemini-1.5-pro-latest 比 1.0 聪明不少，某些场景甚至感觉在 chatgpt3.5 之上。

Cp0204 commented 7 months ago

gpt-4-vision-preview -> gemini-1.0-pro-vision-latest 目前 gemini-1.0-pro-vision 模型映射目前是自动的， api请求里带有图片就会自动使用 gemini-pro-vision 模型

后面三个很快就会支持了

另外 gemini-1.5-pro-latest 也是多模态哦，用 gemini-pro-vision 不如用 gemini-1.5-pro-latest ，gemini-pro-vision不支持多轮对话，gemini-1.5-pro-latest 支持。

发现即使映射了gpt-4-turbo-preview，但是/v1/models 没列出，在 sider.ai 先检查 models 的就用不了， 😂 关于模型映射我还有一些想法，大佬看合不合适。

一、模型映射

根据 gemini 和 gpt 的进化关系，建议使用以下映射关系

gpt-3.5-turbo -> gemini-1.0-pro-latest （包含其他所有gpt-3.5-* ）
gpt-4-vision-preview -> gemini-1.0-pro-vision-latest
gpt-4-turbo -> gemini-1.5-pro-latest（除了 gpt-4-vision-preview ，包含其他所有gpt-4-* ）

二、取消带图片就自动切换模型

现在有了 gemini-1.5-pro-latest ，又想对话又想识别图片，就用 1.5

开发/使用人员应该知道哪个模型支持图片，哪个不支持，正确选用支持多模的模型，用错就报错，不然容易混淆。

三、/v1/models 请求中，只列举【一】中的三个模型

gpt-3.5-turbo
gpt-4-vision-preview
gpt-4-turbo

列多了也没有意义，其他微调模型可以做兼容处理，即自定义 API 时请求时可以兼容，但客户端检查时不多列举出来，这样更清晰明确些。

参考资料

https://platform.openai.com/docs/models

谢谢大佬！

zuisong commented 7 months ago

嗯嗯嗯很不错的建议很快就会实现这些

zuisong / gemini-openai-proxy