Open cssmagic opened 4 weeks ago
魔法哥的新书 《AI 辅助编程入门》 已经上架了!从本期开始,公众号将节选书中的部分章节,分享更多关于 “AI 辅助编程” 和 “LLM 应用开发” 的心得与技巧。
对于 2024 年及之后的 LLM 应用开发者来说,可供选择的大模型 API 已经相当丰富了。
但是,当我们启动一个实际项目的时候,究竟该选择哪一款大模型作为 AI 引擎呢?
魔法哥在这里分享一年多来打造多款 AI 应用所积累的实战经验,适合编程初学者、个人开发者和小型团队进行参考——在立项阶段,选用最顶级的模型做论证;在落地阶段,适当降级并优先选用国产大模型,同时考虑其他因素。
接下来我们一一展开说明。
在立项阶段选用顶级模型,可以对当前 LLM 的能力上限建立准确认知,可以快递判断当前场景引入 LLM 的可行性。拿到这个认知,可以让我们更好地规划技术方案和产品路线,进而更好地评估项目的风险和收益。
哪些模型算是顶级模型呢?我们可以参考知名的 LLM 基准测试排行榜,比如 AlignBench、MMLU、GSM8K、MATH、BBH、HumanEval 等等。读者可以根据自己的业务场景选择相关性较高的排行榜进行参考。
在绝大多数场景下,OpenAI 的 GPT-4o 模型(在本文撰写时)都是立项阶段的首选。GPT-4o 发布于 2024 年 5 月,在多项基准测试中表现优异,是当前最顶级的大模型之一。GPT-4o 在上一代旗舰模型 GPT-4 的基础上,提供了翻倍的推理速度和减半的价格,成为事实上的行业标杆。
对于个人开发者来说,通过 OpenAI 官网或微软 Azure 云服务访问 GPT-4o 的 API 服务会遇到不少门槛,此时可以考虑 API2D 这样的大模型 API 聚合平台,也可以参考往期文章中介绍的 GitHub Models 平台。
在落地阶段,我们需要考虑项目的长期可持续性。顶级模型的定价通常会更高一些,相对来说 “性价比” 并不理想。从实用的角度出发,我们在给定场景下选择性能够用的模型就好。
因此,当我们的项目基于 GPT-4o 这样的顶级模型跑通之后,可以尝试换用性价比更高的第二梯队模型,通过打磨系统提示词的方式来获得接近顶级模型的效果。(打磨系统提示词的具体方法可以本系列的后续文章。)
优秀的国产大模型不断涌现,它们的性能已经逐渐逼近海外的顶级模型;在一些特定场景下,国产大模型的表现甚至已经反超。
在这样的背景下,当你的产品需要在国内正式落地时,国产大模型无疑将是你的首选。
大模型 API 通常是以 “token 数” 作为计价单位。有些模型厂商对输入 token 和输出 token 采用统一的定价标准,而有些厂商则会分别定价(通常输出 token 的定价标准会高于输入 token)——在这种情况下,你需要根据自己的实际调用情况来换算价格以便相互对比。模型的价格也不是越低越好,性能不够的模型即使白送也不敢用,我们需要结合性能因素综合考量。
这是一个非常重要的指标,尤其在对话场景下,推理速度过慢会影响用户体验。另外,推理速度在一定程度上也反映了模型厂商的硬件负载能力和运营实力。
模型所能处理输入 + 输出的 token 数量总和称为 “上下文窗口”。(更详细的解释可以参考本系列的后续文章。)
OpenAI 作为全球 LLM 浪潮的引领者,已经成为事实上的行业标准。开源社区内海量的 LLM 开发资源几乎都是基于 OpenAI 的 API 协议来构建的。因此,我们通常会优先选择那些兼容 OpenAI API 的大模型,比如国产大模型 Kimi(Moonshot)、DeepSeek、零一万物、MiniMax 等。
这个指标在开发阶段容易被人忽视,但是在生产环境却是非常重要的。在正式上线前,我们需要根据业务场景和用户规模进行评估和测试,避免因为 API 频率限制而导致的服务瘫痪。
读到这里,相信大家对于如何选择 LLM 模型有了更清晰的认识。在这个系列的后续文章中,我们将继续探讨 LLM 应用开发的其他细节,比如 如何打磨系统提示词、配置 LLM API 参数、探究 API 的返回数据等等。各位新朋友请关注公众号,下次更新不迷路:
更多精彩请关注魔法哥的新书《AI 辅助编程入门》。这本书面向编程初学者,力求让没有编程经验的读者也能在 AI 编程工具的协助下,轻松点亮编程技能树,把自己心中的创意变为现实!
目前正遇上双十一,京东自营全网底价,正是入手的好时机。
如果你想收藏一本魔法哥亲笔签名的纸质书,长按识别下图的小程序码,即可下单。选择 “豪华版” 还可以定制赠言哦!
感谢支持,祝阅读愉快!
📣 AI 魔法群开放啦! 扫码加群,领取魔法哥整理的常用 AI 工具包:
扫码加群,领取魔法哥整理的常用 AI 工具包:
© Creative Commons BY-NC-ND 4.0 | 我要订阅 | 我要打赏
魔法哥的新书 《AI 辅助编程入门》 已经上架了!从本期开始,公众号将节选书中的部分章节,分享更多关于 “AI 辅助编程” 和 “LLM 应用开发” 的心得与技巧。
抛出问题
对于 2024 年及之后的 LLM 应用开发者来说,可供选择的大模型 API 已经相当丰富了。
但是,当我们启动一个实际项目的时候,究竟该选择哪一款大模型作为 AI 引擎呢?
魔法哥在这里分享一年多来打造多款 AI 应用所积累的实战经验,适合编程初学者、个人开发者和小型团队进行参考——在立项阶段,选用最顶级的模型做论证;在落地阶段,适当降级并优先选用国产大模型,同时考虑其他因素。
接下来我们一一展开说明。
一、立项阶段
在立项阶段选用顶级模型,可以对当前 LLM 的能力上限建立准确认知,可以快递判断当前场景引入 LLM 的可行性。拿到这个认知,可以让我们更好地规划技术方案和产品路线,进而更好地评估项目的风险和收益。
哪些模型算是顶级模型呢?我们可以参考知名的 LLM 基准测试排行榜,比如 AlignBench、MMLU、GSM8K、MATH、BBH、HumanEval 等等。读者可以根据自己的业务场景选择相关性较高的排行榜进行参考。
在绝大多数场景下,OpenAI 的 GPT-4o 模型(在本文撰写时)都是立项阶段的首选。GPT-4o 发布于 2024 年 5 月,在多项基准测试中表现优异,是当前最顶级的大模型之一。GPT-4o 在上一代旗舰模型 GPT-4 的基础上,提供了翻倍的推理速度和减半的价格,成为事实上的行业标杆。
对于个人开发者来说,通过 OpenAI 官网或微软 Azure 云服务访问 GPT-4o 的 API 服务会遇到不少门槛,此时可以考虑 API2D 这样的大模型 API 聚合平台,也可以参考往期文章中介绍的 GitHub Models 平台。
二、落地阶段
在落地阶段,我们需要考虑项目的长期可持续性。顶级模型的定价通常会更高一些,相对来说 “性价比” 并不理想。从实用的角度出发,我们在给定场景下选择性能够用的模型就好。
因此,当我们的项目基于 GPT-4o 这样的顶级模型跑通之后,可以尝试换用性价比更高的第二梯队模型,通过打磨系统提示词的方式来获得接近顶级模型的效果。(打磨系统提示词的具体方法可以本系列的后续文章。)
三、国产大模型
优秀的国产大模型不断涌现,它们的性能已经逐渐逼近海外的顶级模型;在一些特定场景下,国产大模型的表现甚至已经反超。
在这样的背景下,当你的产品需要在国内正式落地时,国产大模型无疑将是你的首选。
四、考虑其他因素
价格
大模型 API 通常是以 “token 数” 作为计价单位。有些模型厂商对输入 token 和输出 token 采用统一的定价标准,而有些厂商则会分别定价(通常输出 token 的定价标准会高于输入 token)——在这种情况下,你需要根据自己的实际调用情况来换算价格以便相互对比。模型的价格也不是越低越好,性能不够的模型即使白送也不敢用,我们需要结合性能因素综合考量。
推理速度
这是一个非常重要的指标,尤其在对话场景下,推理速度过慢会影响用户体验。另外,推理速度在一定程度上也反映了模型厂商的硬件负载能力和运营实力。
上下文窗口
模型所能处理输入 + 输出的 token 数量总和称为 “上下文窗口”。(更详细的解释可以参考本系列的后续文章。)
API 协议
OpenAI 作为全球 LLM 浪潮的引领者,已经成为事实上的行业标准。开源社区内海量的 LLM 开发资源几乎都是基于 OpenAI 的 API 协议来构建的。因此,我们通常会优先选择那些兼容 OpenAI API 的大模型,比如国产大模型 Kimi(Moonshot)、DeepSeek、零一万物、MiniMax 等。
调用频率限制
这个指标在开发阶段容易被人忽视,但是在生产环境却是非常重要的。在正式上线前,我们需要根据业务场景和用户规模进行评估和测试,避免因为 API 频率限制而导致的服务瘫痪。
小结
读到这里,相信大家对于如何选择 LLM 模型有了更清晰的认识。在这个系列的后续文章中,我们将继续探讨 LLM 应用开发的其他细节,比如 如何打磨系统提示词、配置 LLM API 参数、探究 API 的返回数据等等。各位新朋友请关注公众号,下次更新不迷路:
更多精彩请关注魔法哥的新书《AI 辅助编程入门》。这本书面向编程初学者,力求让没有编程经验的读者也能在 AI 编程工具的协助下,轻松点亮编程技能树,把自己心中的创意变为现实!
目前正遇上双十一,京东自营全网底价,正是入手的好时机。
如果你想收藏一本魔法哥亲笔签名的纸质书,长按识别下图的小程序码,即可下单。选择 “豪华版” 还可以定制赠言哦!
感谢支持,祝阅读愉快!
🔥 往期推荐
AI 应用开发指南:
ChatGPT 高级技巧:
AI 资讯与评述:
© Creative Commons BY-NC-ND 4.0 | 我要订阅 | 我要打赏