Open cssmagic opened 6 months ago
最近几天,魔法哥被 DeepSeek 刷屏了,不得不去体验一番。本来已经对 “百模大战” 审美疲劳了,但测试走到半途,魔法哥突然拍案惊奇——“不得了,要变天!”
如果你也是第一次接触 DeepSeek,那不妨跟着这篇文章,看看这匹新晋黑马凭什么撬动大模型的未来格局。
DeepSeek 的出品公司名为 “深度探索”,背后是一家叫 “幻方” 的量化基金。传说他们为了做 AI 量化交易而囤积了大量算力,顺道做出了一款顶级大模型,颇有些奇幻色彩。
今年一月份,DeepSeek 开源了他们的首个 MoE 大模型;仅仅四个月过后,他们就发布了第二代。除了 MoE(混合专家架构)、千亿参数、开源等亮点,DeepSeek v2 还甩出了两副 “王炸”:
傲视群雄的性能。在各项基准测试中跻身前列,力压一众开源模型甚至闭源模型,直逼 GPT-4。(在下面这张图中,魔法哥加了一些标注:评分高于 DeepSeek 的标绿色,低于 DeepSeek 的标红色,评分相同或无法比较的标灰色。)
不讲武德的价格。基于构架创新大幅降低推理成本,把 API 定价直接打到了竞品的 1/10 甚至 1/100。
好家伙,这是要变天的节奏啊!不过,价格高低暂且不谈,你的性能够强才会选你呀。魔法哥并不迷信这些基准测试,还是要根据自己的需求去体验一番。
DeepSeek 官网提供了网页版的对话助手产品( https://chat.deepseek.com/ ),模型已升级到最新的 v2 版本。这款产品目前还比较简陋,没有多模态能力,对话记录也缺少有效的管理。
不过对魔法哥来说,最关心的还是它的 API 产品。大家登录 DeepSeek 开放平台( https://platform.deepseek.com/ ),就可以获得 10 元的体验额度。
听起来有点寒酸?但实际上根据 DeepSeek 的定价,这 10 元至少相当于 500 万 token。在一个月的体验期内,如果只是自己开发测试的话,这么多额度根本用不完!
接下来,我们创建一个 API Key,一边跑,一边观察 DeepSeek 的各种特性。
DeepSeek v2 的开源版本支持 128k 上下文,不过可能是基于成本考虑,官网的对话助手和 API 暂时只支持 32k。
32k 对于常规的应用开发来说,也算够用了;而且相信 128k 的 API 迟早也会开放。
我们打开 DeepSeek 的官方 API 文档( https://platform.deepseek.com/api-docs/zh-cn/ ),可以看到 DeepSeek 目前只提供了两个核心 API:
在 API 设计上,DeepSeek 与 OpenAI 保持兼容,这一点必须点赞!对使用者和开发者来说,可以充分利用 OpenAI 的强大生态和海量资源。
这里魔法哥也测试了一下 API 兼容性,比如大家常用的 NextChat,可以通过模拟 OpenAI 的方式无缝接入 DeepSeek API:
“Token 利用率” 是魔法哥自创的一个指标,表示模型的 token 与汉字的换算关系。对于国内的 AI 应用开发者来说,这个指标相当重要。(关于这个指标的由来和现状,大家可以参考 这篇文章,本文就不赘述了。)
这里采用一篇 1690 字的散文作为测试素材,记录 DeepSeek 和竞品在这个指标上的表现:
(本环节基于有限的场景和用例,评价极为主观,请谨慎参考。)
魔法哥先翻出了几段用于 GPTs 的提示词,其中包括结构化提示词和多轮对话提示词,在 DeepSeek 官网的对话助手中都能正常使用。这表明 DeepSeek 对复杂指令的理解和执行完全在线。
接着拿出上次测试 Kimi 所用的项目,涉及复杂指令理解、角色扮演、语言处理等多项能力,综合考查 DeepSeek API 在特定的 AI 应用开发场景下的表现。与手边其他几个模型对比,DeepSeek 整体评分靠前,表现不俗。
有性能做保障,再来看价格,就显得更有冲击力了。魔法哥在这里直接放个表格,大家感受一下各家旗舰模型的 API 参考定价:(单位:元 / 百万 token)
上面基本都是夸奖,这里也列举一些魔法哥体验到的不足之处:
风控稳定性。在国内做大模型,风控有很大一部分工作是敏感词过滤,DeepSeek 目前在这方面表现得极为谨慎。用户输入的正常文本也有可能被风控拦截,得到 “Content Exists Risk” 错误。官方人员表示这个问题会持续优化。
推理速度。DeepSeek API 目前的推理速度并不理想,甚至慢于 GPT-4。不知道是不是被风控拖累了。
输出风格。DeepSeek 的生成风格偏话痨,可能是模型在对齐阶段为对话场景做了较多倾斜。然而这对于 AI 应用开发场景就不那么友好了,需要开发者在提示词中应用更多技巧(比如 few-shot)才能达成期望效果。
产品完成度。无论是对话助手还是 API,DeepSeek 的产品还比较简陋。开发者比较关注的 JSON Mode、Function Calling 等功能都没有提供。
本以为 “百模大战” 已经尘埃落定,没想到 DeepSeek 的横空出世,让我们再次感叹 AI 时代的日新月异。
DeepSeek v2 的发布确实让人眼前一亮,它的架构创新、开源格局、性能、价格都令人印象深刻。虽然目前还略显生涩,但相信这匹黑马会持续成长,在 AI 应用开发领域掀起不可逆转的 “性价比风暴”。
魔法哥最近一年都在做 AI 领域的研发和探索,会陆续跟大家分享心得。新朋友请关注公众号,下次更新不迷路:
📣 AI 魔法群开放啦! 对 AI 感兴趣的同学不妨扫码加群,与数百名同好交流分享:
对 AI 感兴趣的同学不妨扫码加群,与数百名同好交流分享:
© Creative Commons BY-NC-ND 4.0 | 我要订阅 | 我要打赏
最近几天,魔法哥被 DeepSeek 刷屏了,不得不去体验一番。本来已经对 “百模大战” 审美疲劳了,但测试走到半途,魔法哥突然拍案惊奇——“不得了,要变天!”
如果你也是第一次接触 DeepSeek,那不妨跟着这篇文章,看看这匹新晋黑马凭什么撬动大模型的未来格局。
晴空炸雷
DeepSeek 的出品公司名为 “深度探索”,背后是一家叫 “幻方” 的量化基金。传说他们为了做 AI 量化交易而囤积了大量算力,顺道做出了一款顶级大模型,颇有些奇幻色彩。
今年一月份,DeepSeek 开源了他们的首个 MoE 大模型;仅仅四个月过后,他们就发布了第二代。除了 MoE(混合专家架构)、千亿参数、开源等亮点,DeepSeek v2 还甩出了两副 “王炸”:
傲视群雄的性能。在各项基准测试中跻身前列,力压一众开源模型甚至闭源模型,直逼 GPT-4。(在下面这张图中,魔法哥加了一些标注:评分高于 DeepSeek 的标绿色,低于 DeepSeek 的标红色,评分相同或无法比较的标灰色。)
不讲武德的价格。基于构架创新大幅降低推理成本,把 API 定价直接打到了竞品的 1/10 甚至 1/100。
好家伙,这是要变天的节奏啊!不过,价格高低暂且不谈,你的性能够强才会选你呀。魔法哥并不迷信这些基准测试,还是要根据自己的需求去体验一番。
体验渠道
DeepSeek 官网提供了网页版的对话助手产品( https://chat.deepseek.com/ ),模型已升级到最新的 v2 版本。这款产品目前还比较简陋,没有多模态能力,对话记录也缺少有效的管理。
不过对魔法哥来说,最关心的还是它的 API 产品。大家登录 DeepSeek 开放平台( https://platform.deepseek.com/ ),就可以获得 10 元的体验额度。
听起来有点寒酸?但实际上根据 DeepSeek 的定价,这 10 元至少相当于 500 万 token。在一个月的体验期内,如果只是自己开发测试的话,这么多额度根本用不完!
接下来,我们创建一个 API Key,一边跑,一边观察 DeepSeek 的各种特性。
上下文长度
DeepSeek v2 的开源版本支持 128k 上下文,不过可能是基于成本考虑,官网的对话助手和 API 暂时只支持 32k。
32k 对于常规的应用开发来说,也算够用了;而且相信 128k 的 API 迟早也会开放。
API 设计与兼容性
我们打开 DeepSeek 的官方 API 文档( https://platform.deepseek.com/api-docs/zh-cn/ ),可以看到 DeepSeek 目前只提供了两个核心 API:
在 API 设计上,DeepSeek 与 OpenAI 保持兼容,这一点必须点赞!对使用者和开发者来说,可以充分利用 OpenAI 的强大生态和海量资源。
这里魔法哥也测试了一下 API 兼容性,比如大家常用的 NextChat,可以通过模拟 OpenAI 的方式无缝接入 DeepSeek API:
Token 利用率
“Token 利用率” 是魔法哥自创的一个指标,表示模型的 token 与汉字的换算关系。对于国内的 AI 应用开发者来说,这个指标相当重要。(关于这个指标的由来和现状,大家可以参考 这篇文章,本文就不赘述了。)
这里采用一篇 1690 字的散文作为测试素材,记录 DeepSeek 和竞品在这个指标上的表现:
性能体验
(本环节基于有限的场景和用例,评价极为主观,请谨慎参考。)
魔法哥先翻出了几段用于 GPTs 的提示词,其中包括结构化提示词和多轮对话提示词,在 DeepSeek 官网的对话助手中都能正常使用。这表明 DeepSeek 对复杂指令的理解和执行完全在线。
接着拿出上次测试 Kimi 所用的项目,涉及复杂指令理解、角色扮演、语言处理等多项能力,综合考查 DeepSeek API 在特定的 AI 应用开发场景下的表现。与手边其他几个模型对比,DeepSeek 整体评分靠前,表现不俗。
价格
有性能做保障,再来看价格,就显得更有冲击力了。魔法哥在这里直接放个表格,大家感受一下各家旗舰模型的 API 参考定价:(单位:元 / 百万 token)
定价
定价
短板
上面基本都是夸奖,这里也列举一些魔法哥体验到的不足之处:
风控稳定性。在国内做大模型,风控有很大一部分工作是敏感词过滤,DeepSeek 目前在这方面表现得极为谨慎。用户输入的正常文本也有可能被风控拦截,得到 “Content Exists Risk” 错误。官方人员表示这个问题会持续优化。
推理速度。DeepSeek API 目前的推理速度并不理想,甚至慢于 GPT-4。不知道是不是被风控拖累了。
输出风格。DeepSeek 的生成风格偏话痨,可能是模型在对齐阶段为对话场景做了较多倾斜。然而这对于 AI 应用开发场景就不那么友好了,需要开发者在提示词中应用更多技巧(比如 few-shot)才能达成期望效果。
产品完成度。无论是对话助手还是 API,DeepSeek 的产品还比较简陋。开发者比较关注的 JSON Mode、Function Calling 等功能都没有提供。
小结
本以为 “百模大战” 已经尘埃落定,没想到 DeepSeek 的横空出世,让我们再次感叹 AI 时代的日新月异。
DeepSeek v2 的发布确实让人眼前一亮,它的架构创新、开源格局、性能、价格都令人印象深刻。虽然目前还略显生涩,但相信这匹黑马会持续成长,在 AI 应用开发领域掀起不可逆转的 “性价比风暴”。
魔法哥最近一年都在做 AI 领域的研发和探索,会陆续跟大家分享心得。新朋友请关注公众号,下次更新不迷路:
🔥 推荐阅读
AI 应用开发指南:
ChatGPT 高级技巧:
AI 资讯与评述:
© Creative Commons BY-NC-ND 4.0 | 我要订阅 | 我要打赏