国产大模型又出黑马！DeepSeek 初体验，价格屠夫大杀四方

最近几天，魔法哥被 DeepSeek 刷屏了，不得不去体验一番。本来已经对 “百模大战” 审美疲劳了，但测试走到半途，魔法哥突然拍案惊奇——“不得了，要变天！”

如果你也是第一次接触 DeepSeek，那不妨跟着这篇文章，看看这匹新晋黑马凭什么撬动大模型的未来格局。

晴空炸雷

DeepSeek 的出品公司名为 “深度探索”，背后是一家叫 “幻方” 的量化基金。传说他们为了做 AI 量化交易而囤积了大量算力，顺道做出了一款顶级大模型，颇有些奇幻色彩。

DeepSeek-logo

今年一月份，DeepSeek 开源了他们的首个 MoE 大模型；仅仅四个月过后，他们就发布了第二代。除了 MoE（混合专家架构）、千亿参数、开源等亮点，DeepSeek v2 还甩出了两副 “王炸”：

傲视群雄的性能。在各项基准测试中跻身前列，力压一众开源模型甚至闭源模型，直逼 GPT-4。（在下面这张图中，魔法哥加了一些标注：评分高于 DeepSeek 的标绿色，低于 DeepSeek 的标红色，评分相同或无法比较的标灰色。）
不讲武德的价格。基于构架创新大幅降低推理成本，把 API 定价直接打到了竞品的 1/10 甚至 1/100。

好家伙，这是要变天的节奏啊！不过，价格高低暂且不谈，你的性能够强才会选你呀。魔法哥并不迷信这些基准测试，还是要根据自己的需求去体验一番。

体验渠道

DeepSeek 官网提供了网页版的对话助手产品（ https://chat.deepseek.com/ ），模型已升级到最新的 v2 版本。这款产品目前还比较简陋，没有多模态能力，对话记录也缺少有效的管理。

不过对魔法哥来说，最关心的还是它的 API 产品。大家登录 DeepSeek 开放平台（ https://platform.deepseek.com/ ），就可以获得 10 元的体验额度。

听起来有点寒酸？但实际上根据 DeepSeek 的定价，这 10 元至少相当于 500 万 token。在一个月的体验期内，如果只是自己开发测试的话，这么多额度根本用不完！

api-key

接下来，我们创建一个 API Key，一边跑，一边观察 DeepSeek 的各种特性。

上下文长度

DeepSeek v2 的开源版本支持 128k 上下文，不过可能是基于成本考虑，官网的对话助手和 API 暂时只支持 32k。

32k 对于常规的应用开发来说，也算够用了；而且相信 128k 的 API 迟早也会开放。

API 设计与兼容性

我们打开 DeepSeek 的官方 API 文档（ https://platform.deepseek.com/api-docs/zh-cn/ ），可以看到 DeepSeek 目前只提供了两个核心 API：

列出可用模型
模型推理（Chat Completion）

在 API 设计上，DeepSeek 与 OpenAI 保持兼容，这一点必须点赞！对使用者和开发者来说，可以充分利用 OpenAI 的强大生态和海量资源。

这里魔法哥也测试了一下 API 兼容性，比如大家常用的 NextChat，可以通过模拟 OpenAI 的方式无缝接入 DeepSeek API：

nextchat

Token 利用率

“Token 利用率” 是魔法哥自创的一个指标，表示模型的 token 与汉字的换算关系。对于国内的 AI 应用开发者来说，这个指标相当重要。（关于这个指标的由来和现状，大家可以参考这篇文章，本文就不赘述了。）

这里采用一篇 1690 字的散文作为测试素材，记录 DeepSeek 和竞品在这个指标上的表现：

模型	Token 数	Token 利用率
GPT-4	2,267	0.75
Kimi	1,203	1.40
Qwen max	1,234	1.37
DeepSeek	1,283	1.32

性能体验

（本环节基于有限的场景和用例，评价极为主观，请谨慎参考。）

魔法哥先翻出了几段用于 GPTs 的提示词，其中包括结构化提示词和多轮对话提示词，在 DeepSeek 官网的对话助手中都能正常使用。这表明 DeepSeek 对复杂指令的理解和执行完全在线。

接着拿出上次测试 Kimi 所用的项目，涉及复杂指令理解、角色扮演、语言处理等多项能力，综合考查 DeepSeek API 在特定的 AI 应用开发场景下的表现。与手边其他几个模型对比，DeepSeek 整体评分靠前，表现不俗。

compare

价格

有性能做保障，再来看价格，就显得更有冲击力了。魔法哥在这里直接放个表格，大家感受一下各家旗舰模型的 API 参考定价：（单位：元 / 百万 token）

厂商	模型	输入定价	输出定价
OpenAI	gpt-4-turbo	72.30	216.90
文心	ERNIE-4.0-8K	120	120
通义千问	qwen-max	120	120
智谱	GLM-4	100	100
Kimi	moonshot-v1-32k	24	24
Kimi	moonshot-v1-8k	12	12
MiniMax	abab6.5	30	30
MiniMax	abab6.5s	10	10
DeepSeek	deepseek-chat (32k)	1	2

短板

上面基本都是夸奖，这里也列举一些魔法哥体验到的不足之处：

风控稳定性。在国内做大模型，风控有很大一部分工作是敏感词过滤，DeepSeek 目前在这方面表现得极为谨慎。用户输入的正常文本也有可能被风控拦截，得到 “Content Exists Risk” 错误。官方人员表示这个问题会持续优化。
推理速度。DeepSeek API 目前的推理速度并不理想，甚至慢于 GPT-4。不知道是不是被风控拖累了。
输出风格。DeepSeek 的生成风格偏话痨，可能是模型在对齐阶段为对话场景做了较多倾斜。然而这对于 AI 应用开发场景就不那么友好了，需要开发者在提示词中应用更多技巧（比如 few-shot）才能达成期望效果。
产品完成度。无论是对话助手还是 API，DeepSeek 的产品还比较简陋。开发者比较关注的 JSON Mode、Function Calling 等功能都没有提供。

小结

本以为 “百模大战” 已经尘埃落定，没想到 DeepSeek 的横空出世，让我们再次感叹 AI 时代的日新月异。

DeepSeek v2 的发布确实让人眼前一亮，它的架构创新、开源格局、性能、价格都令人印象深刻。虽然目前还略显生涩，但相信这匹黑马会持续成长，在 AI 应用开发领域掀起不可逆转的 “性价比风暴”。

魔法哥最近一年都在做 AI 领域的研发和探索，会陆续跟大家分享心得。新朋友请关注公众号，下次更新不迷路：

weixin-qrcode

📣 AI 魔法群开放啦！

对 AI 感兴趣的同学不妨扫码加群，与数百名同好交流分享：

cssmagic / blog