cssmagic / blog

CSS魔法 - 博客
http://blog.cssmagic.net/
2.8k stars 274 forks source link

国产大模型又出黑马!DeepSeek 初体验,价格屠夫大杀四方 #124

Open cssmagic opened 6 months ago

cssmagic commented 6 months ago

最近几天,魔法哥被 DeepSeek 刷屏了,不得不去体验一番。本来已经对 “百模大战” 审美疲劳了,但测试走到半途,魔法哥突然拍案惊奇——“不得了,要变天!”

如果你也是第一次接触 DeepSeek,那不妨跟着这篇文章,看看这匹新晋黑马凭什么撬动大模型的未来格局。

晴空炸雷

DeepSeek 的出品公司名为 “深度探索”,背后是一家叫 “幻方” 的量化基金。传说他们为了做 AI 量化交易而囤积了大量算力,顺道做出了一款顶级大模型,颇有些奇幻色彩。

DeepSeek-logo

今年一月份,DeepSeek 开源了他们的首个 MoE 大模型;仅仅四个月过后,他们就发布了第二代。除了 MoE(混合专家架构)、千亿参数、开源等亮点,DeepSeek v2 还甩出了两副 “王炸”:

好家伙,这是要变天的节奏啊!不过,价格高低暂且不谈,你的性能够强才会选你呀。魔法哥并不迷信这些基准测试,还是要根据自己的需求去体验一番

体验渠道

DeepSeek 官网提供了网页版的对话助手产品( https://chat.deepseek.com/ ),模型已升级到最新的 v2 版本。这款产品目前还比较简陋,没有多模态能力,对话记录也缺少有效的管理。

不过对魔法哥来说,最关心的还是它的 API 产品。大家登录 DeepSeek 开放平台( https://platform.deepseek.com/ ),就可以获得 10 元的体验额度。

听起来有点寒酸?但实际上根据 DeepSeek 的定价,这 10 元至少相当于 500 万 token。在一个月的体验期内,如果只是自己开发测试的话,这么多额度根本用不完

api-key

接下来,我们创建一个 API Key,一边跑,一边观察 DeepSeek 的各种特性。

上下文长度

DeepSeek v2 的开源版本支持 128k 上下文,不过可能是基于成本考虑,官网的对话助手和 API 暂时只支持 32k。

32k 对于常规的应用开发来说,也算够用了;而且相信 128k 的 API 迟早也会开放。

API 设计与兼容性

我们打开 DeepSeek 的官方 API 文档( https://platform.deepseek.com/api-docs/zh-cn/ ),可以看到 DeepSeek 目前只提供了两个核心 API:

在 API 设计上,DeepSeek 与 OpenAI 保持兼容,这一点必须点赞!对使用者和开发者来说,可以充分利用 OpenAI 的强大生态和海量资源。

这里魔法哥也测试了一下 API 兼容性,比如大家常用的 NextChat,可以通过模拟 OpenAI 的方式无缝接入 DeepSeek API:

nextchat

Token 利用率

“Token 利用率” 是魔法哥自创的一个指标,表示模型的 token 与汉字的换算关系。对于国内的 AI 应用开发者来说,这个指标相当重要。(关于这个指标的由来和现状,大家可以参考 这篇文章,本文就不赘述了。)

这里采用一篇 1690 字的散文作为测试素材,记录 DeepSeek 和竞品在这个指标上的表现:

模型 Token 数 Token 利用率
GPT-4 2,267 0.75
Kimi 1,203 1.40
Qwen max 1,234 1.37
DeepSeek 1,283 1.32

性能体验

(本环节基于有限的场景和用例,评价极为主观,请谨慎参考。)

魔法哥先翻出了几段用于 GPTs 的提示词,其中包括结构化提示词和多轮对话提示词,在 DeepSeek 官网的对话助手中都能正常使用。这表明 DeepSeek 对复杂指令的理解和执行完全在线。

接着拿出上次测试 Kimi 所用的项目,涉及复杂指令理解、角色扮演、语言处理等多项能力,综合考查 DeepSeek API 在特定的 AI 应用开发场景下的表现。与手边其他几个模型对比,DeepSeek 整体评分靠前,表现不俗

compare

价格

有性能做保障,再来看价格,就显得更有冲击力了。魔法哥在这里直接放个表格,大家感受一下各家旗舰模型的 API 参考定价:(单位:元 / 百万 token)

厂商 模型 输入
定价
输出
定价
OpenAI gpt-4-turbo 72.30 216.90
文心 ERNIE-4.0-8K 120 120
通义千问 qwen-max 120 120
智谱 GLM-4 100 100
Kimi moonshot-v1-32k 24 24
Kimi moonshot-v1-8k 12 12
MiniMax abab6.5 30 30
MiniMax abab6.5s 10 10
DeepSeek deepseek-chat (32k) 1 2

短板

上面基本都是夸奖,这里也列举一些魔法哥体验到的不足之处:

小结

本以为 “百模大战” 已经尘埃落定,没想到 DeepSeek 的横空出世,让我们再次感叹 AI 时代的日新月异。

DeepSeek v2 的发布确实让人眼前一亮,它的架构创新、开源格局、性能、价格都令人印象深刻。虽然目前还略显生涩,但相信这匹黑马会持续成长,在 AI 应用开发领域掀起不可逆转的 “性价比风暴”。

魔法哥最近一年都在做 AI 领域的研发和探索,会陆续跟大家分享心得。新朋友请关注公众号,下次更新不迷路:

weixin-qrcode


📣 AI 魔法群开放啦!

对 AI 感兴趣的同学不妨扫码加群,与数百名同好交流分享:

qun-qr


🔥 推荐阅读

AI 应用开发指南:

ChatGPT 高级技巧:

AI 资讯与评述:


© Creative Commons BY-NC-ND 4.0   |   我要订阅   |   我要打赏