DeepSeek V4冲击波:百万上下文成标配,Agent底座之争打响在即

华尔街见闻
Apr 24

作者 | 林克

4月24日,备受关注的DeepSeek的V4模型预览版终于发布并同步开源了权重。

这次发布的两个版本,一个是总参数1.6万亿,激活49B的旗舰版V4 PRO,一个是经济型V4-Flash,总参数284B,激活13B,均支持100万token上下文,MIT协议完全开源。

就在前一天,OpenAI刚刚上线GPT-5.5,每百万输出token定价30美元。今天DeepSeek V4-Flash的输出定价是2元人民币/百万token,折合不到0.3美元。

前后两天,闭源与开源的两种定价逻辑,面对面呈现在了市场面前。

一、时点:三次跳票之后

DeepSeek这一天来得不算突然,但比所有人预期的都晚。

从去年底到今年2月、3月、4月初,DeepSeek V4的发布窗口推了三次,行业里各大模型的频繁更新几乎进入了最密集的时刻。

必须承认在2026年4月末,百万上下文已称不上是绝对领先,Gemini、Qwen等都到了这个量级。这次DeepSeek V4落地,要回答的不是"能不能做到",而是"做到了之后,成本撑不撑得住"。

V4给出的回答是一套全新的混合注意力架构。它在token维度引入压缩机制,结合自研的DSA稀疏注意力,其让模型在处理超长文本时不再对所有token做全量计算,而是区分轻重:强关联的token精读,弱关联的压缩或跳过。

这套机制从预训练阶段就改变了模型处理长序列的方式。根据技术报告,V4还引入了流形约束超连接(mHC),替代传统残差连接来增强深层网络信号传播的稳定性,并使用Muon优化器提升训练收敛速度。整个模型在超过32万亿token上完成了预训练。

实际效果用两个数字就能概括:在百万token上下文设置下,V4-Pro每处理一个token的算力消耗只有V3.2的27%,KV缓存占用只有10%。

官方在公告里说得更清楚:"从现在开始,1M上下文将是DeepSeek所有官方服务的标配。"这意味着长上下文正式从"加价功能"变成了"默认配置",这对整个行业的成本预期是一次重新校准。

二、矩阵:两型号+三模式

在这次发布中,旗舰V4-Pro和经济型V4-Flash都支持三种推理模式:非思考模式(快速响应)、思考模式-高(显式推理链)、思考模式-极限(推到模型能力边界)。官方建议复杂Agent场景使用极限模式。

DeepSeek对V4-Pro的定位给了一个直白的对标:内部员工已经把它当作日常Agentic Coding工具使用,体验优于Claude Sonnet 4.5,交付质量接近Opus 4.6非思考模式,但与Opus 4.6思考模式仍有差距。

推理性能方面,在数学、STEM和竞赛型代码评测中超越当前所有已公开评测的开源模型,比肩世界顶级闭源模型;世界知识大幅领先其他开源模型,稍逊于Gemini-Pro-3.1。

V4-Flash的推理能力接近Pro版,但世界知识储备稍逊;简单Agent任务旗鼓相当,高难度任务有差距。

这组自评有一处值得注意,DeepSeek主动划出了与Opus 4.6思考模式的差距,在国产大模型发布话术的传统里,这种克制本身就是一种技术自信的表达。

三、扳机:Token价格差

随着预览版的公开,V4的API定价已随发布同步上线。

每百万token,V4-Flash的输入价是1元(缓存命中0.2元),输出价2元;V4-Pro的输入价12元(缓存命中1元),输出价24元。官方注明这是预览版定价,Pro版下半年算力扩容后将大幅下调。

这组数字需要放在坐标系里看才有意义。

Flash版每百万token输入1元——这个价格让几乎所有开发者都能无负担地调用一个万亿参数级MoE架构的开源旗舰模型。

对比之下,GPT-5.5前一天刚刚上线的输出定价是30美元/百万token,折合人民币超过200元,与V4-Flash的2元输出价差距超过100倍。即便拿V4-Pro的24元输出价来比,差距仍在一个数量级以上。

Pro版当前价格较高,但官方已经给出了明确的降价预期。背后的约束并非定价策略,而是算力供给——Pro版的高性能推理对芯片资源要求更高,当前服务吞吐十分有限。这也从侧面印证了V4在自主算力适配上的深度投入。

缓存命中的折扣幅度同样值得关注。Flash的缓存命中价只有未命中价的五分之一,Pro是十二分之一。

这意味着DeepSeek在用定价杠杆鼓励一种使用方式:把系统提示词、工具定义、文档模板等固定内容放在请求头部,让缓存机制自动生效,对于Agent类应用,这恰好是最典型的调用模式。

用Flash的白菜价铺量,用Pro的高阶能力撑住顶端场景,用缓存机制降低Agent开发者的边际成本。每一刀都切在应用层最痛的地方。

四、方向:Agent底座

如果在V4的发布里只提炼一个关键标签,那么Agent比百万上下文或许更重要。

官方明确写道:V4针对Claude Code、OpenClaw、OpenCode、CodeBuddy等主流Agent产品进行了专项适配和优化,在Agentic Coding评测中达到开源模型最佳水平。这份适配名单同时包含Anthropic的产品和国产开发者工具。

这个信号很明确,DeepSeek不打算自建应用生态,而是要成为Agent时代的底座供应商。

这个选择放在当前的行业格局里是一个有意识的取舍。Anthropic的年化收入过去四个月从90亿美元翻到300亿美元,增量几乎全部来自Claude Code;Cursor一个代码编辑器估值已到600亿美元。应用层的钱在那里,但DeepSeek选择不去碰。

这说明它的定位不是下一个Anthropic,更有可能是Agent时代的基础设施。

长上下文+低价API+Agent适配的组合,本质上是把自己做成一个供电站,让所有电器都能更便宜地跑起来。

对于那些整天跟Token消耗作斗争的Agent开发者来说,V4打开的是一个具体的场景:把整个代码仓库、完整的需求文档、几百轮历史对话一次性塞进调用,不再需要切分、检索、摘要这套工程绕路。过去做Agent最头疼的就是上下文管理——每多一轮对话,token就指数级堆叠,成本和稳定性同时恶化。

V4如果能在真实负载下兑现承诺,这个痛点的成本结构将被改写一次。

五、生态:模型、算力赛跑

V4延期的这段时间里,国产开源大模型的战场从未安静过。

今年农历年前后出现了一次密集爆发:阿里Qwen3.5总参数3970亿、激活仅170亿,百万token的API价低至0.8元,是Gemini-3-Pro的十八分之一;智谱GLM-5的代码生成的HumanEval96.2%打到开源最强。

4月继续加速:Kimi K2.6在SWE-Bench Verified上拿到80.2%,几乎追平Claude Opus 4.6;智谱GLM-5.1在SWE-Bench Pro上以58.4%超过了GPT-5.4和Claude Opus 4.6;Qwen 3.6 Plus也跨入百万token上下文行列。

Qwen、Kimi、GLM、MiniMax、MiMo,这些国产模型在国际开发者社区的出现频率正在肉眼可见地上升。

除了模型,算力侧的匹配也在同步落地。

华为在V4发布同日确认昇腾全系列产品——A2、A3及最新的昇腾950已全面适配V4-Flash和V4-Pro。

措辞是"双方芯模技术紧密协同",意味着DeepSeek和昇腾的适配工作从模型研发阶段就在同步推进。

华为给出了一组具体的性能数据:基于昇腾950超节点,V4-Pro在8K输入场景下实现了约20ms的单token解码时延,单卡吞吐4700 TPS;V4-Flash可以做到约10ms时延,单卡吞吐1600 TPS。

昇腾A3超节点上,V4-Flash在64卡大规模部署下单卡吞吐超过2000 TPS。

这些数字背后是昇腾950在底层架构上的三项代际升级:原生支持FP8/MXFP4等低精度格式(内存占用降低50%以上,算力翻倍)、针对MoE稀疏访存特征的硬件级优化,以及Vector与Cube单元共享片上内存的新设计。

更值得关注的是工程生态层面的动作。

华为同步开源了PyPTO编程范式,让V4新架构中涉及的Attention压缩、mHC等复杂算子的开发周期从周级缩短到天级,开发者不需要手动处理硬件层面的同步和数据搬运。

寒武纪同样在发布当天宣布,已基于vLLM框架完成V4-Flash和V4-Pro的Day 0适配,代码开源到GitHub。

两家国产芯片厂商在模型发布首日就拿出了完整的推理部署方案,这个响应速度本身就说明,适配工作不是临时赶出来的,而是跟模型研发深度咬合了很长时间。

DeepSeek为这次底层算力迁移付出的工程代价不小。据此前报道,团队重写了大量核心代码,完成了从CUDA生态到昇腾CANN框架的整套技术栈迁移,这也是V4反复跳票的原因之一。

但当一个万亿参数级的开源旗舰模型,在发布首日就能跑在国产算力的全系列产品上,适配代码直接开源,推理性能给出了具体的吞吐和时延数据而不是"即将支持"——这件事的意义,已超出了任何单一模型的评测范畴。

无论模型还是算力,他们之间存在竞争关系,但从更大的维度看,它们都在证明了同一件事:

中国AI研发的系统性能力不是一两个特例,而是可以不断连续性创新的生态。

2025年1月,DeepSeek R1发布,引发美股单日市值蒸发超1万亿美元,被业界称为人工智能领域的“斯普特尼克时刻”。

今天V4的发布没有那种戏剧性的震撼,但中国AI研发已经从“偶尔令人震撼”进入了“持续在场”阶段。

DeepSeek在公告末尾引了《荀子》中的一句话:

不诱于誉,不恐于诽,率道而行,端然正己。

放在一家三次跳票、核心人才流失、刚传出融资的公司身上,这句话读起来有几分倔强。

但在整个国产开源模型群体站出来的2026年,这句话不只属于DeepSeek,更属于中国所有AI创新坚定前行的脚步。

Disclaimer: Investing carries risk. This is not financial advice. The above content should not be regarded as an offer, recommendation, or solicitation on acquiring or disposing of any financial products, any associated discussions, comments, or posts by author or other users should not be considered as such either. It is solely for general information purpose only, which does not consider your own investment objectives, financial situations or needs. TTM assumes no responsibility or warranty for the accuracy and completeness of the information, investors should do their own research and may seek professional advice before investing.

Most Discussed

  1. 1
     
     
     
     
  2. 2
     
     
     
     
  3. 3
     
     
     
     
  4. 4
     
     
     
     
  5. 5
     
     
     
     
  6. 6
     
     
     
     
  7. 7
     
     
     
     
  8. 8
     
     
     
     
  9. 9
     
     
     
     
  10. 10