DeepSeek V3到V3.1,如何走向算力自由

未尽研究
Aug 24

从魔改PTX到使用 UE8M0 FP8 Scale 的参数精度,DeepSeek先榨取英伟达GPU算力,再适配国产芯片,可能会在软硬件协同方面带来新的突破,进一步提高训练效率,最多可以减少 75% 的内存使用,从而在实际应用中减少对进口先进GPU芯片的依赖。

DeepSeek 正在与下一代国产GPU芯片厂商一起,走向算力自主又迈进一步。正是这样一种令人激动的前景,激活了科技色彩愈发浓厚的中国资本市场。

V3.1,迈向Agent时代

DeepSeek 发布了 V3.1,而不是广受期待的V4或者R2,连R1也消失了。DeepSeek变成了一个混合推理架构,即一个模型同时支持思考模式和非思考模式。这是一个趋势,在V3.1发布一周之前,GPT-5发布了,是一个”统一的系统”,包括一个对话模型,一个思考模型,和一个实时路由用来决定如何结合对话与思考。

这次升级提高了DeepSeek的思考效率,即答对同样的问题,消耗更少的token,花费更短的时间。这既是经济上的考虑,也产品和用户体验上的考虑,避免了过度思考,让回答也更简洁一些。

V3.1展示出更强的 Agent 能力,通过后训练的优化,新模型在工具使用与智能体任务中的表现有较大提升。

V3.1的基础模型在V3的基础上重新做了外扩训练,增加训练了840B token。它的上下文长度,思考模式和非思考模式均达到了128k。性能提升,价格下降,再次秀出它所擅长的的性价比创新。

这次升级让DeepSeek在最近中国AI企业的开源热潮中夺回领先优势,但不仅仅是想用来做科研和展示,而是要在企业服务能力上向国际前沿AI企业看齐。

DeepSeek的API Beta 接口支持了strict模式的Function Calling,以确保输出的Function 满足schema 定义。这其实是大模型API在工程化能力上的一个重要升级。OpenAI、Anthropic、Mistral 等都在逐步推出 strict function calling,向企业级生产环境对齐。Strict模式提升了V3.1的工程可靠性和企业易用性,更容易在企业服务中替代GPT/Claude。

同样的思路,DeepSeek增加了对Anthropic API格式的支持,“让大家可以轻松将 DeepSeek-V3.1 的能力接入 Claude Code 框架。”目的是为了让使用Claude Code的用户,更容易切换到DeepSeek。这样可以直接渗透Anthropic已经打开的企业市场。最近Anthropic的企业服务收入,已经超过了OpenAI。

这次升级,对于DeepSeek来说的里程碑意义,是迈向Agent时代的第一步。

对中国的AI芯片生态,也具有里程碑意义。

深度求索的深水炸弹

DeepSeek在中文官微刻意强调、而在其英文X账号上没有提及的是,V3.1使用了 UE8M0 FP8 Scale 的参数精度。它还在留言处置顶:

这年头,越是低调话少让人有点看不懂,信息量越大。

在Hugginface 的模型卡中,DeepSeek又放出了一点信息:DeepSeek-V3.1 使用 UE8M0 FP8 缩放数据格式进行训练,以确保与微缩放数据格式兼容。

简单解释下,FP8=8-bit floating point(8位浮点数),是一种超低精度表示方式。可以显著减少显存/带宽需求,大幅提升推理和训练效率,但需要精心设计缩放(scaling)来避免数值不稳定。

UE8M0是FP8的一种数字表示格式。U表示没有符号,E8表示8位指数,M0表示没有尾数。相比之下,英伟达在 H100、Blackwell GPU 上提供硬件级 FP8 支持,主推E4M3/E5M2格式,也是大多数模型采取的英伟达官方FP8格式。

所谓“微缩放数据格式”(Microscaling data format),即业界的Microscaling FP8 (MXFP8)标准。英伟达Blackwell GPU支持MXFP8。而V3.1训练所用的数值体系与MXFP8兼容,模型在推理/部署时,可以直接在任何支持MXFP8 + UE8M0 的硬件(包括英伟达Blackwell、未来的国产GPU)上跑,不需要额外转换,能降低内存流量、提升矩阵乘法吞吐。

对比一下E4M3/E5M2,UE8M0是一个变体,全指数,无尾数,能覆盖极宽的动态范围,是一种低算力环境下的工程优化。单就UE8M0而言,因为没有尾数,也没有精度,只用来存scale。高精度在内部计算中使用,过程是这样的:输入FP8,存储时用scale调整,计算时自动转换FP16/BF16/FP32,做乘加运算,输出时再量化回FP8存储,保证了训练、推理的稳定性。

V3.1在训练中使用UE8M0 FP8,并且兼容MXFP8,通过软件定义与更多芯片适配,能让超低精度训练/推理在在中国自研芯片上更容易实现。

目前和即将采用FP8精度的国产GPU芯片,有寒武纪、沐曦、燧原、升腾等,还有更多主动适配DeepSeek的芯片厂商。

英伟达的低精度之路

值得一提的是,英伟达多年来一直用低精度数字表示法提升推理和训练效率。例如在所谓的“黄氏定律”中,过去十年GPU实现的千倍效能提升,新的数字格式起到了最重要的作用。

英伟达的首席科学家戴利(Bill Dally),曾经把数字表示概括为GPU算力”黄氏定律“的精髓。

在P100之前,英伟达的GPU使用单精度浮点数表示这些权重。根据IEEE 754标准,这些数字长度为32位,其中23是尾数位,8是指数位,还有一位是符号位。

但是,机器学习研究人员很快就发现,在许多计算中,其数字可以不必有那么高的精度,而神经网络仍然可以给出准确的答案。这样做的明显优势在于,执行机器学习的关键计算(乘法和累加)的逻辑可以更快、更小、更高效地完成。如果需要,就处理更少的位数(如戴利所解释的,乘法所需的能量与位数的平方成正比)。因此,使用FP16,英伟达将该数字减少了一半。Google甚至推出了自己的版本,称为Bfloat16。(两者的区别在于分数位的相对数量,这影响精度;以及指数位的相对数量,这影响范围。Bfloat16与FP32具有相同数量的范围位,因此更容易在这两种格式之间切换。)

到了H100这一代,可以使用8位数字执行大规模transformer神经网络的某些部分,例如ChatGPT和其他大型语言模型。然而,英伟达发现这并不是一种大小适合所有情况的解决方案。例如,英伟达的Hopper GPU架构实际上使用两种不同的FP8格式进行计算,一种具有更高的精度,另一种具有更大的范围。英伟达的窍门,在于知道何时使用哪种格式。

英伟达对超低精度的一项研究

加州理工教授、英伟达前研究员Anima Anandkumar指出,V3.1在训练中使用的UE8M0 FP8 scale数据格式,实际上是一种对数数值系统(LNS),来自她当年参与的一个研究项目。

英伟达和加州理工的研究人员,在2021年时曾经发表过一篇论文《LNS-Madam:在对数数值系统中采用乘法式权重更新的低精度训练》(LNS-Madam: Low-Precision Training in Logarithmic Number System using Multiplicative Weight Update),探讨如何以低精度表示深度神经网络(DNN),实现高效加速并减少内存占用。

如果直接用低精度权重进行训练,会因低精度数值系统与学习算法之间的复杂交互而导致精度下降。为了解决这一问题,研究人员设计了对数数值系统(Logarithmic Number System, LNS)和乘法式权重更新算法(Madam)。他们证明了 LNS-Madam 在权重更新过程中能保持较低的量化误差,即使在精度受限的情况下也能获得稳定性能。他们还进一步提出了一种 LNS-Madam 的硬件设计,解决了实现高效 LNS 计算数据通路中的实际挑战,有效降低了由 LNS-整数转换和部分和累加(partial sum acculmlation) 带来的能耗开销。

实验结果表明,在计算机视觉和自然语言等主流任务中,LNS-Madam 仅使用 8 位精度就能实现与全精度相当的准确率。与FP32和FP8相比,LNS-Madam能分别降低超过90% 和 55%的能耗。

DeepSeek的超低精度创新

UE8M0实际上等价于 LNS 的一个极简实现,因此可以说UE8M0是LNS的一种特化(只保留log值的整数部分,没有小数精度),所以Anandkumar教授才会把UE8M0缩放数据格式称作一种LNS。

如果说LNS-Madam 一种学术探索,是重新设计数学体系+算法,是硬件和算法一体化的设计思路,UE8M0+FP8是一种在现有浮点体系上结合缩放的工程技巧。二者低精度训练的目标一致,但路线完全不同。

UE8M0并不是用来直接存权重,而是用来存缩放因子(scale factor),帮助其它 FP8(E4M3/E5M2)稳定表示数据,让 FP8能够覆盖更广的数据分布,从而在硬件上更高效。

追求算力自由

回顾一下DeepSeek两个阶段的突破点。

首先是先榨干现有硬件的潜力。DeepSeek V3直接修改英伟达GPU的虚拟机指令集架构 PTX,绕过英伟达编译器的保守策略,手工调度寄存器、warp、访存和Tensor Core指令。把GPU算力利用率提升到极限,降低硬件受限下的训练/推理成本。在DeepSeek手中,A100/A800等英伟达 GPU上的现有算力都得到最大化利用。

第二阶段降低算力的物理需求。DeepSeek V3.1引入UE8M0 FP8格式,让中国国产 AI 芯片(带宽/算力较弱)也能高效运行大模型。采用更紧凑的低精度浮点格式,大幅压缩内存/带宽占用,减少计算负担,可以期待下一代国产GPU芯片能进行前沿大模型训练推理。

DeepSeek在工程实践中走出了一条算力自主之路:先榨取英伟达,再适配国产芯片,最终走向算力自主。长期来看,DeepSeek将沿着软硬件协同优化的路线,构建一个 “算力无关”的模型生态。

中国还需要H20/B30吗

由于技术与安全等原因,已经传出英伟达停止生产H20的消息。目前依然存在悬念的,是黄仁勋是否向中国提供B30。

回顾一下,英伟达定制H20 / B30给中国市场,因为美国出口管制禁止向中国出售H100/H200/B100/B200等高端GPU。黄仁勋的策略,是推出缩水版芯片,为中国定制了H20(基于 Hopper)和B30(基于 Blackwell),在算力、互联、带宽上降低配置,但仍保持 CUDA 生态兼容,以保住中国市场,避免中国厂商快速完全转向国产芯片。同时遵守美国出口管制。

即使DeepSeek魔改PTX,一时造成了英伟达股价暴跌,也并没有影响黄仁勋的策略,老黄反而一直想见梁文锋。因为它心里明白,也公开表达过,以中国的人才,尤其是软件人才,实现AI芯片与模型生态的自主闭环,只是时间问题。

没想到的是UE8M0+ 超低精度的冲击,以如此低调的方式释放。它意味着中国厂商对于H20/B30的需求,正在发生微妙的变化。如果国产下一代GPU芯片近期推出,而且支持UE8M0+FP8 跑通大模型,英伟达的缩水卡在中国市场上的竞争力下降。一旦国产芯片生态完善,CUDA 生态的锁定效应会逐渐削弱。

中国市场还需不需要B30?有一种业内观点认为,短期依然需要,因为国产GPU产能、软件生态还在追赶。大部分企业,尤其是互联网大厂和科研机构等,仍依赖CUDA工具链和现成框架。H20/B30在推理与训练上仍然比国产芯片更稳健。也许B30本身的相对先进性,即弱于最先进的GPU、但仍强于国产GPU,才能决定它能否得到中美两国有关部门的接受。

随着国产芯片+超低精度训练将逐渐跑通并规模化部署,中长期来看对于B30们的需求会明显下降。国产AI软件栈(升腾CANN、寒武纪 Neuware、壁仞 BIRENSUPA)逐步成熟,逐渐减少对 CUDA 的依赖。成本敏感的中国企业会更倾向国产方案,同时避免美国找麻烦。

英伟达的优势何在

UE8M0+FP8,好像是DeepSeek接过了英伟达近十年来的低精度数字表示技术的大旗,结合中国的实际进行工程创新,它将加快中国下一代芯片的推出,加快以国产芯片解决中国大规模训练和推理的需求,从而形成中国AI芯片与模型的技术路线。

使用UE8M0 FP8 Scale的参数精度,适配国产下一代芯片,兼容MXFP8,并不意味着英伟达失去了优势主导地位,因为 G200 不只是 FP8,还带来更大带宽、更强互联(NVLink 5)、更大显存。软件生态(CUDA、PyTorch 插件)也牢牢绑定 FP8,迁移到 UE8M0 需要额外工程适配。大部分国际大厂(OpenAI、Anthropic、Meta)还是会首选 G200 来追求极致性能。“黄氏定律”已经推进至FP4精度,英伟达还曾亲自下场发布了优化版的DeepSeek-R1-FP4,内存需求大幅降低,基准测试成绩几乎不变。

如果 UE8M0+FP8 在社区和国产硬件上普及,低成本训练路径会弱化英伟达的必选性。这对中国厂商尤其重要,即使没有 G200,也能在国产 GPU 上稳定训练大模型,形成去英伟达化的路线。

Disclaimer: Investing carries risk. This is not financial advice. The above content should not be regarded as an offer, recommendation, or solicitation on acquiring or disposing of any financial products, any associated discussions, comments, or posts by author or other users should not be considered as such either. It is solely for general information purpose only, which does not consider your own investment objectives, financial situations or needs. TTM assumes no responsibility or warranty for the accuracy and completeness of the information, investors should do their own research and may seek professional advice before investing.

Most Discussed

  1. 1
     
     
     
     
  2. 2
     
     
     
     
  3. 3
     
     
     
     
  4. 4
     
     
     
     
  5. 5
     
     
     
     
  6. 6
     
     
     
     
  7. 7
     
     
     
     
  8. 8
     
     
     
     
  9. 9
     
     
     
     
  10. 10