英伟达的“神秘芯片”背后--推理时代开启“四大算力新趋势”

华尔街见闻
Mar 02

英伟达将整合LPU技术推出全新推理芯片,OpenAI重金跟进,标志AI算力主战场从训练切换至推理。申万宏源研究指出,推理时代正催生四大新趋势:CPU部署场景增多、LPU专用架构崛起、国产芯片加速突破、算力需求从训练转向海量Token消耗。随着芯片走向训练与推理分工、系统向三层架构演进,高性价比推理芯片厂商将成最大受益者。

英伟达整合LPU(语言处理单元)技术、OpenAI多线押注推理芯片,正在将AI算力竞争的主战场从训练切换至推理。申万宏源研究认为,2026年算力产业的核心关键词将是推理,Token消耗总量与技术范式均将围绕这一主题深度重构。

2月28日,据《华尔街日报》报道,英伟达计划在下月的GTC开发者大会上发布一款整合了Groq“语言处理单元”(LPU)技术的全新推理芯片,英伟达首席执行官黄仁勋称其为“世界从未见过”的全新系统。OpenAI已同意成为该处理器的最大客户之一,并将向英伟达购买大规模“专用推理产能”。

与此同时,OpenAI上月还与初创公司Cerebras达成数十亿美元计算合作,后者称其推理芯片速度已超越英伟达GPU(图形处理器)。这一系列动向表明,AI巨头正在从训练算力的军备竞赛,转向推理算力的多线布局。

申万宏源报告指出,Token经济时代,推理算力正迎来四大趋势:一是纯CPU(中央处理器)部署场景增多,低成本推理需求加速算力下沉;二是LPU等专用架构崛起,挑战GPU在推理环节的主导地位;三是国产算力芯片加速突破,供应链多元化趋势明确;四是推理算力的需求结构从“单次训练”向“海量Token消耗”转变,性价比成为核心竞争要素。

报告表示,能够提供充足、高性价比推理芯片的厂商将最为受益,而CPU、LPU及国产芯片的共同突破,正构成这一轮算力格局重塑的核心线索。

推理需求全面爆发,Token消耗创历史新高

申万宏源研究认为,需求持续扩张的背后是两大结构性驱动力:一是大模型货币化加速,Claude等模型开始向应用端切入,发布多款行业插件二是Agent落地提速,openclaw、千问Agent等产品标志着Agent正进入真实的工作与生产场景,而每一次模型调用和Agent任务执行,背后均需大量推理算力支撑。

申万宏源研究援引数据显示,春节期间国内头部大模型推理量大幅增长:豆包除夕当天推理吞吐量达633亿tokens,元宝月活跃用户达1.14亿,千问“春节大免单”活动参与人数超1.2亿。

全球AI模型API聚合平台OpenRouter的数据进一步揭示了这一趋势的量级。2月9日至15日当周,中国模型以4.12万亿Token的调用量首次超过美国模型的2.94万亿Token;16日至22日当周,中国模型调用量进一步冲高至5.16万亿Token,三周大涨127%,全球调用量前五的模型中中国占据四席。

LPU成新贵,训练与推理芯片走向分化

英伟达斥资200亿美元获取Groq核心技术许可,并在“核心聘用”交易中吸纳了包括创始人Jonathan Ross在内的高管团队。申万宏源研究认为,这一交易标志着纯推理芯片的重要性已获得顶级玩家的正式认可。

LPU与传统GPU的架构差异,正是其在推理场景中具备效率优势的根本原因。AI推理分为预填充和解码两个阶段,大型模型的解码过程尤其缓慢,而LPU针对延迟和内存带宽这两大推理瓶颈进行了专项优化。据华尔街见闻此前报道,英伟达即将发布的新品可能涉及下一代Feynman架构,或采用更广泛的SRAM集成方案,甚至通过3D堆叠技术将LPU深度整合其中。

申万宏源研究据此判断,未来AI芯片将形成明确的技术分工格局:训练端继续沿用GPU-HBM组合,推理端则演进为ASIC+LPU-SRAM+SSD的组合方案。随着算力需求从训练向推理切换,专注推理芯片的厂商将迎来发展机遇。

推理系统全面革新,CPU与网络需求同步提升

从单一芯片到系统层面的革新,是本轮推理算力升级的另一重要维度。申万宏源研究指出,随着应用场景从chatbot转向Agent,算力系统对延迟、吞吐与思考深度的要求同时提升,推动系统架构向三层网络演进。

第一层为快反应层,由搭载SRAM的纯推理芯片提供极致低延迟反馈;第二层为慢思考层,使用超大吞吐算力集群负责复杂逻辑推演,多核多线程CPU在此层的需求将显著增加;第三层为记忆层,对应英伟达发布的ContextMemory System,通过Bluefield4 DPU管理的SSD存储Agent的长期记忆与KV Cache。

英伟达在硬件层面也在调整策略。此前将Vera CPU与Rubin GPU捆绑部署的标准做法,在特定AI智能体工作负载下被证明成本过高。英伟达本月宣布扩大与Meta Platforms的合作,完成首次大规模纯CPU部署,以支持Meta的广告定向AI智能体,标志着公司正超越单一GPU销售模式。

国产算力加速突破

申万宏源研究认为,国产推理芯片的技术升级值得重点关注,且存在市场预期差。

在技术层面,新一代国产推理芯片实现了多项根本性提升:新增支持FP8/MXFP8/MXFP4等低精度数据格式,算力分别达到1P和2P;大幅提升向量算力,采用支持SIMD/SIMT双编程模型的新同构设计;互联带宽相比前代提升2.5倍,达到2TB/s。

尤为值得关注的是,芯片层面实现了PD分离:通过自研两种不同规格的HBM,分别构成面向Prefill和推荐场景的PR版本,以及面向Decode和训练场景的DT版本。其中PR版本采用低成本HBM,可大幅降低推理Prefill阶段的投资成本,预计于2026年Q1推出。

供应链层面,国产封测厂商的进展提供了佐证。根据某头部封测企业首轮问询答复函,其2.5D封装业务收入主要来自高性能计算芯片封装服务,该项收入从2022年的0.5亿元快速增长至2024年的18.2亿元,侧面印证国产算力芯片供给能力持续提升,供应链国产化进程加快。

Disclaimer: Investing carries risk. This is not financial advice. The above content should not be regarded as an offer, recommendation, or solicitation on acquiring or disposing of any financial products, any associated discussions, comments, or posts by author or other users should not be considered as such either. It is solely for general information purpose only, which does not consider your own investment objectives, financial situations or needs. TTM assumes no responsibility or warranty for the accuracy and completeness of the information, investors should do their own research and may seek professional advice before investing.

Most Discussed

  1. 1
     
     
     
     
  2. 2
     
     
     
     
  3. 3
     
     
     
     
  4. 4
     
     
     
     
  5. 5
     
     
     
     
  6. 6
     
     
     
     
  7. 7
     
     
     
     
  8. 8
     
     
     
     
  9. 9
     
     
     
     
  10. 10