CPU:推理时代地位重塑

中金点睛
May 22

中金认为,Agentic AI的复杂任务编排与高并发需求使CPU成为推理核心瓶颈,地位重塑。预计CPU与GPU配比将趋向1:1,2030年市场超1300亿美元,短期涨价持续。技术向高带宽与专业化演进;Arm因高能效契合推理需求,份额将加速追赶x86。

摘要

CPU需求为什么会增长?在大模型训练阶段,以GPU为核心的矩阵计算能力是决定模型能力的核心,产业内关注焦点也聚焦在FLOPs等GPU的计算性能优化上。但从2H25起,出现了两方面变化:1)在训练侧,强化学习的重要性提升,使得CPU/GPU配比成为了系统的关键指标之一;2)在推理侧主要有三个领域:a) 推理Host CPU,配合GPU进行任务调度和利用率优化等,甚至执行简单推理任务,形成对GPU的替代作用;b)编排节点CPU,在复杂agentic任务中,作为独立节点承担逻辑运算并进行任务编排;c) 沙盒执行层随并发任务数增加带来CPU需求。

AI驱动下,CPU市场规模有多大?我们从两个维度尝试进行测算:1)中性基于GPU:CPU=1:1配比估计下,我们测算至2030年全球CPU市场规模将超1300亿美元;2)我们测算Agentic AI当前情景下(5亿DAU或300亿日均token)对CPU的新增需求大约为840万颗。从技术发展趋势看,作为新操作系统的“调度器”CPU的升级趋势包括更强的单核性能、更大的内存带宽、更强的I/O能力、更多核心数。长期来看,我们预计数据中心CPU迭代将围绕三条主线展开:数据带宽能力提升、任务分工专业化,以及与加速器的深度融合。此外,在需求快速增长情况下,我们认为2026年服务器CPU涨价趋势有望持续。

竞争格局:x86 vs Arm,谁将胜出?目前全球服务器CPU市场中Arm市占率不到20%,仍以x86架构为主。考虑Agent类产品拥有高并发、持续运行、大量轻量级推理请求的特点,Arm精简指令集的功耗效率占优,可以支持更多核心处理并发请求,适用于高吞吐的推理服务,我们预计未来其份额或将提升。

正文

随着推理需求的持续提升,对服务器系统从原本以GPU(矩阵计算)为核心转向CPU(任务编排等)重要性提升的讨论逐渐升温,我们认为长期来看,服务器内部的异构系统会成为趋势。本文重点讨论四个问题:1)从需求角度来看,本轮CPU需求提升的原因是什么?2)类比存储的变化,当前CPU市场在供给和需求端呈现什么状态?3)长期视角看,未来CPU的发展趋势有哪些?4)CPU市场的竞争格局如何?

CPU需求为什么会增长?

在大模型的训练阶段,以GPU为核心的矩阵计算能力是决定模型能力的核心,产业内关注焦点也聚焦在FLOPs等GPU的计算性能优化上。但从2H25起,出现了两方面变化:1)在训练侧,强化学习的重要性提升,使得CPU/GPU配比成为了系统的关键指标之一;2)在推理侧主要有三个领域:a) 推理Host CPU,配合GPU进行任务调度和利用率优化等,甚至执行简单推理任务,形成对GPU的替代作用;b)编排节点CPU,在复杂agentic任务中,作为独立节点承担逻辑运算并进行任务编排;c) 沙盒执行层随并发任务数增加带来的CPU需求。

训练视角:强化学习带来对CPU需求的提升

强化学习对CPU/GPU配比提出新要求。与传统意义上认为在训练阶段GPU是唯一重要的衡量指标不同,随着强化学习的重要性提升,考虑CPU资源的约束也成为了一个值得关注的方向。目前强化学习的实践中,环境交互以及如何分配硬件资源,已经成为了系统的主要瓶颈,由于需要大量CPU资源去运行模拟环境,CPU不足也会造成GPU 空转。因此合理设计CPU/GPU的配比,让CPU的线程数等于或者大于GPU SM 的数量,也成为了一个重要方向。但从绝对量的角度看,我们判断强化学习带来的对CPU的需求相对推理较为有限。

推理视角:Agentic AI时代,CPU成为瓶颈环节

  • 简单推理:成本视角下,CPU对GPU的替代作用

成本视角考量,CPU对GPU存在一定替代可能。当前GPU仍处于紧缺状态,同时高性能的GPU不管是租赁价格还是缺货情况都未见到明显缓解。在训练场景中很难采用其他计算芯片对GPU进行替代,但来到推理场景后,一方面对矩阵计算的性能要求有所下降,另一方面在一些简单的推理任务中,如chatbot等,业内已经开始采用浮点计算性能较低的RTX系列等算力芯片进行推理。

考虑CPU价格对比GPU的优势明显,我们判断在一些简单的推理任务中,CPU一定程度上也可能替代GPU,带来一定拉动。从海内外头部CSP对ASIC芯片的推动,以及对定制化CPU芯片的探索思路看,也具有一定的共同之处。但这部分无法进行具体的测算,同时潜在空间有限。

图表1:CPU在推理中的重要性提升

资料来源:The Rising CPU:GPU Ratio in AI Infrastructure: Drivers, Trends, and Implications(Intel,2026年),中金公司研究部

  • Agentic AI:Token消耗占比持续提升,复杂任务编排使CPU成为新的瓶颈

我们认为Agentic AI时代CPU的变化具有三个特点:1)总体来看:任务链条和流程复杂带来的CPU重要性上升;2)工作负载复杂化:不同的工作负载对CPU要求不同,RAG、ChemCrow等工作负载中,CPU 已经成为了核心瓶颈;3)并发数量增加:并发数量增加会进一步加大CPU作为瓶颈的约束情况,进而在执行层带来对沙箱的需求增长。

Agentic AI具有更泛化的应用能力,正逐渐成为AI应用的主流。Agentic AI以生成模型为基础,增加了编排、记忆和目标导向行为,可以规划多步骤任务、调用工具、迭代结果,并在更长时间的工作流程中运行。根据OpenRouter数据,到2025年底,推理产生的token已超过总token的50%,有15%的推理过程以“外部工具调用”结束。

图表2:推理产生的token数占比

资料来源:OpenRouter,中金公司研究部

图表3:以“外部工具调用”结束的推理过程占比

资料来源:OpenRouter,中金公司研究部

多步骤、多工具调用的Agentic AI带来任务流程的复杂化。从工作流视角看,在传统的生成式 AI(如单轮对话的大语言模型)中,整体的输入-输出流程相对简单,步骤也较少。但随着AI向Agentic(智能体化)演进,在推理过程中步骤更加繁杂、不同工具、外部API 调用等成为常态,因此CPU作为任务编排的核心重要性在上升。

图表4:Agentic AI在编译器,任务执行流程,执行复杂度方面的变化

资料来源:A CPU-CENTRIC PERSPECTIVE ON AGENTIC AI(Georgia Institute of Technology,Intel,2025年),中金公司研究部

Agentic AI 任务中工具处理需求的出现,在部分的工作负载场景下CPU已经成为新的瓶颈环节。在大语言模型的执行方式下,推理流程为:推理1——工具调用1——推理2——工具调用 2——推理 3……,由于系统必须等到LLM 生成完整工具调用的所有 token,才开始执行,因此会带来GPU 空转(等待工具返回结果)和工具空转(等待模型生成指令),因此需要CPU进行工具处理。从而使系统从原来的GPU为核心之外,CPU作为工具处理的重要性大幅提升。《A CPU-CENTRIC PERSPECTIVE ON AGENTIC AI》的论文中列举了不同的工作负载延迟表现,可以看出由于CPU上的工具处理可能占据端到端延迟的很大一部分,因此行业内优化的重点来到了以CPU 为核心的优化策略上。

图表5:在没有部分工具调用的情况下,会形成GPU空转带来延迟

资料来源:Conveyor: Efficient tool-aware llm serving with tool partial execution(Duke University,2024年),中金公司研究部

图表6:不同工作负载下端到端运行的延迟情况,CPU 已经成为了核心瓶颈

资料来源:A CPU-CENTRIC PERSPECTIVE ON AGENTIC AI(Georgia Institute of Technology,Intel,2025年),中金公司研究部

动态视角看,CPU 的超额订阅会随着并发任务的数量增加变得更加严重。随着批处理(Batch size)大小的增加,以及输入/输出 token长度的增加,在不同的工作负载下,CPU 作为瓶颈环节的影响是在逐渐变大的。也就是说,用户数或者并发任务的增加,会使得CPU 核心数量的要求更高。例如当Batch-size达到 128 的时候,系统需要同时调度数百个工具执行进程,因此CPU 的核心数成为了新的短板。而增加CPU资源在延迟改善和提高系统利用效率方面具有明显效果。

图表7:增加CPU资源的分配可以减轻延迟

资料来源:Characterizing CPU-Induced Slowdowns in Multi-GPU LLM Inference(Georgia Institute of Technology,2026年),中金公司研究部

图表8:分配更多的CPU核心可以缩短高利用率时间

资料来源:Characterizing CPU-Induced Slowdowns in Multi-GPU LLM Inference(Georgia Institute of Technology,2026年),中金公司研究部

  • Sandbox执行层:驱动多核并发与硬件虚拟化需求的增长

复杂Agent任务带来沙箱(Sandbox)需求快速增长。在企业级应用场景中,为确保系统安全性与执行环境的纯净,系统会针对每一个外部工具调用请求,瞬时拉起(Spin-up)并随后销毁(Tear-down)一个独立的微型虚拟机或容器(MicroVM/Container),即沙箱。从当前的任务分类看,除了少数的只读型、纯API 调用、纯本地调试等任务之外,涉及到自主执行代码或调用外部工具的任务,沙箱在系统安全、效率控制、环境一致性等方面的优势表明它都是必须存在的。

图表9:多智能体架构中,执行智能体利用虚拟机(VM)作为沙箱来运行代码

资料来源:The Rising CPU:GPU Ratio in AI Infrastructure: Drivers, Trends, and Implications(Intel,2026年),中金公司研究部

沙箱消耗 CPU的硬件虚拟化指令集(如 Intel VT-x/AMD-V)性能,更对 CPU 的物理核心数提出了线性增长的需求。当系统面临同时执行数十个网页抓取、代码编译或数据清洗等并发任务时,庞大的物理核心数是实现横向扩展、降低任务间上下文切换损耗的唯一解,因此对CPU调度能力产生更高要求。而CPU的核数决定了能开启多少个沙箱(即并行环境)。

图表10:Agentic AI对沙箱的需求

资料来源:微软,中金公司研究部

AI驱动下,CPU市场规模有多大?

从上文可以看出,训练和简单推理对CPU的需求处于次要地位,核心还是agentic AI。随着 agentic AI的快速发展,及多步骤的复杂推理任务比重和难度增加,对任务编排调度的要求也持续提高,进而引发了对CPU需求的增加及未来GPU:CPU配比变化的探讨,本章节从两个维度尝试进行测算。

配比视角:Agentic AI推动服务器CPU市场规模快速增长

  • 我们预计2030年全球CPU市场规模将突破1300亿美元

CPU在单台AI服务器中的配比将迎来提升,提升系统边际效率。从第一章对CPU需求的视角出发可以看出,过去AI服务器中CPU在配比的数量、核数等多个方面都已经无法满足需求,为保持系统整体的高吞吐量,服务器架构需要显著提升CPU的核心数和缓存性能,导致CPU在整体算力采购成本中的占比提高。因此我们预计CPU的需求将迎来增长。

配比的具体数字是核心。聚焦几家CPU 厂商最新表述来看:1)英特尔:CEO陈立武在1Q26业绩会上提到CPU:GPU配比有望从1:8/1:4进一步提升;2)AMD:1Q26业绩会上苏姿丰预计全球服务器CPU市场有望在2030年达1200亿美元规模;3)ARM:4Q26业绩会上CEO预计全球服务器CPU市场有望在2030年超1000亿美元规模。

需要指出的是,当前对GPU:CPU的配比并没有一致结论。由于现有的服务器架构较为固定,因此在推理服务器中我们预计仍将以2个GPU配1个CPU的方式进行配置;但考虑到agentic AI的需求,纯CPU的机柜也将开始陆续部署,因此从综合的视角看,CPU:GPU配比将从目前8卡服务器中1:4的比例逐渐提升,2030年或将达1:1甚至更多。

中性基于1:1的预计倒推,我们测算至2030年全球CPU市场规模将超1300亿美元。核心假设有:1)全球算力卡预计2030年达4240万颗;2)AI服务器CPU:GPU配比2030年达1:1;3)AI服务器CPU单价随核心数的增加、性能的提升及代工的升级2026-2030年增幅在16%。

图表11:数据中心CPU市场规模测算

注:图中CPU价格为预估,并不代表实际售价

资料来源:BBG,各公司官网,中金公司研究部

需求视角:Agentic AI对CPU数量及核数提出新需求

  • 总量:当前情境下Agentic AI对CPU新增需求超过800万颗

我们测算Agentic AI当前情景下对CPU的新增需求大约为840万颗。从需求端对CPU的测算较为复杂,我们简化后通过并发任务数量的形式,讨论Agentic AI对CPU的拉动作用。测算的核心思路为:1)通过日活用户数或日均token消耗量对并发任务数量进行预估;2)对任务按复杂度进行核心参数分配,包括任务占比,占用核数,调用agent数量等;3)分四种情况计算对应CPU核数需求;4)测算所需CPU数量。

图表12:Agentic AI对CPU额外需求测算

资料来源:各公司官网,中金公司研究部

  • 结构:CPU应用场景需求进一步细化

从技术发展趋势看,作为新操作系统的“调度器”CPU的升级趋势主要有:1)更强的单核性能来降低单次推理的延迟,2)更大的内存带宽和更强的I/O能力来调度更长的上下文以及管理海量的数据,3)更多核心数来支持高并发查询及虚拟化。

图表13:Agentic AI下数据中心CPU三大应用场景

资料来源:各公司官网,中金公司研究部

价格趋势:短期供需失衡,服务器CPU有望持续涨价

由于CPU产能分配存在一些模糊性,因此缺乏CPU供给侧的较好测算,但从定性视角看,Agentic AI等需求对CPU的拉动还在持续增长,因此CPU市场出现了一定程度缺货涨价。

受供需缺口影响,我们认为2026年服务器CPU涨价趋势可持续。截至2026年5月,我们观察到Intel服务器CPU在2月、3月已经历了两次涨价,涨幅在5-15%之间,同时部分型号CPU交期还在持续拉长,侧面体现了对CPU的需求增长。

► 需求侧来看,如前所述,主要受益于AI推理需求增长,同时通用型服务器面临更新换代的需求,我们预计2026年全球服务器出货量有望同比增长近20%,未来Agentic AI有望拉动AI及配套服务器需求的加速增长。

► 供给侧来看,AMD和Arm均采用台积电先进制程代工,结合GPU、ASIC等算力芯片需求持续上修,台积电2-5nm制程订单需求旺盛,产能扩张较为有限,我们预计供需缺口将持续至27年。目前来看,AMD CPU27年产能供给仍有一定弹性。根据陈立武5.19JPM大会发言,英特尔18A良率每月稳步提升,有望在26年底前实现成熟良率目标。结合来看,我们预计供需缺口将持续至27年,2026年服务器CPU有望迎来进一步涨价。

此外,受益于服务器CPU旺盛的需求,服务器CPU配套芯片,如PCIe retimer、PCIe switch以及内存接口芯片等细分赛道,亦值得关注。

图表14:Intel产能预计

注:绿色为目前主力产能,统计截至1Q26

资料来源:Intel官网,中金公司研究部

长期趋势:推理架构正从“GPU附属CPU”转向“CPU强绑定集群”

未来十年,数据中心CPU的演进路径不太可能回到单纯追求频率或核心数扩张的传统逻辑,而将围绕三条主线展开:数据带宽能力提升、任务分工专业化,以及与加速器的深度融合。

► CPU 将进一步向高带宽数据设备演进。随着 AI 负载从单次张量计算扩展至大规模上下文管理与状态维护,我们预计内存通道数量、内存带宽密度和缓存容量的重要性将持续上升。LPDDR 在数据中心的采用、SOCAMM 模组的发展,以及更高通道数 DDR 设计,均指向一个方向:隐藏内存延迟、提升带宽密度、支撑大容量上下文成为核心目标。我们认为未来竞争焦点将不再仅是每核心性能,而是数据 fabric 组织能力与片上网络带宽。

► CPU 将持续分化以匹配不同工作负载,朝三类方向并行发展:1)高单核性能、高内存带宽、与 AI 加速器保持一致性互连的紧耦合型 CPU;2)面向 KV-cache 管理、网络分层与数据路径处理的 DPU/数据平面型 CPU; 3)高核心密度、重吞吐的云型 CPU。这种分化说明 CPU 并未被 GPU 替代,而是在 AI 体系中承担更专业化的角色。

图表15:NVIDIA BlueField-4将Grace CPU与NIC协同封装

资料来源:英伟达官网,SemiAnalysis,中金公司研究部

图表16:英伟达发布Vera CPU机柜

资料来源:英伟达官网,中金公司研究部

► CPU 与加速器的边界可能进一步模糊。APU架构(如集成 CPU + GPU 的设计)可能减少独立 head node 的需求;部分 RL 训练负载可能迁移至具备本地环境执行能力的专用加速器;同时,内存池化与 CXL 扩展可能降低传统每机架必配独立 CPU的绑定比例。从更长远角度看,CPU 甚至可能嵌入交换芯片或数据中心网络核心之中,成为数据流调度的基础控制单元。

我们认为,未来CPU的价值不在于替代GPU,而在于承载系统复杂性。在 AI 2.0 时代,模型能力的提升带来更多交互、更长上下文与更多外部调用,CPU 作为通用执行与控制单元,仍将是维持系统可扩展性的基础组件。其形态可能变化,但其在计算体系中的核心地位不会消失。

竞争格局:X86 VS Arm,谁将胜出?

X86 VS Arm:X86 份额领先,Arm有望加速追赶

目前,全球服务器CPU市场中Arm市占率不到20%,仍以x86架构为主。

X86 vs Arm:x86生态成熟度仍较为领先,Arm在云端推理份额预计将持续增长。Agent类产品拥有高并发、持续运行、大量轻量级推理请求(比如多轮对话、工具调用、规划推理等)的特点,ARM精简指令集的功耗效率占优,可以支持更多核心处理并发请求,适用于高吞吐的推理serving。

x86在生态成熟度上仍然保持领先的优势。大量推理框架在x86上优化更成熟,部分指令集对矩阵运算有专门的加速,因此我们认为对于较大模型的运行、混合精度计算或和传统软件栈深度集成的场景下,x86的兼容性和工具链优势明显。

总结来说,Arm架构的CPU因为高能效比在CSP中获得大规模部署,为CSP自有业务、有能力为Arm架构进行软件优化的客户提供更具性价比的选择;x86 CPU的服务器具有更完整的生态和极强的兼容性,对中小型企业意味着开箱即用的通用性与最低的迁移摩擦,具有广泛而稳定的需求。我们预计随着Agentic AI带动AI服务器CPU配比的提升,以及ARM在CSP厂商及企业级客户的持续突破,在2030年全球服务器CPU市场中占比有望接近一半。

图表17:x86 vs ARM市场规模预测及份额

资料来源:IDC,中金公司研究部

Disclaimer: Investing carries risk. This is not financial advice. The above content should not be regarded as an offer, recommendation, or solicitation on acquiring or disposing of any financial products, any associated discussions, comments, or posts by author or other users should not be considered as such either. It is solely for general information purpose only, which does not consider your own investment objectives, financial situations or needs. TTM assumes no responsibility or warranty for the accuracy and completeness of the information, investors should do their own research and may seek professional advice before investing.

Most Discussed

  1. 1
     
     
     
     
  2. 2
     
     
     
     
  3. 3
     
     
     
     
  4. 4
     
     
     
     
  5. 5
     
     
     
     
  6. 6
     
     
     
     
  7. 7
     
     
     
     
  8. 8
     
     
     
     
  9. 9
     
     
     
     
  10. 10