Semianalysis:智能体火爆,CPU成为新的“AI瓶颈”

华尔街见闻
Apr 09

随着AI智能体和强化学习(RL)的爆发式增长,原本在AI浪潮初期被边缘化的通用处理器(CPU),正遭遇前所未有的算力挤兑,成为继GPU之后新的基础设施瓶颈。

近期,随着各大科技巨头财报陆续落地,市场对AI基础设施的关注点正在发生微妙转移。投资者不仅紧盯GPU的订单与交付,更开始寻找AI应用落地带来的新增长极。

4月8日,知名半导体分析机构SemiAnalysis首席分析师Dylan Patel在一次深度访谈中指出,由于AI工作负载的范式正在从简单的文本生成向复杂的“智能体(Agents)”和“强化学习(RL)”演进,CPU正面临极其严重的产能短缺。

在AI发展的头几年,核心算力需求几乎全被GPU占据。正如Dylan Patel所言:“在AI的头几年,CPU确实严重滞后……负载很轻。你发一个字符串,它回一个字符串,简单的推理,对CPU需求不大。”

然而,这一局面在过去几个月里发生了颠覆性的变化,核心驱动力正是以OpenAI o1为代表的具备逻辑推理和智能体属性的新一代模型。

智能体与强化学习推升CPU需求

模型不再仅仅是“生成文本”,而是开始自主执行任务、调用数据库并自我验证,这让CPU的工作量呈指数级上升。

Dylan Patel给出了一个极具冲击力的数据:

“就在最近六个月吧,代码智能体的收入在很短的时间内从几十亿美金涨到了超过100亿美金。这些智能体的任务时长也大幅增加:比如Claude Code可以连续工作六七个甚至七八个小时……它可以自己去ping、去抓取、以智能体方式自主工作。这也需要大量的CPU。”

与此同时,强化学习的训练循环变得越来越紧密。未来的AI不仅要做数学题,还要在物理模拟器中导航,这要求生成器(模型)生成的每一步都需要在CPU集群上进行高频验证。

“这个循环在过去几年变得越来越紧……在过去六个月里,我们看到整个云市场的CPU都跑光了。”

云厂商疯狂扩容,微软“卖空”CPU已致GitHub不稳

市场需求的骤增直接导致了云端算力的枯竭。为了满足头部AI实验室的需求,大型云厂商甚至牺牲了其他业务的稳定性。Dylan Patel直言:

“我不知道你们最近有没有经常和GitHub打交道,它真的很不稳定……那是因为微软把他们所有闲置的CPU都卖给了别人。”

这种短缺正在逼迫企业进行极端的工程迁移。据透露,OpenAI此前几乎只在x86 CPU上运行,但为了获得算力,他们直接向亚马逊要存量处理器。

“亚马逊有大量的ARM CPU,于是他们把整个栈都移植了过去——只要能拿到CPU,到哪里我都愿意移植我的代码库。”

关于CPU的市场价格,Dylan Patel说道:

“CPU的利润率没那么高,但正在攀升,因为Intel和AMD在涨价而且供应紧张。”

从数据来看,扩容正在全行业上演。“亚马逊安装的CPU服务器数量,今年比去年同比增长了3倍。到处都没有容量了。

此外,为了不让昂贵的GPU闲置等待,客户必须保持CPU“热池”持续运行,这种商业逻辑进一步放大了对CPU的需求。

硬件淘金热蔓延:存储暴涨,3nm产能全线告急

算力的短缺已经沿着产业链迅速向上传导,不仅英特尔和AMD发出了涨价通知,甚至连面向C端的PC市场也受到波及(如苹果Mac mini脱销)。

Dylan Patel用一句极其生动的话形容当下的硬件市场:

“通常,出现淘金热的时候,连拿着坏镐头的人也能卖掉他的镐头。”

他补充了市场高度关注的存储和芯片制造环节的涨价数据:

“内存价格在过去一年涨了4倍,而且还会继续涨。现在SSD价格也涨了3-4倍,而且至少还会再涨60%。”

更令市场担忧的是晶圆代工产能的挤压。AI芯片正在吸干台积电的最先进制程产能:

“AI正在买走所有3纳米和2纳米的产能……现在所有AI芯片都在往3纳米迁移:AMD的MI350系列、亚马逊和谷歌的Trainium 3和TPU v7、英伟达的Rubin——所有这些都在3纳米上。”

这甚至迫使苹果、高通等移动端巨头向下迁移,或者让英伟达将部分订单转移至三星

以下是访谈的文字记录:

主持人:

大家好。很高兴请到Dylan。我第一次看他视频是一次采访,他谈到:虽然我们有CPU,但我们要讨论Neo clouds以及它们为什么有存在的权利。那对我来说非常有意思,因为今天的主题正是:当智能体(agents)已经到来时,新的基础设施基元是什么?你当时把Neo clouds与超大规模云服务商的不同之处,以及它们为什么应该存在,阐述得非常清楚。能跟我们分享一下吗?

Dylan Patel:

当然。在AI时代,超大规模云服务商的动作有点慢,对吧?谷歌、亚马逊、微软,进入AI领域都有点慢。于是一批全新的公司冒了出来,而且出现了一个新的低门槛——亚马逊、微软、谷歌构建的那些复杂软件,很多其实并不需要。事实上,那些复杂软件反而拖慢了AI的发展:它们有自定义网络,但那些网络对AI并不太友好,更关注可靠性和存储流量,而不是像在网络上做all-reduce之类的事情。

所以这些大型云厂商、超大规模云服务商有很多东西,Neo clouds可以直接跳过,然后构建专注、优化的解决方案,并提供更低的成本,因为它们的开销要低得多——这些Neo clouds里没有两万个谷歌的项目经理坐在会议室里(尽管有些Neo clouds已经开始招聘谷歌的项目经理,从而放慢了速度)。它们在能源上行动迅速,在搭建GPU集群上行动迅速,所以它们能够开辟出一块市场。那是早期的那些。自那以后,出现了很多模仿者或追随者——很多没有成功,很多正在成功。这实际上就是一场比谁最有能力的战斗。

主持人:

那么,是不是所有——我想大概有200家左右这样的Neo clouds,对吗?——你看到它们之间有差异化吗?是不是有些只是在复制最早那批的软件栈?有些在做别的事情?你有没有看到这些Neo clouds中哪些做法成功、哪些不太成功?

Dylan Patel:

是的,有很多因素能区分它们。我们有一个叫"Cluster Max"的东西,给所有Neo clouds排名。我们会测试各种东西:可观测性、可靠性、网络、安全、管理、编排等等,这些都不一样。比如,有人会测试他们的GPU在用户空闲时是否工作正常——那是主动健康检查还是被动健康检查?风扇转速是否合适?功耗是否正确?节点是否有问题?网络是否有问题?性能是否达标?有各种各样的检查和测试,因为GPU是不可靠的。还有GPU之上的软件类型:很多人一开始只做裸金属,比如微软与CoreWeave的最初合同全是裸金属——你只需SSH进去,微软自己搭建环境。

但随着发展,人们想要更多:有人想要安装Slurm,那很简单;有人想要安装Kubernetes,稍微难一点,但仍然很简单;有人想要在Kubernetes上安装Slurm,因为这样更容易推送作业等等。现在开始有人做托管Ray服务之类的东西,用于强化学习(RL)。所以有一类Neo clouds在构建这些东西,而另一类Neo clouds则说"我不在乎,我只建GPU,然后以裸金属方式出租"。成本上也有差异:拥有好软件的Neo clouds往往收费更高,某种程度上又回到了传统模式——谷歌、微软、亚马逊有好软件,收费也高得多。而且你会看到很多这类云公司开始尝试推出推理服务和其他东西。

主持人:

类似地,顺着这个思路,我就想说到CPU了。历史上,我们有客户要求像OpenClaw那样的东西——有些人说"我需要我的沙箱或CPU盒子长时间运行,你能给我一个5美元像Hetzner那样的产品吗?"我说不行,因为那是裸金属机器,成本很低。但当你提供更大的软件产品时,成本就会更高,所以很难与之竞争。所以我猜在Neo clouds里也一样,正如你提到的,裸金属的销售成本比那些往软件方向走的要低。

我只是好奇它们为什么有存在的权利——这有点像我们做的事情的类比。但真正的问题是,你提到了这一点,我们正在思考的方向是:CPU成了新的瓶颈。以前每个投资人、每个我聊过的人都只谈GPU。现在你出了一份大报告讲CPU,我心里想"好的,没错,谢谢你"。所以你报告里说今年会是瓶颈。那么请从TDR层面高屋建瓴地告诉我们:为什么CPU现在是瓶颈?你看到了什么?

Dylan Patel:

是的,在AI的头几年,CPU确实严重滞后。它被用于一些存储、一些检查点、一些数据预处理和预训练,但负载很轻。推理方面,模型还不够好,无法成为智能体——你不能让它一步步地行动。所以当时没有能力让模型去执行动作并把它们串起来,基本上是你发一个字符串,它回一个字符串,简单的推理,对CPU需求不大。

但过去几年——其实不光是过去几年,比如Q*开始,OpenAI有那些风波,然后最终o1预览版发布——说实话那是15、16个月前的事了(感觉上久远得多)。o1是第一个这类模型。然后涌现了一大批模型。以前人们会做简单的事,比如用正则表达式检查模型输出,看看是否正确,或者做结构化输出用于函数调用等等。但随着时间的推移,对模型的检查变得规模大得多,并且已经完全集成到训练中——通过强化学习。

不再只是用正则表达式,而是用各种分类器;不再只是分类器,而是做代码单元测试和编译;再进一步,你运行智能体流程,它实际上去调用数据库之类的,或者与一个对CPU负载很重的环境(如物理模拟或生物模拟)交互。模型输出内容,然后检查它——这个环境(强化学习环境)——然后再回去基于它进行训练。这个循环在过去几年变得越来越紧。

而最近——就说最近六个月吧——代码智能体的收入在很短的时间内从几十亿美金涨到了超过100亿美金。这些智能体的任务时长也大幅增加:比如Claude Code(或类似模型)可以连续工作六七个甚至七八个小时。在这个过程中,它会调用数据库,调用各种东西(至少我们用了很多Cron服务器),反正什么都做——它可以自己去ping、去抓取、以智能体方式自主工作。这也需要大量的CPU。所以过去六个月这方面也急剧膨胀。再加上强化学习训练循环变得越来越紧。因此在过去六个月里,我们看到整个云市场的CPU都跑光了——我不知道你们最近有没有经常和GitHub打交道,它真的很不稳定。

主持人:

我想你是今天第三个提到这事的人了。

Dylan Patel:

好的。我们一直在检查GitHub的统计数据:宕机多频繁?提交失败多频繁?情况很糟。那是因为微软把他们所有闲置的CPU都卖给了别人——要么是内部实验室自己用,但更多的是外部实验室。他们和Anthropic、OpenAI签了合同,所以自己几乎没有CPU剩下了。

我们在很多其他公司也看到了同样的情况。以前,每个CPU服务器对应很多GPU服务器,比如100兆瓦的GPU可能只由1兆瓦甚至更少的CPU来服务。但现在这个比例正在变得非常接近,无论是对于RL训练还是推理(智能体推理)。然后你就看到所有地方的CPU都跑光了。亚马逊安装的CPU服务器数量,今年比去年同比增长了3倍。到处都没有容量了。这不仅导致GitHub很不稳定,可能其他地方也是。

主持人:

我的意思是,今天我们谈论了很多基础设施相关的事情。每天都能看到某个基础设施提供商——不管是GitHub还是别的什么(不点名了)——出现宕机,这已经变得很常见了。这可能是CPU短缺的原因,也可能是工作负载规模等原因。

Dylan Patel:

也可能是所有人的基础设施代码都是"vibe coded"(凭感觉乱写)的。

主持人:

对,也可能是所有人的基础设施代码都是vibe coded。我不认为全是,但可能有一部分是。我看到很有意思的是,运行在我们这里的CPU工作负载数量——Daytona基本上有三个用例:代码和命令执行(比如类似cloud code的东西需要跑在CPU上);还有计算机使用用例,这个我们实际上看到增长非常快。我们今天刚宣布了Windows沙箱,它也跑在CPU上。

如果你需要一个智能体去处理遗留软件(比如金融、客服等领域,全都在那里)。另外正如你所说,强化学习方面,我们有很多通常用Kubernetes的人,现在开始用我们。但有趣的是,这些负载的规模和体量极其巨大,而且还在极其快速地增长。而我们是世界上最小的云。所以我好奇的是:如果我们这么小的公司都有这么大的量,那么在大规模下会是什么样子?

而且我们遇到过——我想知道你有没有这方面的洞察——光是RL,更不用说长时间运行的智能体了(仅就后者而言,我们看到客户进来,其中一个客户在昨天6小时内跑了100万个BCP工作负载。就一个客户)。那么有多少客户在做RL?他们都会需要这个。我不知道你有没有什么见解,但我很好奇。

Dylan Patel:

我的意思是,有些指标相当惊人——100万vCPU听起来很疯狂。但有些人签的合同和工作负载的规模甚至比这还要离谱。

主持人:

我相信那是因为我们确实很小。

Dylan Patel:

对,是这原因。所以我想,当你再看像Anthropic、OpenAI这样的公司时,他们已经完全吃掉了多个云的全部容量。最近亚马逊和OpenAI交易的一大推动力——是的,OpenAI想要钱,他们需要算力,但他们也直接去找亚马逊说"把你的CPU给我们"。

之前OpenAI的栈几乎只在x86 CPU上运行,但亚马逊有大量的ARM CPU,于是他们把整个栈都移植了过去——只要能拿到CPU,到哪里我都愿意移植我的代码库。这就能看出人们愿意投入的工程水平了,因为通常开发者都懒得动,直接去别的地方找容量,但现在别的地方也没有容量了。

主持人:

是的,有意思。我们全是x86,只有这些。我们目前还没有ARM。但除了这两家,还有Nvidia有自己的CPU,还有其他人也在造自己的CPU。这些CPU之间也有差异。它们都只是通用CPU吗?你可能比我懂得多,我超级好奇。

Dylan Patel:

关于CPU的类型。

主持人:

现在种类太多了。以前基本上只有x86和ARM。现在有了不同类型的CPU。是因为大家都跑光了,还是它们在某些方面确实更好?有什么特别的吗?

Dylan Patel:

通常,出现淘金热的时候,连拿着坏镐头的人也能卖掉他的镐头。CPU市场现在非常动态。目前主要是Intel和AMD——我猜你们主要用Intel和AMD的CPU。这两家都说自己完全卖光了,已经向客户发了涨价通知。它们甚至不再互相竞争了,只是想着"我能造多少卖多少"。同样,亚马逊有Graviton CPU,已经发展到第五、第六代了。Nvidia有Grace和Vera CPU。

但之前没人真正部署过Grace独立CPU机箱——Nvidia为了PR做了一些小规模部署,但实际上独立CPU部署非常少。为什么呢?只是因为它们不够好。但现在向前看,也许它们的CPU变好了,也许捆绑销售得更好,但更重要的是因为它们有容量(因为其他人都没容量了),所以它们能在自己的各种CPU上拿到更多合同,大概今年晚些时候或明年初开始部署。

所以这是一个非常动态的市场。然后微软和谷歌也开始部署自己的CPU,而且开始上量。Arm几周后要发布一款CPU,Meta会采用,Cloudflare等几家公司也会采用。所以会有更多的ARM独立方案,而不只是Arm授权IP给别家。市场上会出现更多的多样化——这正是在淘金热时会发生的。然后我们会看到,当供需缺口逐渐弥合时,到底谁的品质最好、谁能留下来。

主持人:

但看起来需求的规模还是会增长。至少我看到的:第一,RL——似乎RL大部分是在做后训练,但现在已经有供应商和公司在推销并创建实时RL的服务。因为你有了一些智能体,你有了一些在后台是智能体的SaaS,然后它会在一天结束时做RL,基本上是为了从自己的行为中学习。

所以那在增长。另外,这些长时间运行的智能体——如果它们能工作更长时间、解决更多问题,你基本上可以让它们做更多事情,它们会启动越来越多的这类智能体,这意味着越来越多的CPU盒子。那么从你的视角看,你理解市场动态,最终可能会收敛,但我感觉在需求缩小之前,它还会变得更宽。

Dylan Patel:

是的,完全是这样。因为最初所有的RL都是"来做数学证明",数学证明对资源需求很低。而且模型(生成器)会生成大量输出,然后把正确答案(或它认为的答案)发给服务器,服务器去验证。但随着时间的推移,不再是那样了:模型会多次提交,或者在它的智能体过程中多次尝试编译,或者多次尝试做单元测试。这增加了生成器(也就是模型)发送给验证器的频率,这个循环越来越紧。随着我们进入更复杂的RL,模型实际上会不断地验证自己的输出。

比如说,想象一下未来一两年训练的模型——比如一个机器人模型,在一个世界模型中验证:视觉语言模型(VLM)在世界上导航,试图拿起东西、放下东西。每一步都需要被验证,而物理模型跑在某个CPU集群上。那需要的CPU量会多得疯狂,远比你做单元测试或跑数学证明要多。看o1,它基本只能做数学。再看像GPT-5.4或Opus 4.6这样的模型,它们能做智能体软件。但当我们进入下一阶段——不管是什么——会有能够理解"我需要系鞋带,系的时候鞋带强度是多少?抗拉强度是多少?"的模型。所有这些都需要计算,因为验证器只是在生成下一步,但每一步都需要更频繁地被检查,而且检查这一步的计算强度也会随时间增加。

主持人:

但还有另一件事,你可能比我知道得更清楚:GPU的强度决定了它们能并行处理一定数量的CPU盒子。随着下一代GPU的出现,我觉得它们会比现在能够启动、管理或处理更多的CPU,这会给CPU带来另一个压力。

Dylan Patel:

是的,肯定是这样。GPU的功耗也在变得更高,所以一个GPU随时间推移会对应越来越多的CPU用量。而且GPU每一代都变得更贵,而vCPU价格持平或略有下降。所以规模确实不同了:一个Blackwell对比一个Rubin,性能提升了X倍,价格也提升了X倍。

而CPU呢,你买上一代还是新一代——这一代有192个vCPU,上一代大概是96个,所以你有更多的CPU,但价格上涨的幅度和你获得的额外vCPU数量是成比例的。所以vCPU的比例会增长,但成本方向可能也是有利于CPU的,但不确定幅度多大。

主持人:

是的,另一个压力——我们在较大客户身上看到过:他们GPU有时间配额,他们不希望GPU闲置。所以他们宁愿付钱给一个热池来运行CPU,这样当GPU有任务来时,CPU是热的(实际上在工作)。所以他们会——因为我们做的——大多数CPU某种程度上是便宜的资源(虽然我们不觉得自己便宜),但对于这个场景来说是便宜的资源。这实际上会消耗更多的GPU,因为闲置GPU的成本太高了。

Dylan Patel:

对,这真是一个很有意思的点。商业模式上,没人——当然有按需GPU,但比如Lambda有5万多块GPU,其中只有4000块是按需的,而且总是卖光。所以实际上没有人真正有按需GPU。每个人都至少签长期合同(多月的),大多数情况下是多年的。而CPU的使用方式是可以随时启停——这就是为什么大家当初都上云。但在这些工作负载下,GPU生成器(跑在GPU上的模型)生成一堆东西,发给验证器。如果验证器没有准备好等着,GPU就在空转。你已经为GPU付了钱,如果你不能在CPU那边瞬时拿到资源,实际上你应该预启动。你不是在加载模拟器或环境,你是在浪费钱。所以确实如此。

主持人:

不仅如此,一旦这些跑起来,你又会启动另一个热池,这样每一次新的迭代都在持续增长。那么总体来说这意味着什么?我们跳过了RAM,没谈内存。以前GPU是瓶颈,我们测量过,现在是CPU。那么对大多数人来说更切身的是:现在PC很难买,因为超级贵。CPU也会这样吗?你刚才提到它们相对便宜且价格持平。市场压力会推动它们涨价吗?

Dylan Patel:

是的,PC、笔记本电脑、组装PC都很难买到。比如Apple的Mac mini基本卖光了。我们买了一大批Mac mini,因为以前用Excel和Windows的人现在想用Claude Code,而OSX显然开发环境更好。所以人们买了很多Mac mini在部署使用。我觉得整个领域都类似,而数据中心对资源的购买更加缺乏弹性,这也导致价格上涨。GPU一直很贵,英伟达的利润率一直在70%以上。

CPU的利润率没那么高,但正在攀升,因为Intel和AMD在涨价而且供应紧张。内存价格在过去一年涨了4倍,而且还会继续涨。现在SSD也涨了,所有资源都在涨:SSD价格也涨了3-4倍,而且至少还会再涨60%——没有DRAM那么多,但也很多。所以综合来看,Intel和AMD的CPU产能某种程度上可以在PC和数据中心之间转换,内存和存储则非常可互换。结果就变成了:去他的普通用户——你得现在买Mac mini,否则你就永远脱离不了永久底层阶级了,差不多是这种思路。

主持人:

最后一个问题,我们时间快到了。不是财务建议,Intel之前处境非常糟糕,最近开始有起色。但CPU需求会把他们拉出困境吗?

Dylan Patel:

他们会好一些,但这并不是说公司得救了——公司估值基于未来现金流。而且有一种可能性是他们会得到Apple或其他客户。更有意思的是,不是因为CPU需求高到Intel能从中获得一些短期利润——其他人(AMD、亚马逊等)会赶上来的,他们会补上自己的产能。更重要的是,AI正在买走所有3纳米和2纳米的产能,几年内人们将不得不转向其他方向。比如英伟达收购Grok,人们编了各种无厘头理由,一部分是因为他们想要极快的推理,但另一部分是因为Grok是用三星制造的——因为台积电那边没有3纳米产能给他们了,他们需要别处流片。

如果AI真的像我们相信的那样疯狂,需求像我们相信的那样疯狂,明年会更疯狂。那么只要造出任何像样的芯片就能卖掉——差不多是这种哲学。显然他们在架构等方面做了更多事情,但同样的情况也适用于Apple:台积电告诉Apple,"嘿,从3纳米下来吧,快点迁移到2纳米,我能做。"因为所有AI芯片都在3纳米上,这需要时间。小型移动芯片比大AI芯片容易制造。现在所有AI芯片都在往3纳米迁移:AMD的MI350系列、亚马逊和谷歌的Trainium 3和TPU v7、英伟达下周要发Rubin——所有这些都在3纳米上。台积电让Apple下来,让高通和联发科下来。这三家公司可能会想"也许我们该用Intel,因为Intel没有让我们下来"——但Intel做不了啊。所以大家都很难。

主持人:

我还有很多问题想问,但我们只剩下20秒了。我下一个问题肯定会超时。那就先到这里,非常感谢你来和我们交流。谢谢!

Disclaimer: Investing carries risk. This is not financial advice. The above content should not be regarded as an offer, recommendation, or solicitation on acquiring or disposing of any financial products, any associated discussions, comments, or posts by author or other users should not be considered as such either. It is solely for general information purpose only, which does not consider your own investment objectives, financial situations or needs. TTM assumes no responsibility or warranty for the accuracy and completeness of the information, investors should do their own research and may seek professional advice before investing.

Most Discussed

  1. 1
     
     
     
     
  2. 2
     
     
     
     
  3. 3
     
     
     
     
  4. 4
     
     
     
     
  5. 5
     
     
     
     
  6. 6
     
     
     
     
  7. 7
     
     
     
     
  8. 8
     
     
     
     
  9. 9
     
     
     
     
  10. 10