AI军备竞赛不只拼GPU! Meta(META.US)携手亚马逊Graviton 冲击x86霸权

智通财经
Apr 24

智通财经APP获悉,美国云计算与电商巨头亚马逊(AMZN.US)与Facebook母公司Meta Platforms Inc.(META.US)已达成一项数十亿美元的长期协议,这家社交媒体巨头将租用数十万颗亚马逊自研推出的ARM架构通用数据中心服务器CPU芯片,用于其正在大规模新建的AI数据中心,以满足Facebook以及Instagram等社交媒体用户们的天量级别人工智能推理端工作负载。

亚马逊副总裁,同时也是该公司Annapurna Labs芯片部门联合创始人Nafea Bshara在接受采访时表示,这项多年期协议将让Meta获得Graviton系列数据中心服务器级别中央处理器的长期使用权。

能够生成文本或进行天量级别推理的人工智能大语言模型,通常是使用英伟达主导的AI GPU或者谷歌TPU AI算力集群来进行训练构建或者完整运行推理端AI工作负载。但AI大模型开发者以及B端或者C端AI应用平台的用户们同样迫切需要大型AI数据中心端Graviton这类通用中央处理器(即数据中心服务器CPU)来执行诸多调度与协调类型任务,其中重点包括在模型训练完成后生成对查询的回应以及AI智能体代理式工作流进程,这一过程通常被称为“AI推理”。“如果旁边没有CPU,GPU就毫无用处,”Bshara表示。

GPU/ASIC之外的AI军备竞赛:Meta牵手亚马逊,CPU成为推理时代关键拼图

近年来,亚马逊在其数据中心部署的大多数CPU都是Graviton中央处理器;对于一家曾严重依赖英特尔(INTC.US)硬件体系的公司而言,这是一项巨大成就。Graviton是亚马逊旗下AWS云计算业务部门自研的ARM架构通用服务器CPU,主要承担AI数据中心里的通用计算、调度、数据预处理/后处理、服务编排,以及部分AI推理相关调度与协调工作。

亚马逊首席执行官Andy Jassy最近表示,该公司的数据中心芯片业务部门正朝着一年内实现200亿美元销售额的方向坚定前进,并且高管们正在考虑积极出售这些亚马逊自研的数据中心相关芯片,供像Meta以及CoreWeave这样的其他科技公司在其云计算服务器群中长期租赁或者长期按需使用————迄今为止,这些芯片只存在于亚马逊大型云计算数据中心,。

周五宣布的Meta与亚马逊重磅交易,可谓是大型科技公司之间最新一宗长期且大规模合作;当前,全球科技行业正争相确保获得足够多的AI算力相关的CPU/GPU/ASIC AI处理器设备集群,以驱动新的和正在研发的未来AI大模型。OpenAI和Anthropic已表示,它们正在增加对亚马逊自研Trainium AI芯片的使用;Trainium是亚马逊AWS独家研发的核心性能指标对标英伟达AI GPU算力体系的高性价比AI ASIC技术路线模式的替代型AI算力基础设施方案,并且已开始向OpenAI和Anthropic以及Meta积极营销该公司Trainium等一系列自研AI芯片算力系统。

Meta在为其愈发庞大的AI工作负载获取芯片方面采取了广泛布局,并称这样做是为了实现合作伙伴多元化,以保持灵活性。该公司已与英伟达和AMD等芯片巨头们签署了一系列大型AI算力基础设施供给协议。

Meta同意斥资数十亿美元购买英伟达和AMD共同主导的AI GPU算力基础设施解决方案。该公司最近还签署了一项另外的数十亿美元协议,将使用Alphabet Inc.旗下谷歌独家打造的TPU AI算力集群。

Meta也正在大举投入开发自有AI芯片,以帮助降低成本,并减少对第三方芯片巨头们的依赖。该公司目前正在为AI训练/推理用途开发四个版本的MTIA AI芯片,并且最近宣布扩大与博通的长期深度合作,由后者帮助Meta设计和制造这些AI芯片。

AI智能体时代到来,数据中心CPU需求爆表

AI数据中心建设进程如火如荼可谓推动英特尔数据中心CPU陷入供不应求态势,英特尔部分需求最火热的高性能服务器CPU交期最长拉到足足6个月之久,面向数据中心的这些高性能服务器级别CPU价格今年以来则普遍上涨10%。这也是为何股价萎靡1年半之久的芯片制造商英特尔股价能够在今年暴涨超80%,且这家老牌芯片巨头股价在上周一举创下2000年以来最高股价点位的最底层看涨逻辑。北京时间周五晨间公布全线超预期的业绩之后,英特尔估计在周五美股盘前一度暴涨超30%。

早期大模型推理以“单次请求—单次生成”为主,CPU更多承担数据搬运、请求路由与基础调度,属于典型的辅助控制面;但进入AI智能体与强化学习时代后,系统负载不再是单一前向推理,而是演变为包含任务规划、工具调用、子代理协同、环境交互、状态管理与结果验证在内的复杂闭环。上述“编排层”(orchestration layer)本质上是强控制流、强分支判断、强系统调用、强内存访问的CPU密集型任务,无法被GPU高效替代,因此CPU正从过去的“配角”变成决定系统吞吐、时延与资源利用率的新瓶颈。

摩根士丹利最新预测数据显示,智能体大爆发标志着从计算到编排的结构性转变,由此推导出到2030年新增325亿美元至600亿美元的CPU增量市场空间,并将服务器级别CPU总TAM大幅扩至825亿至1100亿美元量级。TrendForce的一项预测报告则显示,在AI智能体时代,CPU:GPU配比可能会从传统AI数据中心的1:4至1:8,向1:1至1:2大幅重估。

对Meta这种每天处理海量AI agent、推荐、广告、内容生成和查询响应的公司来说,很多任务并不需要昂贵GPU全程参与;大规模利用Graviton这类高密度ARM架构而非英特尔x86架构CPU承接推理服务外围负载,可以降低单位请求成本、释放GPU给更高价值的训练/推理任务,并改善整体集群TCO。Arm公司也强调,AI数据中心扩张正在让低功耗、高效率的ARM架构CPU侧的编排、数据处理和系统控制成为关键瓶颈,而AWS第五代Graviton把核心数提升到192核,反映的正是这种CPU密度需求上升。

Meta主导的这笔最新交易,也凸显出AI算力基础设施竞争正在从“GPU单一需求中心”走向GPU+自研AI ASIC+ Arm/x86数据中心级别CPU +数据中心高速光互连体系+软件堆栈的异构体系。

Disclaimer: Investing carries risk. This is not financial advice. The above content should not be regarded as an offer, recommendation, or solicitation on acquiring or disposing of any financial products, any associated discussions, comments, or posts by author or other users should not be considered as such either. It is solely for general information purpose only, which does not consider your own investment objectives, financial situations or needs. TTM assumes no responsibility or warranty for the accuracy and completeness of the information, investors should do their own research and may seek professional advice before investing.

Most Discussed

  1. 1
     
     
     
     
  2. 2
     
     
     
     
  3. 3
     
     
     
     
  4. 4
     
     
     
     
  5. 5
     
     
     
     
  6. 6
     
     
     
     
  7. 7
     
     
     
     
  8. 8
     
     
     
     
  9. 9
     
     
     
     
  10. 10