突围英伟达算力垄断!亚马逊(AMZN.US)AI ASIC迎来结构性拐点:开始获业界青睐

智通财经
May 20

智通财经APP获悉,据报道,亚马逊(AMZN.US)的 Trainium 人工智能加速器开始赢得一些人工智能开发人员的青睐,这些开发人员历来依赖英伟达(NVDA.US)的产品。

英伟达的GPU被广泛认为在AI加速器市场占据主导地位,由于超大规模数据中心、AI前沿模型实验室和其他买家的旺盛需求,其供应一直处于短缺状态。虽然市场上存在英伟达产品的替代方案,包括AMD、亚马逊、谷歌以及其他定制专用集成电路(ASIC)产品,但据报道,越来越多的开发者开始意识到亚马逊Trainium产品的吸引力。媒体The Information援引了六位使用该芯片或与该芯片合作的人士的访谈。

Superlinked首席执行官Daniel Svonava告诉The Information:“我们一直以来都认为软件支持不足是一个障碍。但这种情况在过去几个月里发生了改变,这个障碍已经消除。”

另一位开发者,Loka 的机器学习负责人 Bojan Jakimovski 也表示,过去几个月人们对 Trainium 的兴趣有所上升,部分原因是英伟达 GPU 的供应紧张。他还补充说,一位客户在测试表明 Trainium 第二代芯片的成本比英伟达 H100 系列芯片最多可降低 35% 后,将其推理工作负载切换到了 Trainium 的第二代芯片上。不过,Jakimovski 补充说,他仍然建议在英伟达的产品上进行大型语言模型训练。

亚马逊首席执行官Andy Jassy近日表示,该公司芯片业务如果独立运营,每年可创造500亿美元的收入。杰西在最近致股东的信中写道: “我们的定制芯片业务现在是全球三大数据中心芯片业务之一。”

开发者为何从"别无选择"走向"主动拥抱"?

英伟达的GPU被广泛认为是AI加速器市场的王者,其CUDA软件生态更是构建了一道令竞争对手难以逾越的护城河。然而,正是因为英伟达的地位太过强势,其产品供应长期处于紧绷状态——超大规模云服务商、AI前沿模型实验室和其他买家如饥似渴的需求,使英伟达GPU长期处于结构性短缺之中。

这种供不应求的局面,催生了市场对替代方案的刚性需求。虽然市场上存在AMD、谷歌TPU及其他定制ASIC等替代选项,但Trainium正以超出市场预期的速度获得开发者的实际采用。

软件生态:从"障碍"到"消除"的质变

Superlinked首席执行官Daniel Svonava对The Information的一番话精准概括了这一转折:"我们一直以来都认为软件支持不足是一个障碍。但这种情况在过去几个月里发生了改变,这个障碍已经消除。"这句话的分量在于:在AI芯片的竞争中,硬件参数往往只决定产品的下限,而软件生态决定了产品的上限。Trainium在软件层面实现从"障碍"到"消除"的蜕变,意味着其不再是一个仅供小范围测试的替代选项,而是具备了规模化商用条件的生产力工具。

成本优势:新一代"降本增效"武器

Loka机器学习负责人Bojan Jakimovski同样观察到Trainium的吸引力正在显著上升,且背后有坚实的经济逻辑支撑。部分客户之所以转向Trainium,直接原因在于英伟达GPU的获取难度;但更重要的是,一位客户在测试发现Trainium第二代芯片的成本比英伟达H100系列最多可降低35%后,果断将其推理工作负载切换到了Trainium上。

在AI推理工作负载日益成为算力消耗主力(目前约占全部AI计算量的三分之二)的趋势下,35%的成本优势意味着对于一家中等规模的AI公司而言,每年可能节省数百万至数千万美元的算力支出。这并非零和博弈中的轻微偏移,而是足以改变采购决策的结构性优势。

技术架构的先发优势:MoE推理的独特护城河

Gavin Baker的判断尤为尖锐且具技术洞察力。他指出,当前主流的前沿AI模型均采用混合专家模型(Mixture of Experts,MoE)架构,而运行此类模型的推理任务,需要交换式扩展网络(Switched Scale-up Network)的基础设施。全球目前仅有两家公司拥有运行中的交换式扩展网络:一家支撑着英伟达的GPU集群,另一家则驱动着亚马逊的Trainium。

这意味着,在MoE模型推理这一快速增长的关键赛道上,Trainium并非简单的追赶者,而是拥有独特技术壁垒的先发者。Baker进一步指出,谷歌TPU在同一领域并不具备同等能力,并透露谷歌虽然发明了MLPerf基准测试,却从未提交过TPU的测试成绩。这一细节的透露,无疑强化了市场对Trainium技术独特性的重新评估。Baker预计,Trainium 3在今年下半年大规模量产后,Trainium在2026年的市场地位将相当于TPU在2025年的地位。

客户生态:从"万级"到"十万级"的临界点跃迁

Trainium的突破不仅体现在技术层面,更体现在客户基础的规模化验证上。据亚马逊在4月与Anthropic深化战略合作时的披露,Trainium与Graviton各自均有超过10万家客户,Amazon Bedrock目前的大部分推理任务均基于Trainium运行。10万家客户这一数字,标志着Trainium的客户基础在2025年下半年以来发生了从量变到质变的跃迁——它已不再是一个只在少数实验室中进行测试的小众产品,而是具备了大规模商用验证的系统性替代方案。

Anthropic与OpenAI:最大的"质量证明"

在关键客户层面,Trainium获得了两家全球最重要AI模型公司的深度绑定。4月20日,亚马逊与Anthropic宣布深化战略合作:亚马逊在原有基础上再向Anthropic追加投资最高250亿美元,而Anthropic则承诺未来10年内将在AWS相关技术上投入超过1000亿美元,并采购最高5吉瓦的AWS当前及未来几代Trainium芯片算力。Anthropic的旗舰模型Claude运行在超过100万个Trainium2芯片上。

OpenAI的加盟同样意义深远。今年2月,OpenAI与亚马逊建立多年期战略合作伙伴关系,亚马逊向其投资500亿美元,并向OpenAI提供2吉瓦的Trainium算力容量。OpenAI承诺使用Trainium 3及下一代Trainium 4芯片,用于支撑其广泛的先进人工智能工作负载。

对于芯片产品而言,客户质量往往比客户数量更具信号意义。当全球最具技术鉴别能力的AI前沿实验室选择将核心工作负载运行在Trainium上时,这本身就是对芯片性能和生态成熟度最有力的背书。

从"租借算力"到"直销芯片":500亿美元帝国的蓝图

更值得关注的是Trainium商业模式的战略升维。今年4月,亚马逊CEO安迪·贾西在一封致股东的信中披露,公司正在考虑改变以往仅供内部使用的策略,转而向第三方直接销售其自研芯片及整机架——若该部门独立运营并全面对外开放,年化营收规模有望达到500亿美元。

贾西进一步指出,这一数字已超过AMD和英特尔的同期水平,并直言"我们的定制芯片业务现在已是全球三大数据中心芯片业务之一"。这并非纸上谈兵。截至披露时,亚马逊已手握2250亿美元的Trainium芯片收入承诺,涵盖Anthropic、OpenAI等战略客户。Trainium2的性价比已高出同类GPU产品30%,且已基本售罄;Trainium3刚刚在2026年开始发货,性价比较Trainium2再提升30%至40%,已几乎全部被预订;就连距离大规模供货还有约18个月的Trainium4,其绝大部分产能也已被锁定。

两代产品全部售罄、连尚未大规模量产的下一代芯片也已被大量预订——这种需求信号在半导体行业历史上极为罕见。它表明Trainium的吸引力并非短期炒作,而是客户在充分评估后做出的长期战略锁定。

ASIC结构性拐点

Trainium的崛起,正在重塑AI芯片领域最深层的产业关系——亚马逊与英伟达之间长期的"供应商与客户"模式。这一关系原本清晰:英伟达负责设计和制造最强大的AI芯片,亚马逊作为最大的云服务商之一大规模采购。然而,当亚马逊开始设计并部署自己的AI加速器时,双方的角色发生了微妙变化。最新数据显示,亚马逊目前部署的Trainium服务器数量已超过英伟达服务器,且公司估算自研芯片相较采用外购GPU可节省数十亿美元的资本支出。

但这一关系并非简单的替代。亚马逊既没有放弃采购英伟达芯片——最新签署的采购承诺仍在扩大——也没有停止对Trainium的重注。两者目前呈现出一种复杂的"竞争共存"格局:Trainium在推理工作负载中快速扩大份额,而英伟达GPU在训练大规模基础模型方面仍占据主导。

从更宏观的行业视角来看,定制ASIC正在经历一个结构性拐点。数据显示,2026年,来自谷歌、微软、亚马逊和Meta的定制AI芯片正以44.6%的复合年增长率高速扩张,而通用GPU的复合年增长率仅为16.1%。定制ASIC的增长主要瞄准推理市场——目前推理已占全部AI计算量的约三分之二。虽然英伟达当前仍占据AI加速器市场超过90%的份额,但分析师预计到2028年,其在推理领域的份额可能从90%以上降至20%至30%。

Trainium是这股定制ASIC浪潮中最重要的变量之一。正如行业报告所论断的:2026年标志着"定制ASIC不再只是实验项目,而是成为英伟达GPU垄断的生产力规模替代方案"的时刻。

现实边界:Trainium距离"全面替代"还有多远?

尽管Trainium正在经历显著的用户增长和性能升级,但在全面评估其市场定位时,必须保持客观与冷静。最需要澄清的一点是:对多数前沿AI实验室而言,Trainium当前更适合推理而非训练。

Bojan Jakimovski虽然证实了Trainium在推理环节的成本优势,但他仍表示会建议客户在大型语言模型训练上继续使用英伟达的产品。这反映了一个现实:在大规模模型训练的灵活性、算子生态的完整性以及社区支持的深度方面,英伟达CUDA生态建立起的优势仍然十分显著。

此外,值得注意的是,Trainium的火热需求与亚马逊股价近期的表现存在一定脱节。尽管Trainium AI芯片正吸引越来越多的开发者兴趣,但亚马逊股价表现近期仍然不如其他科技巨头。市场对于AI芯片领域的竞争加剧——英伟达、AMD、谷歌TPU、微软Maia和Meta MTIA同台竞技——存在整体性的估值重新定价过程。Gavin Baker虽然在Trainium上持积极立场,但同时也强调“我永远不会做空谷歌,也不会做空博通”,表明这是一个多赢市场,而非零和博弈。

此外,所有主流AI芯片——无论是定制ASIC还是英伟达GPU——均采用台积电3nm工艺制造。这意味着谷歌、微软、亚马逊、Meta、英伟达全都在争夺同一家代工厂的有限产能。产能约束对所有玩家一视同仁,任何一家芯片设计商的快速扩张都可能遭遇物理交付上限的制约。

Disclaimer: Investing carries risk. This is not financial advice. The above content should not be regarded as an offer, recommendation, or solicitation on acquiring or disposing of any financial products, any associated discussions, comments, or posts by author or other users should not be considered as such either. It is solely for general information purpose only, which does not consider your own investment objectives, financial situations or needs. TTM assumes no responsibility or warranty for the accuracy and completeness of the information, investors should do their own research and may seek professional advice before investing.

Most Discussed

  1. 1
     
     
     
     
  2. 2
     
     
     
     
  3. 3
     
     
     
     
  4. 4
     
     
     
     
  5. 5
     
     
     
     
  6. 6
     
     
     
     
  7. 7
     
     
     
     
  8. 8
     
     
     
     
  9. 9
     
     
     
     
  10. 10