芯片巨头,集体改命

格隆汇
Yesterday

2025年,AI浪潮持续席卷全球,算力成为了新时代的石油,而围绕算力的争夺,也正改写着整个半导体版图。

其中,英伟达凭借GPU在AI训练领域几乎一骑绝尘,占据超过九成市场份额,其市值突破4.5万亿美元,成为了半导体行业新的领导者。

但英伟达的地位并非牢不可破,AMD博通英特尔等厂商虎视眈眈,都想要从英伟达这里虎口夺势,AI芯片行业迎来了全新的一超多强格局。英伟达高筑软件与生态的护城河,几乎垄断了AI训练的上游体系;而其他芯片巨头与云厂商,则在悄然寻找新的突破口。

AISC和Arm,似乎成为了它们的目标。


英特尔


这两年,英特尔的日子过得并不算好。

多年来,这位“蓝色巨人”一直难以跟上台积电等竞争对手的芯片制造能力,其在AI市场上更是缺乏竞争力的产品线。作为对比,英伟达的AI芯片大卖特卖,AMD也有自己的AI芯片组合,而英特尔的下一个“重磅炸弹”Jaguar Shores还要等到2027年首次亮相,其在AI上的落后早已暴露无遗。

身处困境的英特尔,选择走一条差异化的道路。

据报道,英特尔最近成立了中央工程集团(CEG),将公司内所有工程人才整合到一个部门,由前Cadence Systems高管斯里尼·艾扬格领导。这位在2024年7月从Cadence加入的高管,在推动定制芯片商业模式方面有着深厚的经验,他在Cadence专注于IP业务、设计工具、设计生态系统合作伙伴关系以及定制芯片的垂直市场。他的经验和市场人脉被认为能够加速英特尔利用"ASIC热潮"的能力。

英特尔首席执行官陈立武在第三季度财报电话会议上明确表示,CEG集团将带头拓展新的ASIC和设计服务业务,为广泛的外部客户提供专用芯片。“这不仅将扩展我们核心x86 IP的覆盖范围,还将利用我们的设计优势,提供从通用到固定功能计算的一系列解决方案。”这番话揭示了英特尔的战略雄心——从纯粹的芯片制造商转型为提供“设计+制造+封装”的一站式服务商。

英特尔在ASIC领域的最大竞争优势在于其完整的产业链。作为老牌IDM企业,英特尔拥有芯片专业知识、x86 IP以及提供制造服务的内部代工厂,寻求定制AI芯片的客户可以获得满足所有需求的“一站式”服务。这是市场上任何其他ASIC设计公司都无法提供的优势,即使是博通和Marvell也难以企及,更重要的是,凭借CEG集团,英特尔实现了集中式的横向工程,这意味着将设计服务与制造+封装连接起来的开销大幅降低。

报道指出,英特尔的ASIC业务可能会将该公司的代工厂变成一个成功的服务提供商,使其成为大型科技公司的一个引人注目的选择。在人工智能供应链的中间有很多机会,比如从量产制造利润中获得的收入,甚至是ASIC设计费。如果执行到位,定制芯片业务可能会成为英特尔的下一个主力军,因为它将赋予英特尔系统代工厂的地位,负责供应链的每个环节。

然而,英特尔面临的挑战同样巨大。英伟达最近宣布斥资50亿美元收购英特尔约4%的股份,两家公司将共同开发“多代定制数据中心和PC产品”。这一合作为英特尔带来了机遇,但也带来了复杂的竞合关系。数据中心芯片将是英特尔根据英伟达的规格定制的x86芯片,英伟达将“将这些CPU集成到其AI基础设施平台中,并推向市场”。在消费级市场,英特尔计划打造集成英特尔CPU和Nvidia RTX GPU芯片组的x86 SoC,这意味着英特尔可能会在未来产品中使用英伟达设计的图形芯片,而不是自家的Arc GPU。

这带来了一系列悬而未决的问题。英特尔几十年来一直在开发自己的图形产品,最近推出的Arc品牌专用显卡和集成GPU对Nvidia的一些低端产品构成了直接挑战。英特尔告诉媒体,该公司“将继续提供GPU产品”,但这可能意味着英特尔将专注于低端、低功耗的GPU,而将高端产品留给英伟达。在软件方面,英特尔一直在推广其自有的oneAPI图形计算堆栈,以替代Nvidia的CUDA和AMD的ROCm,但未来这个平台的命运也充满不确定性。

更关键的问题是制造,英伟达采用英特尔的18A制程或英特尔路线图上的其他制程来生产部分芯片的概率其实并不高。英特尔一直在努力寻找大客户,但黄仁勋在回答相关问题时对台积电大加赞赏,表示“台积电的能力,从工艺技术、执行节奏、产能和基础设施的规模,到业务运营的敏捷性……所有这些魔力汇聚在一起,成就了一家世界级的代工厂,能够支持客户如此多样化的需求。台积电的魔力真是无以言表。”这暗示英伟达短期内不太可能大规模转向英特尔代工。

对于英特尔而言,转向ASIC设计服务是在困境中寻找新的增长曲线的必然选择。在人工智能炒作中错失良机的英特尔,希望通过提供完整的设计和制造服务,在AI芯片市场中找到自己的位置。但这绝非易事,尤其是在人工智能市场竞争激烈以及像博通这样的ASIC设计公司不断发展的情况下。英特尔能否抓住这一机遇,将决定这家曾经的芯片霸主能否在AI时代重新崛起。


高通


相较于有些无奈的英特尔,高通的选择颇有些激进。

这家迄今为止一直专注于无线连接和移动设备半导体的公司,正在大举进军大型数据中心市场,直接挑战英伟达和AMD在AI推理领域的地位。近日,高通宣布将发布新的人工智能加速器芯片AI200和AI250,消息传出后,高通股票飙升11%,市场对这一转型给予了高度认可。

据报道,高通将于2026年上市销售的AI200和计划于2027年上市的AI250均可装入装满液冷服务器机架的系统中,这标志着高通进入数据中心领域,成为技术领域增长最快市场的新竞争者。据麦肯锡估计,到2030年,数据中心的资本支出将接近6.7万亿美元,其中大部分将用于基于人工智能芯片的系统。

报道指出,高通数据中心芯片基于高通智能手机芯片中的人工智能部件,称为Hexagon神经处理单元(NPU)。近年来,该公司一直在逐步改进其Hexagon NPU,因此这些处理器的最新版本已经配备了标量、矢量和张量加速器(采用12+8+1配置),支持INT2、INT4、INT8、INT16、FP8、FP16等数据格式,以及用于减少内存流量的微块推理、64位内存寻址、虚拟化和用于额外安全性的Gen AI模型加密。对于高通来说,将Hexagon扩展到数据中心工作负载是一个自然的选择。

高通数据中心和边缘计算总经理杜尔加·马拉迪在与记者的电话会议上表示:“我们首先想在其他领域证明自己,一旦我们在那里建立了实力,我们就很容易在数据中心层面更上一层楼。”这句话透露了高通的战略逻辑——从移动端的AI能力积累,向数据中心市场延伸。

据了解,高通的AI200机架级解决方案配备768GB LPDDR内存,对于推理加速器而言,这已是相当可观的内存容量,高于英伟达和AMD的产品。该系统将使用PCIe互连实现纵向扩展,并使用以太网实现横向扩展。该系统将采用直接液冷,每机架功率高达160kW,这对于推理解决方案而言也是前所未有的功耗。此外,该系统还将支持企业部署的机密计算。该解决方案将于2026年上市。

2027年推出的AI250将会保留这一架构,但增加了近内存计算架构,有效内存带宽提升了10倍以上。此外,该系统将支持分解推理功能,使计算和内存资源能够在不同卡之间动态共享。高通将其定位为一款更高效、高带宽的解决方案,针对大型Transformer模型进行了优化,同时保留了与AI200相同的散热、散热、安全性和可扩展性特性。

高通明确表示,其芯片专注于推理或运行人工智能模型,而不是训练。这是一个明智的差异化策略,避开了英伟达最强势的训练市场。OpenAI等实验室通过处理TB级数据来创造新的人工智能能力,这需要强大的训练芯片,而高通选择专注于已训练模型的运行和部署,这是一个同样庞大但竞争相对较小的市场。

高通表示,其机架式系统最终将降低云服务提供商等客户的运营成本,并且一个机架的功耗为160千瓦,与某些Nvidia GPU机架的高功耗相当,但在推理场景中能提供更好的性能功耗比。高通还在功耗、拥有成本以及内存处理的新方法方面强调其优于其他加速器的优势。

马拉迪强调,高通还将单独出售其AI芯片和其他部件,尤其是针对那些喜欢自行设计机架的超大规模数据中心客户。他表示,其他AI芯片公司,例如英伟达或AMD,甚至可能成为高通部分数据中心部件的客户。“我们试图确保我们的客户能够选择全部购买,或者说‘我要混合搭配’。”这种灵活的商业模式为高通打开了更多市场空间。

而高通的市场验证已然开始。2024年5月,高通宣布与沙特阿拉伯的Humain公司合作,为该地区的数据中心提供AI推理芯片。Humain将成为高通的客户,并承诺部署最多可使用200兆瓦电力的系统。

除了构建硬件平台,高通还在构建一个针对大规模推理优化的超大规模级端到端软件平台。该平台将支持主要的机器学习和生成式人工智能工具集,包括PyTorch、ONNX、vLLM、LangChain和CrewAI,同时实现无缝模型部署。该软件堆栈将支持分解式服务、机密计算以及预训练模型的一键式加载,以简化部署。

马拉迪表示:“我们丰富的软件栈和开放的生态系统支持,使开发者和企业能够比以往更轻松地在我们优化的AI推理解决方案上集成、管理和扩展已训练好的AI模型。Qualcomm AI200和AI250无缝兼容领先的AI框架,并支持一键式模型部署,旨在实现无缝应用和快速创新。”

高通转向数据中心AI推理市场的原因是多方面的。首先,该行业一直由英伟达主导,其GPU迄今占据了超过90%的市场份额,但像OpenAI这样的公司一直在寻找替代方案。谷歌亚马逊微软也在为其云服务开发自己的AI加速器,这为新进入者创造了机会。其次,推理市场的规模正在快速增长,随着越来越多的AI模型部署到生产环境中,推理需求将远超训练需求。第三,高通在移动端积累的Hexagon NPU技术为其进军数据中心提供了技术基础,这是一种从边缘到云端的自然延伸。

高通发布全新的AI芯片,本质上是传统的市场边界正在模糊,移动芯片厂商可以进军数据中心,而数据中心芯片厂商也在向边缘设备延伸,形成了你中有我,我中有你的新的市场竞争格局。


联发科


无独有偶,同样是移动芯片厂商的联发科也在进军AI。这家传统的手机芯片厂商正在成为云端ASIC设计服务的重要玩家,与博通这样的ASIC市场领导者展开直面竞争,并且已经拿下了谷歌Meta等科技巨头的订单。

早在去年,联发科就宣布与英伟达的达成合作,而在今年的英伟达GTC大会上,联发科介绍了其Premium ASIC设计服务,显示联发科与英伟达的合作扩展至IP领域,更弹性的商业模式,能提供各式客制化芯片/HBM4E等,并具有丰富的Cell Library,以及先进制程、先进封装经验,提供定制化芯片完整解决方案。

联发科的核心竞争力在于其SerDes技术。联发科指出,其SerDes技术为ASIC核心优势,涵盖芯片互连、高速I/O、先进封装与内存整合。其中,112Gb/s DSP(数位信号处理器)基于PAM-4接收器,于4奈米FinFET制程打造,实现超过52dB损耗补偿,意谓更低信号衰减、更强捍之抗干扰特性。该技术不仅适用于以太网路、光纤长距传输,现在联发科更推出专为数据中心使用的224G Serdes,并已经完成硅验证。

近日,联发科也正式宣布与英伟达合作设计GB10 Grace Blackwell超级芯片,该芯片将为新推出的NVIDIA DGX Spark提供动力。DGX Spark是一款个人AI超级计算机,旨在帮助开发者在桌面上构建原型、进行微调和推断大型AI模型。

据了解,GB10 Grace Blackwell超级芯片由最新一代Blackwell GPU与Grace 20核Arm CPU组合而成,运用了联发科在设计节能、高性能CPU、内存子系统和高速接口方面的专业知识。该配置提供128GB统一内存,并提供高达1 PFLOP的AI性能,以加速模型调优和实时推理。这使得开发人员能够在本地处理高达2000亿个参数的大型AI模型。此外,该系统内置ConnectX-7网络技术,可将两个DGX Spark系统连接在一起,从而对高达4050亿个参数的模型进行推理。DGX Spark的节能性能足以使用标准电源插座,其紧凑的设计使其能够轻松放置在桌面上。

而除了与英伟达的合作,联发科也在效仿博通和Marvell争取在云服务提供商的市场。根据调研机构指出,部分CSP已在评价英伟达及联发科之IP组合的定制化设计芯片。尽管谷歌TPU(张量处理器)进度稍微递延,第七代TPU预计会在明年第三季投入量产,但采用3nm打造仍有望为联发科增加超过20亿美元的贡献。供应链也透露,谷歌进阶到第八代的TPU,将会开始采用台积电2nm制程,持续在先进制程领域维持领先地位。

联发科的另一个重大突破来自Meta。联发科和博通继续争夺Meta的新专用集成电路(ASIC)项目,业内人士强调,两家公司的表现相当。然而,最近的报道表明,联发科即将获得Meta即将推出的一款2nm工艺ASIC的大额订单,该芯片代号为“Arke”,专注于后训练和推理功能,可能在2027年上半年实现量产。

据IC设计公司透露,联发科在此次产品竞赛中胜出,将是其获得的第二笔重要的云服务提供商(CSP)客户订单。熟悉ASIC领域的业内人士指出,Arke原本并不在Meta的初始计划中。在Iris芯片计划于2025年底量产后,Meta曾计划推出另一款采用N2P工艺的ASIC,名为Olympus。然而,考虑到实际需求和成本效益,Meta在产品发布计划中途推出了一款专用于推理的芯片Arke。因此,Olympus将重新定位为一款专为训练而设计的ASIC,以与Nvidia未来的GPU竞争,其发布时间将推迟到2028年。

Meta之前的产品,主要由ASIC市场领导者博通开发。不过,联发科与Meta之间已有合作关系。例如,Meta早期自主研发的智能眼镜芯片就是与联发科合作开发的,这在ASIC领域奠定了坚实的基础。因此,联发科可能获得Meta对新款Arke产品的青睐,并不完全出乎意料。

业内人士表示,在与谷歌关系稳定后,联发科需要扩大合作范围,以在云端ASIC市场建立更大的影响力。近期,市场观察到CSP巨头的ASIC设计策略和规划发生了变化。尽管云端AI的使用量依然巨大且供应紧张,但CSP已调整其策略以提升成本效益。以前,技术合规性和集成能力是优先考虑的,而往往忽略了成本。如今,随着对云端AI市场实际动态和芯片设计细节的洞察越来越清晰,CSP也致力于开发更实用、更经济的产品。在这样的大环境下,联发科的成本优势正在逐渐显现。

联发科转向ASIC的原因与其独特的市场定位有关。作为一家中国台湾芯片设计公司,联发科在手机芯片市场面临激烈竞争,利润率受到挤压。ASIC设计服务为联发科提供了更高的利润率和更稳定的客户关系。同时,联发科在先进制程、高速接口、内存整合等方面的技术积累,使其能够为云服务提供商提供差异化的解决方案。更重要的是,联发科通过与英伟达的合作,获得了进入高端AI市场的入场券,这是其独立发展难以实现的。


AMD


与其他厂商相比,AMD在ASIC领域的动作相对低调,但其正在开发的基于Arm架构的产品显示出这家公司对未来市场的战略思考。据一篇颇具深度的行业杂志泄露的信息,AMD正在开发一款代号为“Sound Wave”的基于Arm的APU,并将于明年晚些时候发布。

这篇题为《AMD正在开发基于Arm的APU,代号为Sound Wave》的短文被泄露,甚至还附上了部分海关申报单,显示了包裹的尺寸。一段时间以来,一直有传言称AMD正在开发一款基于Arm的设备,但这篇最新泄露的文章透露了其大致规格,包括相当小的32mm x 27mm BGA封装,包含六个CPU核心(两个P核心+四个E核心)和一个RDNA架构GPU,这让它看起来更加现实。目前,用于评估电气特性的电路板正在发货。

从小巧的封装来看,该设备似乎瞄准移动应用,并将充分利用Arm架构的省电特性。与英特尔共享x86架构CPU市场的AMD在PC/服务器市场竞争激烈,但近年来,AMD一直与台积电合作,按照其路线图将基于Zen架构的高性能CPU推向市场,并稳步抢占英特尔的市场份额。

首席执行官苏姿丰长期以来一直奉行通过x86架构巩固高端市场地位以确保更高利润率的产品战略,但现在似乎是时候将在移动领域市场份额不断扩大的Arm架构融入到自己的CPU中了。为数据中心市场供应高性能CPU/GPU的AMD似乎意识到了边缘设备上AI工作负载的未来增长领域。

AMD此前也曾开发过采用Arm架构的CPU,但那次开发最终只是Opteron品牌下名为“A1100”的一次性服务器CPU产品。AMD于2003年凭借K8架构的Opteron品牌进军服务器市场。之后,他们进一步升级流水线结构,并试图以主打高主频的Bulldozer核心架构巩固其地位。然而,产品层面的实际性能并未提升,这一尝试最终以失败告终。结果,AMD在市场上长期缺乏足够的产品来与英特尔竞争。

AMD重返服务器市场的时间被推迟到2017年,直到推出Zen架构产品。A1100 Arm架构服务器CPU是AMD在艰难时期经过反复试验后,开发出来的一款节能服务器处理器。当时,Arm架构尚未在服务器市场被接受,市场吸引力不大,但AMD推出了K12项目作为后继架构。

K12项目旨在推出一个平台,其解码器兼容x86和Arm指令集,并且引脚兼容x86和Arm。当时,AMD将其称为"双架构计算",甚至发布了技术概述。但最终,K12项目在发布之前就被取消了,原因是管理层决定优先开发Zen架构,以重新夺回x86市场的主导地位。现任AI处理器初创公司Tenstorrent首席执行官的Jim Keller当时负责AMD架构开发的工程工作,在一次回顾那段时光的采访中,他表示:“那是一个严重的管理失误。”

英伟达近期宣布入股英特尔,并在x86市场展开合作,这固然是对两家的公司的利好,但与此同时,扎根x86市场的AMD也有了新的危机感。

事实上AMD所处的环境自10年前以来发生了翻天覆地的变化,一方面,技术创新的主流已经从CPU转向GPU,另一方面,随着chiplet架构的发展,引脚兼容的概念已经过时,最重要的是,AMD现在拥有同时开发两种不同架构的财力。

对于AMD而言,押注Arm似乎是面临自身GPU短期难以直接与英伟达竞争情况下,相对最合理的选择之一了。


巨头转向


为何巨头纷纷“变心”?

事实上,随着如今AI发展进入深水区,GPU赖以为傲的通用性反而成了成为束缚,随着AI模型的参数量和部署规模呈指数级上升,给了ASIC与Arm登上舞台的契机。

从底层逻辑看,巨头之所以纷纷押注Arm与ASIC,是因为AI时代的算力需求已经从“通用计算”转向“专用计算”。

GPU之所以在早期称霸,是因为它为AI训练提供了足够的并行计算能力,能灵活应对不同模型的训练需求;但在AI模型进入部署和推理阶段后,能耗、延迟、成本成为新的关键约束,通用GPU庞大的架构反而带来了冗余。ASIC恰恰通过“定制化计算路径”实现了极致的能效比,在不牺牲性能的前提下,将每一颗晶体管都用于最关键的运算任务。

与此同时,Arm架构成为这一趋势的自然延伸。其低功耗、高可扩展的特性,使其在AI推理、边缘计算、智能终端中获得青睐。无论是亚马逊和微软,还是谷歌和Meta,都在用事实证明:x86的霸权正在被削弱,而Arm的灵活授权模式与开放生态正成为AI基础设施的新底座。

对传统巨头而言,转向Arm和ASIC的战略并非单纯的“追风口”,而是一场突破瓶颈,力图争取更大市场的结构性转型:

英特尔希望以ASIC定制服务为突破口,弥补AI芯片代工与设计的落差,借助自身IDM模式打造设计+制造+封装的系统型竞争力;

高通借助移动端的Hexagon NPU积累,从边缘AI向云端推理延伸,意图通过低功耗ASIC系统重塑数据中心能效结构;

联发科依托高速SerDes与内存整合优势,切入CSP的AI ASIC供应链,用高性能+高性价比赢得谷歌与Meta订单;

AMD则以Arm架构探索新型APU,试图在PC与低功耗AI场景建立差异化优势,避免被英伟达与x86生态完全锁死。

最后,更深层次的原因在于:AI芯片产业的价值重心正在“去中心化”。过去,芯片公司卖的是产品,而现在卖的是能力——算力、IP、设计服务、生态接口。定制化的ASIC与可授权的Arm架构,恰好构成了这种去中心化的底层载体,让不同公司能够在特定场景中重新定义竞争规则。

因此,当GPU的黄金时代进入瓶颈期,AI算力的竞争正悄然分流:一条通向“更通用、更昂贵”的高端GPU计算;另一条,则走向“更专用、更高效”的ASIC+Arm体系。

展望未来,AI基础设施将愈来愈往专用芯片而非通用芯片靠拢,届时谁能争取更多的云巨头订单,谁就有望在下一个半导体行业的十年里独占鳌头。

Disclaimer: Investing carries risk. This is not financial advice. The above content should not be regarded as an offer, recommendation, or solicitation on acquiring or disposing of any financial products, any associated discussions, comments, or posts by author or other users should not be considered as such either. It is solely for general information purpose only, which does not consider your own investment objectives, financial situations or needs. TTM assumes no responsibility or warranty for the accuracy and completeness of the information, investors should do their own research and may seek professional advice before investing.

Most Discussed

  1. 1
     
     
     
     
  2. 2
     
     
     
     
  3. 3
     
     
     
     
  4. 4
     
     
     
     
  5. 5
     
     
     
     
  6. 6
     
     
     
     
  7. 7
     
     
     
     
  8. 8
     
     
     
     
  9. 9
     
     
     
     
  10. 10