在 AI 芯片领域,英伟达凭借强大的训练芯片性能牢牢占据市场霸主地位,短期内难逢敌手。然而,随着 AI 推理市场的爆发式增长,这块利润惊人的 “蛋糕” 吸引了众多科技巨头与初创公司入局。
Rivos是其中一个。8月13日,这家位于美国加州的初创公司被曝正在寻求一笔4亿美元到5亿美元的融资。如果这笔融资敲定,那么Rivos自其2021年成立以来,融资总金额将超过8.7亿美元,也是迄今为止尚未大规模量产,却获得最大融资额的芯片初创公司之一。而这家芯片公司的背后投资者之一,是英特尔首席执行官陈立武。
这些初创公司和科技巨头,为何选择从推理侧狙击英伟达?它们又如何凭借差异化技术与成本优势撕开垄断缺口?
推理需求暴涨
在人工智能的世界里,训练与推理犹如驱动行业发展的双引擎,共同塑造着技术演进与市场竞争的格局。
训练,堪称 AI 系统的 “启蒙教育” 阶段。它如同培育一个懵懂孩童,通过海量数据投喂与高强度的算法训练,让 AI 模型从一无所知成长为能够应对复杂任务的 “智能体”。这一过程不仅成本高昂,往往需要强大的算力支撑与巨额资金投入。这个过程耗时漫长,一次完整的训练周期可能长达数月甚至数年。更关键的是,它具有明显的一次性特征,每一次训练都是全新的探索,难以复用。
而推理,则是 AI 技术的 “实战应用” 环节。当 AI 模型完成训练、积累了足够的知识后,推理便负责将这些知识转化为实际生产力,用于解决现实世界中的各类问题。
在生成式 AI 时代,技术架构迎来重大变革。以 Transformer 为代表的AI架构,让基础模型训练趋向稳定和固化。就像搭建好一座坚固的大厦,后续只需进行局部修缮与优化,无需频繁重建,极大降低了重复训练的成本。在这种情况下,推理成为持续创造价值的关键,如同永不停歇的生产线,不断调用模型能力,满足不同的场景和服务。
从商业视角看,训练阶段如同高风险的 “资本赌局”。巨额的研发投入与漫长的回报周期,使得只有少数科技巨头具备入场资格,且投入产出比充满不确定性。
而推理阶段则摇身一变,成为 AI 产业的 “现金印钞机”。广为人知的 AI 应用,无一不是通过向用户收取推理服务费实现盈利。
根据第三方机构Verified Market Research的数据,AI推理芯片市场正在经历爆发式增长,2023年市场规模为158亿美元,预计到2030年规模将达到906亿美元。
市场需求与商业收入在此形成良性循环,推理需求越旺盛,企业营收越高,进而吸引更多资源投入,推动技术迭代升级。这也不难理解,为何英伟达数据中心 40% 的收入都源自推理业务。
推理成本的大幅下降是市场增长的最主要驱动力之一,根据斯坦福大学2025年AI指数报告,在短短18个月内,AI推理成本从每百万token 20美元暴跌至0.07美元,下降了280倍。硬件层面,企业AI硬件成本每年下降30%,能源效率每年提高40%。
算法优化技术如量化、稀疏化和蒸馏等显著降低了模型的计算复杂度和内存需求。有资深投资人就曾向虎嗅表示,现在有效的互联网数据存量已经被使用得差不多了,它的更新是有限的,最终的增长肯定是推理,推理是要把训练好的模型应用到不同的场景。再加上MOE(专家混合模型架构)出现,对于新的信息,只需要局部训练。所以最终爆发的市场肯定是推理,推理是要把训练好的模型应用到不同的场景。
推理市场利润惊人、巨头争抢
摩根士丹利近期发布的一份深度报告,通过构建精细的财务模型,揭示AI推理工厂的惊人利润,将 AI 推理工厂的盈利密码层层解开。
以 100 兆瓦电力消耗为标尺,涵盖基建、硬件与运营的全成本核算显示,无论采用哪家巨头的芯片方案,AI 推理工厂的平均利润率竟普遍突破 50%。其中,英伟达 GB200 以 77.6% 的 “恐怖” 利润率笑傲群雄,尽管其搭载 72颗GB200芯片和NVL72系统售价高达300万美元,但超高的利润回报,仍让科技巨头们“眼红”。
“生成式AI时代,只有英伟达赚到钱了。”一位算法人士告诉虎嗅。
推理,是一份可以测算得出来的生意。当训练端已被英伟达铜墙铁壁牢牢稳住,推理,反而具备了突破英伟达的可能性。推理对生态和性能的要求没有训练苛刻,重点是性价比,也就是成本低,关键的是推理的暴利。
“天下苦英伟达已久。”主要来自对英伟达CUDA生态的依赖,但推理对于CUDA生态系统的依赖通常比训练小一些。原因是,部署灵活性,因为推理阶段可以使用更多样化的硬件和软件平台,包括CPU、边缘设备、WebGPU等,而不一定需要英伟达的CUDA环境,另外,训练过程需要大量的矩阵运算、梯度计算和反向传播,这些操作在CUDA上有高度优化的实现;而推理只需要前向传播,计算量相对较小。
因此,科技巨头选择在推理端逐渐渗透英伟达雄霸的市场。
比如说,根据The Information报道,为了减少对英伟达的依赖,AWS向其客户推销租用自研推理芯片——Trainium提供支持的服务器,并提供了25%的折扣,这个服务器提供的计算能力与英伟达的H100芯片相当。
虎嗅从硅谷科技公司人士、AWS的客户处获知,目前这款服务还没有在AWS的客户中广泛推广,主要是针对Anthropic,2023年亚马逊宣布向这家人工智能初创公司投资40亿美元并获得部分股权。Anthropic发布Claude系列模型,使其跻身全球头部领先模型公司行列。
今年6月,OpenAI也开始通过租用谷歌的TPU,降低推理计算的成本以及在推理侧对英伟达的依赖。
尽管,业内人士表示这并不是一蹴而就的过程,甚至现阶段这个举动从外界看来只是“隔靴搔痒”,生态依然是最大的问题,这涉及背后一整个软件栈的适配,但对于这些科技巨头而言,这确实不得不开始做的一件事——没人希望自己的钱都被英伟达挣了。
初创公司的“蚕食”
在 AI 推理市场的利润盛宴中,科技巨头的博弈只是冰山一角,一众初创公司更是摩拳擦掌,试图分一杯羹。
随着人工智能推理迈入高级学习和决策阶段,对算力的需求呈现出多元化、精细化的特点,通用 GPU 的灵活性优势不再是唯一选择,新兴的芯片初创公司另辟蹊径,聚焦 AI 专用芯片(ASIC)的研发。相较于通用 GPU,ASIC 以更低的成本实现高效运算,尽管应用场景相对单一,但其在特定推理任务中的卓越性能,成为初创公司撬动市场的支点。
在这场初创势力的突围战中,Rivos 无疑是备受瞩目的 “黑马”。从戴尔、台积电到英特尔、联发科,众多行业巨头纷纷为其注资。据The Information援引知情人士的话,Rivos正在开发软件,该软件可以将英伟达的CUDA软件代码,翻译成在Rivos的语言,在其芯片上高效运转。这意味着其芯片可无缝承接英伟达生态的软件资源,极大降低用户迁移成本。
除了Rivos,另一家英伟达的挑战者Groq也在筹集资金。
虎嗅根据公开信息以及The Information上公布的人工智能芯片初创公司的名单,25家英伟达的挑战者,一共从投资者那里筹集了超过70亿美元的资金,总估值达到290亿美元。
初创芯片公司Groq由前谷歌TPU团队成员成立,开发了独特的语言处理单元(Language Processing Unit)架构,这是其最大的技术差异化优势,专门针对AI推理任务进行了优化,号称能提供"世界最快推理"性能。Groq提供了远低于传统GPU的token处理成本的解决方案,这使其在推理市场具有明显的经济优势。如今,Groq已从贝莱德、思科、三星等处累计筹集超过10亿美元,并与沙特阿拉伯达成了价值15亿美元的芯片合作协议,在英伟达渗透率还不算高的中东市场开始拓展自己的芯片生意。
Groq的CEO在一次播客采访中也表示,英伟达可以制造他们原本要制造的每一个GPU,并将其用于高利润的训练业务,而他们则可以接手低利润但高体量的推理业务。
还有的地方是英伟达的视线尚未看到的微小角落——比如一些边缘侧,小型分散的推理需求正悄然爆发。例如从智能家居设备到智能穿戴产品,AI 智能硬件的广泛应用催生海量边缘推理场景。
此外,一些新型算法架构以及与之相结合所开发的芯片正在诞生。在过去几年里,英伟达是“算力越大越好”(Scaling Law)叙事下,最大的受益者,其依靠这套暴力美学,兜售其GPU。
只是Scaling Law到底是不是真正通往通用人工智能的道路?并没有定论,起码Meta首席人工智能科学家杨立昆(Yann LeCun),并不这么认为,“我们不能使用像 ChatGPT 或 GPT4这样的技术来训练机器人清理桌子或者填满洗碗机,即使这对一个孩子来说是一件微不足道的任务,我们还是做不到。”
对于在生成式AI时代处于绝对垄断地位的英伟达而言,GPU的“越多算力越好”的故事还能说多久,不好说,科技界永远在上演颠覆与被颠覆的故事。
Disclaimer: Investing carries risk. This is not financial advice. The above content should not be regarded as an offer, recommendation, or solicitation on acquiring or disposing of any financial products, any associated discussions, comments, or posts by author or other users should not be considered as such either. It is solely for general information purpose only, which does not consider your own investment objectives, financial situations or needs. TTM assumes no responsibility or warranty for the accuracy and completeness of the information, investors should do their own research and may seek professional advice before investing.