Token低价陷阱

虎嗅APP
Yesterday

Token最高99%的降价,企业的AI预算却越花越多。省下来的钱去哪儿了?

出品 | 妙投APP

作者 | 张贝贝

编辑 | 丁萍

头图 | 视觉中国

大模型确实越来越便宜,但企业使用AI这件事,正在变得越来越贵。

这听起来矛盾,却是当下Token经济最真实的一面。

以OpenAI公开定价为锚,2023年3月GPT-4发布时每百万Token输入30美元/输出60美元,到2024年5月GPT-4o发布时降至5美元/15美元,再到今天,大量够用级推理模型已经把价格打到每百万Token几毛美元甚至更低。

如果以早期GPT-4价格作为高位锚点,部分通用推理Token价格在三年内最高降幅达99%。

这也是过去两年行业最流行的判断:大模型会像带宽一样,越用越便宜。

但进入2026年,这个判断只说对了一半。便宜的是部分模型Token价格,企业的AI运营总支出并未缩减。

原因在于,通用Token价格虽然在探底,企业却正从简单问答转向Agent协作、代码生成等复杂工作流,而这类任务的Token消耗量往往是简单问答的十倍甚至百倍,导致算力总支出膨胀。

由此形成价格撕裂期:通用Token在探底,高价值能力在分层,企业AI支出在调用结构中膨胀。

但这种膨胀并非雨露均沾,而是沿着芯片、光模块、云平台直至应用等产业链环节,进行重新分配。在投资视角下,这种价格分裂的本质,是产业利润的再分配。谁掌握稀缺资源、关键能力和高粘性场景,谁就更有机会在Token用量爆发中持续收费。

本文试图回答一个更现实的问题:在这场价格撕裂中,AI产业链中谁在真正赚钱,谁被成本和价格战挤压?

谁在真正赚钱?

过去两年,简单问答、摘要、翻译、分类等通用任务,在MoE架构、缓存、蒸馏和推理优化推动下,成本在逼近“水电价”。

这些任务有几个共同特征:可预期、可缓存、可替代、对模型能力要求不极致。这类Token最容易被技术优化,也最容易被价格战打穿。它们正在从“AI能力”变成“基础设施能力”。所谓99%的降价红利,主要发生在这一层。

但企业真正花钱越来越多的地方,并不在这里,更多集中在编程、Agent协作、长上下文推理、多模态处理等高消耗场景。这些场景正在从低价补贴池里被剥离出来,重新按“旗舰能力”计费。

智谱为例,其GLM-5.1对准编程与Agent场景,输入价格为每百万Token 6-8元,输出价格为24-28元;日常轻量任务则建议继续用GLM-4.7,输入价格为2-4元,输出价格为8-16元。两者价差约3倍。

这是模型厂商通过模型档位分层重新划分了价格池。它们正在把简单问答、翻译、摘要这类任务当作基础流量,低价获客;同时开始向编程、Agent、复杂推理、多模态这类场景要利润。

与此同时,底层的物理成本并未跟随通用Token的降价变化。HBM价格高位运行、数据中心电力与液冷成本高企,这些硬约束迫使阿里、腾讯、百度等云厂商在3月罕见上调了AI算力服务价格。

即,当可压缩场景的Token成本不断探底,不可压缩场景的算力成本依然坚挺,这正是企业算力支出失控的底层推手之一。

但更大的问题,不是单价,是用量膨胀。

过去企业用大模型,大多是一问一答,单次调用成本相对可控。

现在更多付费场景变成了Agent协作、长上下文记忆、复杂逻辑推理、代码生成和多模态处理等。此情况下,即使Token单价下降,但单轮单次任务消耗的Token数量可能放大十倍、几十倍的情况下,企业AI运营总成本反而可能上涨。

这是为什么一些企业在大规模开放AI编程工具后,很快遇到预算失控问题。

如Uber在为5000名工程师开放AI编程工具后,仅4个月便烧光了2026全年预算;国内米哈游技术团队负责人郑银河在2026年5月阿里云峰会上公开披露,团队一位工程师测试多Agent协作时,因未设熔断、数十个Agent进入循环调用,费用飙升,13小时内收到200万元Token账单。

正是这三层结构的叠加,导致了“99%降价”与“企业AI更贵”的共存。

而企业多花出去的钱,并没有消失,它变成了产业链上某些环节的收入和利润。

因为通用Token越便宜,越容易刺激企业把AI推向更复杂、更高频、更重算力的场景;而这些新增需求,最终会流向芯片、光模块、云平台、高价值模型API、应用场景和基础设施等。

即,真正赚钱的,不是卖便宜Token的人,是能从Token用量爆发里持续收费的人。这是理解当下AI产业链分化的关键。

接下来,对产业链上中下游分别展开讨论。

上游要卡住瓶颈

Token经济下,AI产业链的上游由计算芯片(GPU/NPU/LPU,加速器)、高速存储(HBM)、高速互联(含光模块)、智算中心基础设施(供电、冷却)等构成,这些环节决定Token生成的速度、稳定性和单位成本。

但上游并不是一块铁板。真正掌握定价权的,是那些卡住了物理瓶颈的环节。

首先是GPU和HBM。

随着Agent与多模态处理的发展,瓶颈不再局限于算力,更在于显存容量、带宽和数据搬运能力。HBM产能周期长、扩产慢(一般需24–36个月),又被大客户长协锁定,供给刚性直接转化为利润护城河。

海外三大存储巨头(SK海力士、三星美光)凭借HBM,将DRAM综合毛利率拉回50%+,其中SK海力士2025年Q4的毛利率已达69%。

更关键的是,稀缺的HBM带宽通常不单独出售,而是被封装进GPU加速卡、整机和高速互联系统中,最终以整套计算系统的出售溢价体现出来。因此,最厚的利润池并非单一的HBM或GPU,而是“GPU+HBM+独家互联技术”打包在一起的套餐。

不过,国内破局之路尚处起步,长鑫存储作为唯一DRAM IDM(设计+制造一体化),正以低毛利换良率爬坡,攻坚HBM供给瓶颈;摩尔线程、沐曦、壁仞、燧原科技等GPU厂商则试图通过自研架构与开放互联标准(如OISA),在英伟达体系外构建可用的国产算力底座。

从估值层面看,资本市场对于HBM赛道的追捧主要来自于供给紧张。只不过,据长城证券测算,2025-2026年全球HBM供需比分别为45%和27%,缺口确实存在,但有所收窄。这意味着估值锚正在从"有没有货"移向"高端占比与毛利率能不能守得住"。未来一旦HBM产能扩张速度超过需求增速,估值逻辑将会变化,届时需注意下调风险。

至于GPU赛道,AI算力需求仍在情况下,资本市场仍会活跃。只不过,已经过了“讲故事”的阶段,转向“业绩检验期”。如数据中心收入质量、下一代架构的出货锁单、以及单位Token成本下降是否会压低"按集群付费"的天花线等都会被检验。未来任何关于“增速边际放缓”的信号,可能都会导致估值回调。

其次是光模块。

AI集群不是简单堆砌GPU,单服务器内、跨服务器节点间、乃至跨数据中心的互联能力,共同决定了算力能不能真正跑起来。800G向1.6T光模块升级,本质上是Token海量爆发后对更高带宽、更低延迟的刚性需求,这是该赛道走强的重要驱动因素。

所以,这一环节依靠“高端规格迭代+客户认证壁垒”构筑护城河,头部厂商如中际旭创新易盛的毛利率已从早年30%左右攀升至40%以上。

但要注意的是,中际旭创、新易盛等企业的前五大客户收入贡献均超7成,客户集中风险比较高,任何一个大客户的订单波动都会影响全年业绩。且这种情况下,光模块企业的议价能力较弱。未来若1.6T的放量速度不及预期,或买方议价让平均售价阶梯下行速度快于成本降幅,利润增速可能会面临拐点。

而中际旭创、新易盛分别为102倍何75倍的滚动市盈率,近5年历史分位数均在94%以上,意味着市场已把"未来2-3年高增+份额不丢"提前付款,安全边际薄。

再就是电力与散热。当单卡功耗继续上升,传统风冷接近物理极限,液冷从可选项变成刚需。而高密度机柜的稳定运行,则依赖于园区级供电容量的冗余与效率。这一环节是典型的“资本开支驱动+交付能力壁垒”。

英维克凭借全栈液冷技术绑定头部算力集群,资本市场上确实享有高溢价。但英维克当下196倍的滚动市盈率,近5年历史分位数94%,处于估值高位。这意味着市场已经把2026年全年的液冷放量充分定价,甚至透支了部分2027年的预期。未来一旦招标价松动或对手报价拉低毛利,估值回调风险会比较大。

特锐德是全球最大的预制舱式变电站制造商,近期推出的”算电岛”方案,通过高压直入与800V直流供电,可将Token的用电成本降低约30%,这一叙事受到市场较多关注。但估值能否从电力设备向AI基础设施迁移,取决于下半年算电岛的订单和交付数据。

位于产业链末端的服务器系统集成与组装,便是典型的“量大、利薄”赛道。

以国内AI服务器出货龙头浪潮信息为例,其主业本质是“品牌整机+JDM联合设计制造”平台。一台AI服务器的物料成本里,大部分被上游GPU、存储芯片锁定,下游又面临云厂商的强势议价,导致其毛利率较低,2025年仅5%左右。它更像是“高级搬运工”,在上下游的夹缝中赚取辛苦钱。

所以,上游各赛道表面看都在涨,底层逻辑却不同:

(1)HBM/GPU:不可替代性来自物理硬约束(产能周期、技术壁垒、生态锁定),溢价有"供给刚性"托底,但需警惕产能扩张后的供需逆转。

(2)光模块/液冷:不可替代性更多建立在“1.6T升级、云厂商资本开支扩张”,即需求持续超预期的假设上。弹性最大,但一旦预期落空,跌幅也最猛。客户集中和价格下降是始终悬在头上的风险。

(3)电力、液冷:有刚需的安全边际(电网准入、市占率、交付能力),也有AI增量需求的弹性预期。AI叙事顺利时,它跟着涨;叙事出问题时,它也会跌,但跌幅相对可控。

(4)服务器组装:不具备不可替代性,没有定价权,毛利率常年徘徊在个位数。出货量增长时跟随行业Beta上涨,但一旦下游砍单或库存调整,估值会迅速压缩。市场给它的更多是“低毛利高周转的周期加工厂”估值。

上游投资的本质,是判断"不可替代性"的成色:物理约束越硬,安全边际越高;叙事依赖越强,波动越大;什么都没有,就只能赚辛苦钱。

(图表来源:妙投制作)

中游要锁定生态

上游划定了算力的物理成本和稀缺性,但真正把算力变成可售卖、可计费、可被普通开发者调用的“服务”的,是中游的云厂商、算力租赁平台、大模型供应商以及运营商。(云厂商、算力租赁平台虽涉足上游基础设施建设,但其核心利润来源于中游的平台调度与生态锁定,故归入中游)

这一环节的核心逻辑通过分层定价实现利润最大化,不再是“越便宜越好”。

云厂商的做法最典型。阿里、腾讯、百度等云厂商下调通用模型价格,并不意味着愿意长期亏钱。对云厂商来说,通用模型只是入口,真正的利润池在后面:云数据库、云存储、云专线、安全、弹性算力、专属推理实例和行业解决方案。

因此,当云厂商上调部分AI算力服务价格时,涨的往往不是普通聊天Token,而是更接近企业生产环境的高消耗服务:专属集群、弹性算力资源、高可用保障和企业级部署能力等。

当企业被Agent的循环调用绑定在阿里或腾讯等云生态时,平台收取的费用由“算力费"转为”企业生产流水的过路费"。这种估值锚是"迁移成本"。

这正是分层定价的体现:用低价的通用模型抢占入口,再对真正支撑企业级业务(如运行Agent、长上下文推理)的高阶服务收取溢价,从而实现利润最大化。

从估值层面看,中国AI科技股如阿里巴巴腾讯控股估值均在15倍左右,美国同类(微软/亚马逊/谷歌)约27倍,差额较大。这是因为市场仍用“传统互联网”而非“AI云”框架定价。未来企业被Agent绑定的“迁移成本”能支撑更高的利润率中枢时,有望驱动市场重新定价。

模型厂商也在转向分层定价。轻量模型负责走量,承接可蒸馏、可缓存、可替代的通用流量;旗舰模型负责守价,锁定编程、长上下文、复杂推理和Agent协作等高价值场景。智谱GLM-4.7与GLM-5.1之间约3倍的价差,就是这种分层定价的缩影。

走生态路线的厂商,如阿里通义、字节豆包更倾向于把模型能力嵌入云和平台生态,通用档压价,后续靠Agent开发平台、企业服务和云资源消费变现。

走高端能力路线的厂商,则更看重旗舰模型在高价值场景中的付费能力。它们未必要卷最低价,但要证明自己的不可替代性。

从估值层面看,市场交易的是“AGI叙事”而非当期业务。如智谱顶着“全球通用大模型第一股”光环,市销率高达1000倍,脱离基本面。一旦业绩兑现不及预期(算力瓶颈、开源竞争、企业采用放缓),面临大幅回调风险。(注:①6月18日收盘,市值约9300亿港元,2025年营收7亿;②因为亏损,所以用市销率估值)

运营商的Token套餐则是另一种打法。中国移动中国电信中国联通把AI算力包装成类似“流量包”的产品,优势在于用户触达和计费体系。但这类模式能否真正赚钱,还要看其数据中心、电力和上游模型成本,能否被规模摊薄。只有智算收入占比持续提升、生态锁定能力被验证,估值才会有修复空间。

至于算力租赁商,虽然需求景气度高,但商业模式缺乏技术壁垒,本质是“买卡转租赚差价”,一旦供需逆转利润即刻崩塌。就像通用Token价格降了后,部分客户可能因为用云厂商的服务更省事、更便宜而不再续租。

如智谱2025年策略调整就是例证,从"租赁设备"为主转向算力服务商/云平台购买计算服务为主。从此维度看,数据港160倍的滚动市盈率不算低,安全垫较弱。

总体看,中游的格局已经比较清楚:有云生态、有模型能力、有企业服务能力的玩家,可以把通用Token当入口;缺乏技术壁垒的算力租赁,则会沦为被挤压的夹层  。

(图表来源:妙投制作)

下游要嵌入场景

通用Token降价后,下游并没有普遍迎来躺赢,而是出现了剧烈的分化。

简单AI写作、换脸工具、聊天等无壁垒的应用,竞争会越来越激烈。真正能吃到红利的,是有场景壁垒、用户粘性和付费闭环的公司。

这些场景包括AI办公、AI编程、法律合同审查、医疗报告生成、工业故障排查、金融信息服务等。它们有一个共同点:用户原本就有明确需求,AI的作用是在已有工作流里提高效率。

金山办公是典型代表。WPS原本就有用户、文档、订阅和企业客户,AI能力嵌入后,可以提升付费转化、企业客单价和产品粘性。2025年WPS AI国内月活突破8013万,同比暴涨307%,日均Token调用量超2000亿,同比增长超12倍。公司同期营收59.29亿元,毛利率高达85.95%。

要知道,金山办公的高毛利并非模型带来的,而是文档场景的护城河带来的。AI只是提高ARPU和粘性的增强器。没有场景壁垒的AI应用,反而容易沦为上游硬件和模型API的“打工仔”。

进一步从估值角度看,金山办公当下27倍左右的滚动市盈率,对比未来2年机构预期的归母净利润年复合增速11%左右看,通用Token降价利好已在估值中体现。未来随着付费率与留存继续提升,估值有望进一步走强。但一旦这两个数据拐头,溢价也会收窄。

此外,下游还有另一个变量:Token治理能力。

Agent工作流的复杂性,使企业账单不可预期。企业需要搞清楚哪个Agent最烧钱,哪个Prompt(任务说明书)导致上下文膨胀,哪个用户/功能/工作流在消耗Token,才能做调整和降本。

这使AI FinOps成为一个新机会。

所谓AI FinOps,指的是围绕模型调用、Token消耗、模型路由、缓存、上下文压缩、预算上限和熔断机制建立的一套成本治理能力。它解决的不是“要不要用AI”,而是“怎么大规模用AI而不被账单反噬”。

如,迅策科技正将业务延伸至LLM Observability,即大模型可观测性,用于跟踪模型调用、Token消耗和系统表现,相关业务推进值得持续观察。

从估值角度看,但该赛道目前处于极早期,市场尚未形成统一的估值锚。这类公司更可能参考SaaS的PS估值(5-10倍),后续可跟踪再验证。

所以下游真正的分水岭是“有没有场景壁垒”和“有没有Token治理能力”。有场景吃红利,没壁垒的公司被同质化竞争卷死;有Token治理能力的控住成本,没治理能力的公司则可能会被Agent调用量反噬。

写在最后

综上,Token经济下,高估值的锚不仅是模型能力的边际提升,更是"AI算力通胀"下的物理瓶颈。

这轮变化的起点,是推理算力消耗的快速膨胀。Agent循环、长上下文、多模态任务带来的算力消耗大幅度增长时,市场的估值锚从"软件订阅逻辑"切换到了"硬件消耗逻辑"。

此背景下,产业链价值开始重构。真正的利润,将向具备稀缺性、定价权和现金流兑现能力的环节聚集。

短期看,当前确定性最高的产业机会集中在上游供给侧的硬约束资产,包括HBM、GPU、光模块、电力、液冷和数据中心基础设施等,这些资源决定了AI能否大规模运行。

中期看,弹性来自云厂商和模型厂商的分层定价能力,尤其是能否把通用Token调用量转化为企业级服务收入。通用模型低价获客,高价值能力分层变现,将成为中游玩家能否穿越价格战的关键。

长期看,最大价值仍会回到下游场景,只有真正嵌入工作流、掌握用户和数据闭环的AI应用,才能吃到产业成熟后的利润红利。此外,拥有Token FinOps,即算力成本治理能力的企业,也值得持续关注,因为企业需要知道AI的钱花到哪里去了,才好调整控本。

因此,未来AI产业的投资逻辑,不再是单纯比拼模型单价,更多是比谁能在价格分裂中找到自身不可替代的价值,从而保有定价权和利润份额。

免责声明:本文内容仅供参照,文内信息或所表达的意见不构成任何投资建议,请读者谨慎作出投资决策。

本内容未经允许不得转载。授权事宜请联系 hezuo@huxiu.com。

End

想涨知识 关注虎嗅视频号!

Disclaimer: Investing carries risk. This is not financial advice. The above content should not be regarded as an offer, recommendation, or solicitation on acquiring or disposing of any financial products, any associated discussions, comments, or posts by author or other users should not be considered as such either. It is solely for general information purpose only, which does not consider your own investment objectives, financial situations or needs. TTM assumes no responsibility or warranty for the accuracy and completeness of the information, investors should do their own research and may seek professional advice before investing.

Most Discussed

  1. 1
     
     
     
     
  2. 2
     
     
     
     
  3. 3
     
     
     
     
  4. 4
     
     
     
     
  5. 5
     
     
     
     
  6. 6
     
     
     
     
  7. 7
     
     
     
     
  8. 8
     
     
     
     
  9. 9
     
     
     
     
  10. 10