Token低價陷阱

虎嗅APP
昨天

Token最高99%的降價,企業的AI預算卻越花越多。省下來的錢去哪兒了?

出品 | 妙投APP

作者 | 張貝貝

編輯 | 丁萍

頭圖 | 視覺中國

大模型確實越來越便宜,但企業使用AI這件事,正在變得越來越貴。

這聽起來矛盾,卻是當下Token經濟最真實的一面。

以OpenAI公開定價為錨,2023年3月GPT-4發布時每百萬Token輸入30美元/輸出60美元,到2024年5月GPT-4o發布時降至5美元/15美元,再到今天,大量夠用級推理模型已經把價格打到每百萬Token幾毛美元甚至更低。

如果以早期GPT-4價格作為高位錨點,部分通用推理Token價格在三年內最高降幅達99%。

這也是過去兩年行業最流行的判斷:大模型會像帶寬一樣,越用越便宜。

但進入2026年,這個判斷只說對了一半。便宜的是部分模型Token價格,企業的AI運營總支出並未縮減。

原因在於,通用Token價格雖然在探底,企業卻正從簡單問答轉向Agent協作、代碼生成等複雜工作流,而這類任務的Token消耗量往往是簡單問答的十倍甚至百倍,導致算力總支出膨脹。

由此形成價格撕裂期:通用Token在探底,高價值能力在分層,企業AI支出在調用結構中膨脹。

但這種膨脹並非雨露均霑,而是沿着芯片、光模塊、雲平台直至應用等產業鏈環節,進行重新分配。在投資視角下,這種價格分裂的本質,是產業利潤的再分配。誰掌握稀缺資源、關鍵能力和高粘性場景,誰就更有機會在Token用量爆發中持續收費。

本文試圖回答一個更現實的問題:在這場價格撕裂中,AI產業鏈中誰在真正賺錢,誰被成本和價格戰擠壓?

誰在真正賺錢?

過去兩年,簡單問答、摘要、翻譯、分類等通用任務,在MoE架構、緩存、蒸餾和推理優化推動下,成本在逼近「水電價」。

這些任務有幾個共同特徵:可預期、可緩存、可替代、對模型能力要求不極致。這類Token最容易被技術優化,也最容易被價格戰打穿。它們正在從「AI能力」變成「基礎設施能力」。所謂99%的降價紅利,主要發生在這一層。

但企業真正花錢越來越多的地方,並不在這裏,更多集中在編程、Agent協作、長上下文推理、多模態處理等高消耗場景。這些場景正在從低價補貼池裏被剝離出來,重新按「旗艦能力」計費。

智譜為例,其GLM-5.1對準編程與Agent場景,輸入價格為每百萬Token 6-8元,輸出價格為24-28元;日常輕量任務則建議繼續用GLM-4.7,輸入價格為2-4元,輸出價格為8-16元。兩者價差約3倍。

這是模型廠商通過模型檔位分層重新劃分了價格池。它們正在把簡單問答、翻譯、摘要這類任務當作基礎流量,低價獲客;同時開始向編程、Agent、複雜推理、多模態這類場景要利潤。

與此同時,底層的物理成本並未跟隨通用Token的降價變化。HBM價格高位運行、數據中心電力與液冷成本高企,這些硬約束迫使阿里、騰訊、百度等雲廠商在3月罕見上調了AI算力服務價格。

即,當可壓縮場景的Token成本不斷探底,不可壓縮場景的算力成本依然堅挺,這正是企業算力支出失控的底層推手之一。

但更大的問題,不是單價,是用量膨脹。

過去企業用大模型,大多是一問一答,單次調用成本相對可控。

現在更多付費場景變成了Agent協作、長上下文記憶、複雜邏輯推理、代碼生成和多模態處理等。此情況下,即使Token單價下降,但單輪單次任務消耗的Token數量可能放大十倍、幾十倍的情況下,企業AI運營總成本反而可能上漲。

這是為什麼一些企業在大規模開放AI編程工具後,很快遇到預算失控問題。

如Uber在為5000名工程師開放AI編程工具後,僅4個月便燒光了2026全年預算;國內米哈遊技術團隊負責人鄭銀河在2026年5月阿里雲峯會上公開披露,團隊一位工程師測試多Agent協作時,因未設熔斷、數十個Agent進入循環調用,費用飆升,13小時內收到200萬元Token賬單。

正是這三層結構的疊加,導致了「99%降價」與「企業AI更貴」的共存。

而企業多花出去的錢,並沒有消失,它變成了產業鏈上某些環節的收入和利潤。

因為通用Token越便宜,越容易刺激企業把AI推向更復雜、更高頻、更重算力的場景;而這些新增需求,最終會流向芯片、光模塊、雲平台、高價值模型API、應用場景和基礎設施等。

即,真正賺錢的,不是賣便宜Token的人,是能從Token用量爆發裏持續收費的人。這是理解當下AI產業鏈分化的關鍵。

接下來,對產業鏈上中下游分別展開討論。

上游要卡住瓶頸

Token經濟下,AI產業鏈的上游由計算芯片(GPU/NPU/LPU,加速器)、高速存儲(HBM)、高速互聯(含光模塊)、智算中心基礎設施(供電、冷卻)等構成,這些環節決定Token生成的速度、穩定性和單位成本。

但上游並不是一塊鐵板。真正掌握定價權的,是那些卡住了物理瓶頸的環節。

首先是GPU和HBM。

隨着Agent與多模態處理的發展,瓶頸不再侷限於算力,更在於顯存容量、帶寬和數據搬運能力。HBM產能周期長、擴產慢(一般需24–36個月),又被大客戶長協鎖定,供給剛性直接轉化為利潤護城河。

海外三大存儲巨頭(SK海力士、三星美光)憑藉HBM,將DRAM綜合毛利率拉回50%+,其中SK海力士2025年Q4的毛利率已達69%。

更關鍵的是,稀缺的HBM帶寬通常不單獨出售,而是被封裝進GPU加速卡、整機和高速互聯繫統中,最終以整套計算系統的出售溢價體現出來。因此,最厚的利潤池並非單一的HBM或GPU,而是「GPU+HBM+獨家互聯技術」打包在一起的套餐。

不過,國內破局之路尚處起步,長鑫存儲作為唯一DRAM IDM(設計+製造一體化),正以低毛利換良率爬坡,攻堅HBM供給瓶頸;摩爾線程、沐曦、壁仞、燧原科技等GPU廠商則試圖通過自研架構與開放互聯標準(如OISA),在英偉達體系外構建可用的國產算力底座。

從估值層面看,資本市場對於HBM賽道的追捧主要來自於供給緊張。只不過,據長城證券測算,2025-2026年全球HBM供需比分別為45%和27%,缺口確實存在,但有所收窄。這意味着估值錨正在從"有沒有貨"移向"高端佔比與毛利率能不能守得住"。未來一旦HBM產能擴張速度超過需求增速,估值邏輯將會變化,屆時需注意下調風險。

至於GPU賽道,AI算力需求仍在情況下,資本市場仍會活躍。只不過,已經過了「講故事」的階段,轉向「業績檢驗期」。如數據中心收入質量、下一代架構的出貨鎖單、以及單位Token成本下降是否會壓低"按集群付費"的天花線等都會被檢驗。未來任何關於「增速邊際放緩」的信號,可能都會導致估值回調。

其次是光模塊。

AI集群不是簡單堆砌GPU,單服務器內、跨服務器節點間、乃至跨數據中心的互聯能力,共同決定了算力能不能真正跑起來。800G向1.6T光模塊升級,本質上是Token海量爆發後對更高帶寬、更低延遲的剛性需求,這是該賽道走強的重要驅動因素。

所以,這一環節依靠「高端規格迭代+客戶認證壁壘」構築護城河,頭部廠商如中際旭創新易盛的毛利率已從早年30%左右攀升至40%以上。

但要注意的是,中際旭創、新易盛等企業的前五大客戶收入貢獻均超7成,客戶集中風險比較高,任何一個大客戶的訂單波動都會影響全年業績。且這種情況下,光模塊企業的議價能力較弱。未來若1.6T的放量速度不及預期,或買方議價讓平均售價階梯下行速度快於成本降幅,利潤增速可能會面臨拐點。

而中際旭創、新易盛分別為102倍何75倍的滾動市盈率,近5年曆史分位數均在94%以上,意味着市場已把"未來2-3年高增+份額不丟"提前付款,安全邊際薄。

再就是電力與散熱。當單卡功耗繼續上升,傳統風冷接近物理極限,液冷從可選項變成剛需。而高密度機櫃的穩定運行,則依賴於園區級供電容量的冗餘與效率。這一環節是典型的「資本開支驅動+交付能力壁壘」。

英維克憑藉全棧液冷技術綁定頭部算力集群,資本市場上確實享有高溢價。但英維克當下196倍的滾動市盈率,近5年曆史分位數94%,處於估值高位。這意味着市場已經把2026年全年的液冷放量充分定價,甚至透支了部分2027年的預期。未來一旦招標價鬆動或對手報價拉低毛利,估值回調風險會比較大。

特銳德是全球最大的預製艙式變電站製造商,近期推出的」算電島」方案,通過高壓直入與800V直流供電,可將Token的用電成本降低約30%,這一敘事受到市場較多關注。但估值能否從電力設備向AI基礎設施遷移,取決於下半年算電島的訂單和交付數據。

位於產業鏈末端的服務器系統集成與組裝,便是典型的「量大、利薄」賽道。

以國內AI服務器出貨龍頭浪潮信息為例,其主業本質是「品牌整機+JDM聯合設計製造」平台。一台AI服務器的物料成本里,大部分被上游GPU、存儲芯片鎖定,下游又面臨雲廠商的強勢議價,導致其毛利率較低,2025年僅5%左右。它更像是「高級搬運工」,在上下游的夾縫中賺取辛苦錢。

所以,上游各賽道表面看都在漲,底層邏輯卻不同:

(1)HBM/GPU:不可替代性來自物理硬約束(產能周期、技術壁壘、生態鎖定),溢價有"供給剛性"託底,但需警惕產能擴張後的供需逆轉。

(2)光模塊/液冷:不可替代性更多建立在「1.6T升級、雲廠商資本開支擴張」,即需求持續超預期的假設上。彈性最大,但一旦預期落空,跌幅也最猛。客戶集中和價格下降是始終懸在頭上的風險。

(3)電力、液冷:有剛需的安全邊際(電網准入、市佔率、交付能力),也有AI增量需求的彈性預期。AI敘事順利時,它跟着漲;敘事出問題時,它也會跌,但跌幅相對可控。

(4)服務器組裝:不具備不可替代性,沒有定價權,毛利率常年徘徊在個位數。出貨量增長時跟隨行業Beta上漲,但一旦下游砍單或庫存調整,估值會迅速壓縮。市場給它的更多是「低毛利高周轉的周期加工廠」估值。

上游投資的本質,是判斷"不可替代性"的成色:物理約束越硬,安全邊際越高;敘事依賴越強,波動越大;什麼都沒有,就只能賺辛苦錢。

(圖表來源:妙投製作)

中游要鎖定生態

上游劃定了算力的物理成本和稀缺性,但真正把算力變成可售賣、可計費、可被普通開發者調用的「服務」的,是中游的雲廠商、算力租賃平台、大模型供應商以及運營商。(雲廠商、算力租賃平台雖涉足上游基礎設施建設,但其核心利潤來源於中游的平台調度與生態鎖定,故歸入中游)

這一環節的核心邏輯通過分層定價實現利潤最大化,不再是「越便宜越好」。

雲廠商的做法最典型。阿里、騰訊、百度等雲廠商下調通用模型價格,並不意味着願意長期虧錢。對雲廠商來說,通用模型只是入口,真正的利潤池在後面:雲數據庫、雲存儲、雲專線、安全、彈性算力、專屬推理實例和行業解決方案。

因此,當雲廠商上調部分AI算力服務價格時,漲的往往不是普通聊天Token,而是更接近企業生產環境的高消耗服務:專屬集群、彈性算力資源、高可用保障和企業級部署能力等。

當企業被Agent的循環調用綁定在阿里或騰訊等雲生態時,平台收取的費用由「算力費"轉為」企業生產流水的過路費"。這種估值錨是"遷移成本"。

這正是分層定價的體現:用低價的通用模型搶佔入口,再對真正支撐企業級業務(如運行Agent、長上下文推理)的高階服務收取溢價,從而實現利潤最大化。

從估值層面看,中國AI科技股如阿里巴巴騰訊控股估值均在15倍左右,美國同類(微軟/亞馬遜/谷歌)約27倍,差額較大。這是因為市場仍用「傳統互聯網」而非「AI雲」框架定價。未來企業被Agent綁定的「遷移成本」能支撐更高的利潤率中樞時,有望驅動市場重新定價。

模型廠商也在轉向分層定價。輕量模型負責走量,承接可蒸餾、可緩存、可替代的通用流量;旗艦模型負責守價,鎖定編程、長上下文、複雜推理和Agent協作等高價值場景。智譜GLM-4.7與GLM-5.1之間約3倍的價差,就是這種分層定價的縮影。

走生態路線的廠商,如阿里通義、字節豆包更傾向於把模型能力嵌入雲和平台生態,通用檔壓價,後續靠Agent開發平台、企業服務和雲資源消費變現。

走高端能力路線的廠商,則更看重旗艦模型在高價值場景中的付費能力。它們未必要卷最低價,但要證明自己的不可替代性。

從估值層面看,市場交易的是「AGI敘事」而非當期業務。如智譜頂着「全球通用大模型第一股」光環,市銷率高達1000倍,脫離基本面。一旦業績兌現不及預期(算力瓶頸、開源競爭、企業採用放緩),面臨大幅回調風險。(注:①6月18日收盤,市值約9300億港元,2025年營收7億;②因為虧損,所以用市銷率估值)

運營商的Token套餐則是另一種打法。中國移動中國電信中國聯通把AI算力包裝成類似「流量包」的產品,優勢在於用戶觸達和計費體系。但這類模式能否真正賺錢,還要看其數據中心、電力和上游模型成本,能否被規模攤薄。只有智算收入佔比持續提升、生態鎖定能力被驗證,估值纔會有修復空間。

至於算力租賃商,雖然需求景氣度高,但商業模式缺乏技術壁壘,本質是「買卡轉租賺差價」,一旦供需逆轉利潤即刻崩塌。就像通用Token價格降了後,部分客戶可能因為用雲廠商的服務更省事、更便宜而不再續租。

如智譜2025年策略調整就是例證,從"租賃設備"為主轉向算力服務商/雲平台購買計算服務為主。從此維度看,數據港160倍的滾動市盈率不算低,安全墊較弱。

總體看,中游的格局已經比較清楚:有云生態、有模型能力、有企業服務能力的玩家,可以把通用Token當入口;缺乏技術壁壘的算力租賃,則會淪為被擠壓的夾層  。

(圖表來源:妙投製作)

下游要嵌入場景

通用Token降價後,下游並沒有普遍迎來躺贏,而是出現了劇烈的分化。

簡單AI寫作、換臉工具、聊天等無壁壘的應用,競爭會越來越激烈。真正能喫到紅利的,是有場景壁壘、用戶粘性和付費閉環的公司。

這些場景包括AI辦公、AI編程、法律合同審查、醫療報告生成、工業故障排查、金融信息服務等。它們有一個共同點:用戶原本就有明確需求,AI的作用是在已有工作流裏提高效率。

金山辦公是典型代表。WPS原本就有用戶、文檔、訂閱和企業客戶,AI能力嵌入後,可以提升付費轉化、企業客單價和產品粘性。2025年WPS AI國內月活突破8013萬,按年暴漲307%,日均Token調用量超2000億,按年增長超12倍。公司同期營收59.29億元,毛利率高達85.95%。

要知道,金山辦公的高毛利並非模型帶來的,而是文檔場景的護城河帶來的。AI只是提高ARPU和粘性的增強器。沒有場景壁壘的AI應用,反而容易淪為上游硬件和模型API的「打工仔」。

進一步從估值角度看,金山辦公當下27倍左右的滾動市盈率,對比未來2年機構預期的歸母淨利潤年複合增速11%左右看,通用Token降價利好已在估值中體現。未來隨着付費率與留存繼續提升,估值有望進一步走強。但一旦這兩個數據拐頭,溢價也會收窄。

此外,下游還有另一個變量:Token治理能力。

Agent工作流的複雜性,使企業賬單不可預期。企業需要搞清楚哪個Agent最燒錢,哪個Prompt(任務說明書)導致上下文膨脹,哪個用戶/功能/工作流在消耗Token,才能做調整和降本。

這使AI FinOps成為一個新機會。

所謂AI FinOps,指的是圍繞模型調用、Token消耗、模型路由、緩存、上下文壓縮、預算上限和熔斷機制建立的一套成本治理能力。它解決的不是「要不要用AI」,而是「怎麼大規模用AI而不被賬單反噬」。

如,迅策科技正將業務延伸至LLM Observability,即大模型可觀測性,用於跟蹤模型調用、Token消耗和系統表現,相關業務推進值得持續觀察。

從估值角度看,但該賽道目前處於極早期,市場尚未形成統一的估值錨。這類公司更可能參考SaaS的PS估值(5-10倍),後續可跟蹤再驗證。

所以下游真正的分水嶺是「有沒有場景壁壘」和「有沒有Token治理能力」。有場景喫紅利,沒壁壘的公司被同質化競爭卷死;有Token治理能力的控住成本,沒治理能力的公司則可能會被Agent調用量反噬。

寫在最後

綜上,Token經濟下,高估值的錨不僅是模型能力的邊際提升,更是"AI算力通脹"下的物理瓶頸。

這輪變化的起點,是推理算力消耗的快速膨脹。Agent循環、長上下文、多模態任務帶來的算力消耗大幅度增長時,市場的估值錨從"軟件訂閱邏輯"切換到了"硬件消耗邏輯"。

此背景下,產業鏈價值開始重構。真正的利潤,將向具備稀缺性、定價權和現金流兌現能力的環節聚集。

短期看,當前確定性最高的產業機會集中在上游供給側的硬約束資產,包括HBM、GPU、光模塊、電力、液冷和數據中心基礎設施等,這些資源決定了AI能否大規模運行。

中期看,彈性來自雲廠商和模型廠商的分層定價能力,尤其是能否把通用Token調用量轉化為企業級服務收入。通用模型低價獲客,高價值能力分層變現,將成為中游玩家能否穿越價格戰的關鍵。

長期看,最大價值仍會回到下游場景,只有真正嵌入工作流、掌握用戶和數據閉環的AI應用,才能喫到產業成熟後的利潤紅利。此外,擁有Token FinOps,即算力成本治理能力的企業,也值得持續關注,因為企業需要知道AI的錢花到哪裏去了,纔好調整控本。

因此,未來AI產業的投資邏輯,不再是單純比拼模型單價,更多是比誰能在價格分裂中找到自身不可替代的價值,從而保有定價權和利潤份額。

免責聲明:本文內容僅供參照,文內信息或所表達的意見不構成任何投資建議,請讀者謹慎作出投資決策。

本內容未經允許不得轉載。授權事宜請聯繫 hezuo@huxiu.com。

End

想漲知識 關注虎嗅視頻號!

免責聲明:投資有風險,本文並非投資建議,以上內容不應被視為任何金融產品的購買或出售要約、建議或邀請,作者或其他用戶的任何相關討論、評論或帖子也不應被視為此類內容。本文僅供一般參考,不考慮您的個人投資目標、財務狀況或需求。TTM對信息的準確性和完整性不承擔任何責任或保證,投資者應自行研究並在投資前尋求專業建議。

熱議股票

  1. 1
     
     
     
     
  2. 2
     
     
     
     
  3. 3
     
     
     
     
  4. 4
     
     
     
     
  5. 5
     
     
     
     
  6. 6
     
     
     
     
  7. 7
     
     
     
     
  8. 8
     
     
     
     
  9. 9
     
     
     
     
  10. 10