Token低價陷阱

Token最高99%的降價，企業的AI預算卻越花越多。省下來的錢去哪兒了？

出品 | 妙投APP

作者 | 張貝貝

編輯 | 丁萍

頭圖 | 視覺中國

大模型確實越來越便宜，但企業使用AI這件事，正在變得越來越貴。

這聽起來矛盾，卻是當下Token經濟最真實的一面。

以OpenAI公開定價為錨，2023年3月GPT-4發布時每百萬Token輸入30美元/輸出60美元，到2024年5月GPT-4o發布時降至5美元/15美元，再到今天，大量夠用級推理模型已經把價格打到每百萬Token幾毛美元甚至更低。

如果以早期GPT-4價格作為高位錨點，部分通用推理Token價格在三年內最高降幅達99%。

這也是過去兩年行業最流行的判斷：大模型會像帶寬一樣，越用越便宜。

但進入2026年，這個判斷只說對了一半。便宜的是部分模型Token價格，企業的AI運營總支出並未縮減。

原因在於，通用Token價格雖然在探底，企業卻正從簡單問答轉向Agent協作、代碼生成等複雜工作流，而這類任務的Token消耗量往往是簡單問答的十倍甚至百倍，導致算力總支出膨脹。

由此形成價格撕裂期：通用Token在探底，高價值能力在分層，企業AI支出在調用結構中膨脹。

但這種膨脹並非雨露均霑，而是沿着芯片、光模塊、雲平台直至應用等產業鏈環節，進行重新分配。在投資視角下，這種價格分裂的本質，是產業利潤的再分配。誰掌握稀缺資源、關鍵能力和高粘性場景，誰就更有機會在Token用量爆發中持續收費。

本文試圖回答一個更現實的問題：在這場價格撕裂中，AI產業鏈中誰在真正賺錢，誰被成本和價格戰擠壓？

誰在真正賺錢？

過去兩年，簡單問答、摘要、翻譯、分類等通用任務，在MoE架構、緩存、蒸餾和推理優化推動下，成本在逼近「水電價」。

這些任務有幾個共同特徵：可預期、可緩存、可替代、對模型能力要求不極致。這類Token最容易被技術優化，也最容易被價格戰打穿。它們正在從「AI能力」變成「基礎設施能力」。所謂99%的降價紅利，主要發生在這一層。

但企業真正花錢越來越多的地方，並不在這裏，更多集中在編程、Agent協作、長上下文推理、多模態處理等高消耗場景。這些場景正在從低價補貼池裏被剝離出來，重新按「旗艦能力」計費。

以智譜為例，其GLM-5.1對準編程與Agent場景，輸入價格為每百萬Token 6-8元，輸出價格為24-28元；日常輕量任務則建議繼續用GLM-4.7，輸入價格為2-4元，輸出價格為8-16元。兩者價差約3倍。

這是模型廠商通過模型檔位分層重新劃分了價格池。它們正在把簡單問答、翻譯、摘要這類任務當作基礎流量，低價獲客；同時開始向編程、Agent、複雜推理、多模態這類場景要利潤。

與此同時，底層的物理成本並未跟隨通用Token的降價變化。HBM價格高位運行、數據中心電力與液冷成本高企，這些硬約束迫使阿里、騰訊、百度等雲廠商在3月罕見上調了AI算力服務價格。

即，當可壓縮場景的Token成本不斷探底，不可壓縮場景的算力成本依然堅挺，這正是企業算力支出失控的底層推手之一。

但更大的問題，不是單價，是用量膨脹。

過去企業用大模型，大多是一問一答，單次調用成本相對可控。

現在更多付費場景變成了Agent協作、長上下文記憶、複雜邏輯推理、代碼生成和多模態處理等。此情況下，即使Token單價下降，但單輪單次任務消耗的Token數量可能放大十倍、幾十倍的情況下，企業AI運營總成本反而可能上漲。

這是為什麼一些企業在大規模開放AI編程工具後，很快遇到預算失控問題。

如Uber在為5000名工程師開放AI編程工具後，僅4個月便燒光了2026全年預算；國內米哈遊技術團隊負責人鄭銀河在2026年5月阿里雲峯會上公開披露，團隊一位工程師測試多Agent協作時，因未設熔斷、數十個Agent進入循環調用，費用飆升，13小時內收到200萬元Token賬單。

正是這三層結構的疊加，導致了「99%降價」與「企業AI更貴」的共存。

而企業多花出去的錢，並沒有消失，它變成了產業鏈上某些環節的收入和利潤。

因為通用Token越便宜，越容易刺激企業把AI推向更復雜、更高頻、更重算力的場景；而這些新增需求，最終會流向芯片、光模塊、雲平台、高價值模型API、應用場景和基礎設施等。

即，真正賺錢的，不是賣便宜Token的人，是能從Token用量爆發裏持續收費的人。這是理解當下AI產業鏈分化的關鍵。

接下來，對產業鏈上中下游分別展開討論。

上游要卡住瓶頸

Token經濟下，AI產業鏈的上游由計算芯片（GPU/NPU/LPU，加速器）、高速存儲（HBM）、高速互聯（含光模塊）、智算中心基礎設施（供電、冷卻）等構成，這些環節決定Token生成的速度、穩定性和單位成本。

但上游並不是一塊鐵板。真正掌握定價權的，是那些卡住了物理瓶頸的環節。

首先是GPU和HBM。

隨着Agent與多模態處理的發展，瓶頸不再侷限於算力，更在於顯存容量、帶寬和數據搬運能力。HBM產能周期長、擴產慢（一般需24–36個月），又被大客戶長協鎖定，供給剛性直接轉化為利潤護城河。

海外三大存儲巨頭（SK海力士、三星和美光）憑藉HBM，將DRAM綜合毛利率拉回50%+，其中SK海力士2025年Q4的毛利率已達69%。

更關鍵的是，稀缺的HBM帶寬通常不單獨出售，而是被封裝進GPU加速卡、整機和高速互聯繫統中，最終以整套計算系統的出售溢價體現出來。因此，最厚的利潤池並非單一的HBM或GPU，而是「GPU+HBM+獨家互聯技術」打包在一起的套餐。

不過，國內破局之路尚處起步，長鑫存儲作為唯一DRAM IDM（設計+製造一體化），正以低毛利換良率爬坡，攻堅HBM供給瓶頸；摩爾線程、沐曦、壁仞、燧原科技等GPU廠商則試圖通過自研架構與開放互聯標準（如OISA），在英偉達體系外構建可用的國產算力底座。

從估值層面看，資本市場對於HBM賽道的追捧主要來自於供給緊張。只不過，據長城證券測算，2025-2026年全球HBM供需比分別為45%和27%，缺口確實存在，但有所收窄。這意味着估值錨正在從"有沒有貨"移向"高端佔比與毛利率能不能守得住"。未來一旦HBM產能擴張速度超過需求增速，估值邏輯將會變化，屆時需注意下調風險。

至於GPU賽道，AI算力需求仍在情況下，資本市場仍會活躍。只不過，已經過了「講故事」的階段，轉向「業績檢驗期」。如數據中心收入質量、下一代架構的出貨鎖單、以及單位Token成本下降是否會壓低"按集群付費"的天花線等都會被檢驗。未來任何關於「增速邊際放緩」的信號，可能都會導致估值回調。

其次是光模塊。

AI集群不是簡單堆砌GPU，單服務器內、跨服務器節點間、乃至跨數據中心的互聯能力，共同決定了算力能不能真正跑起來。800G向1.6T光模塊升級，本質上是Token海量爆發後對更高帶寬、更低延遲的剛性需求，這是該賽道走強的重要驅動因素。

所以，這一環節依靠「高端規格迭代+客戶認證壁壘」構築護城河，頭部廠商如中際旭創、新易盛的毛利率已從早年30%左右攀升至40%以上。

但要注意的是，中際旭創、新易盛等企業的前五大客戶收入貢獻均超7成，客戶集中風險比較高，任何一個大客戶的訂單波動都會影響全年業績。且這種情況下，光模塊企業的議價能力較弱。未來若1.6T的放量速度不及預期，或買方議價讓平均售價階梯下行速度快於成本降幅，利潤增速可能會面臨拐點。

而中際旭創、新易盛分別為102倍何75倍的滾動市盈率，近5年曆史分位數均在94%以上，意味着市場已把"未來2-3年高增+份額不丟"提前付款，安全邊際薄。

再就是電力與散熱。當單卡功耗繼續上升，傳統風冷接近物理極限，液冷從可選項變成剛需。而高密度機櫃的穩定運行，則依賴於園區級供電容量的冗餘與效率。這一環節是典型的「資本開支驅動+交付能力壁壘」。

英維克憑藉全棧液冷技術綁定頭部算力集群，資本市場上確實享有高溢價。但英維克當下196倍的滾動市盈率，近5年曆史分位數94%，處於估值高位。這意味着市場已經把2026年全年的液冷放量充分定價，甚至透支了部分2027年的預期。未來一旦招標價鬆動或對手報價拉低毛利，估值回調風險會比較大。

而特銳德是全球最大的預製艙式變電站製造商，近期推出的」算電島」方案，通過高壓直入與800V直流供電，可將Token的用電成本降低約30%，這一敘事受到市場較多關注。但估值能否從電力設備向AI基礎設施遷移，取決於下半年算電島的訂單和交付數據。

位於產業鏈末端的服務器系統集成與組裝，便是典型的「量大、利薄」賽道。

以國內AI服務器出貨龍頭浪潮信息為例，其主業本質是「品牌整機+JDM聯合設計製造」平台。一台AI服務器的物料成本里，大部分被上游GPU、存儲芯片鎖定，下游又面臨雲廠商的強勢議價，導致其毛利率較低，2025年僅5%左右。它更像是「高級搬運工」，在上下游的夾縫中賺取辛苦錢。

所以，上游各賽道表面看都在漲，底層邏輯卻不同：

（1）HBM/GPU：不可替代性來自物理硬約束（產能周期、技術壁壘、生態鎖定），溢價有"供給剛性"託底，但需警惕產能擴張後的供需逆轉。

（2）光模塊/液冷：不可替代性更多建立在「1.6T升級、雲廠商資本開支擴張」，即需求持續超預期的假設上。彈性最大，但一旦預期落空，跌幅也最猛。客戶集中和價格下降是始終懸在頭上的風險。

（3）電力、液冷：有剛需的安全邊際（電網准入、市佔率、交付能力），也有AI增量需求的彈性預期。AI敘事順利時，它跟着漲；敘事出問題時，它也會跌，但跌幅相對可控。

（4）服務器組裝：不具備不可替代性，沒有定價權，毛利率常年徘徊在個位數。出貨量增長時跟隨行業Beta上漲，但一旦下游砍單或庫存調整，估值會迅速壓縮。市場給它的更多是「低毛利高周轉的周期加工廠」估值。

上游投資的本質，是判斷"不可替代性"的成色：物理約束越硬，安全邊際越高；敘事依賴越強，波動越大；什麼都沒有，就只能賺辛苦錢。

（圖表來源：妙投製作）

中游要鎖定生態

上游劃定了算力的物理成本和稀缺性，但真正把算力變成可售賣、可計費、可被普通開發者調用的「服務」的，是中游的雲廠商、算力租賃平台、大模型供應商以及運營商。（雲廠商、算力租賃平台雖涉足上游基礎設施建設，但其核心利潤來源於中游的平台調度與生態鎖定，故歸入中游）

這一環節的核心邏輯通過分層定價實現利潤最大化，不再是「越便宜越好」。

雲廠商的做法最典型。阿里、騰訊、百度等雲廠商下調通用模型價格，並不意味着願意長期虧錢。對雲廠商來說，通用模型只是入口，真正的利潤池在後面：雲數據庫、雲存儲、雲專線、安全、彈性算力、專屬推理實例和行業解決方案。

因此，當雲廠商上調部分AI算力服務價格時，漲的往往不是普通聊天Token，而是更接近企業生產環境的高消耗服務：專屬集群、彈性算力資源、高可用保障和企業級部署能力等。

當企業被Agent的循環調用綁定在阿里或騰訊等雲生態時，平台收取的費用由「算力費"轉為」企業生產流水的過路費"。這種估值錨是"遷移成本"。

這正是分層定價的體現：用低價的通用模型搶佔入口，再對真正支撐企業級業務（如運行Agent、長上下文推理）的高階服務收取溢價，從而實現利潤最大化。

從估值層面看，中國AI科技股如阿里巴巴、騰訊控股估值均在15倍左右，美國同類（微軟/亞馬遜/谷歌）約27倍，差額較大。這是因為市場仍用「傳統互聯網」而非「AI雲」框架定價。未來企業被Agent綁定的「遷移成本」能支撐更高的利潤率中樞時，有望驅動市場重新定價。

模型廠商也在轉向分層定價。輕量模型負責走量，承接可蒸餾、可緩存、可替代的通用流量；旗艦模型負責守價，鎖定編程、長上下文、複雜推理和Agent協作等高價值場景。智譜GLM-4.7與GLM-5.1之間約3倍的價差，就是這種分層定價的縮影。

走生態路線的廠商，如阿里通義、字節豆包更傾向於把模型能力嵌入雲和平台生態，通用檔壓價，後續靠Agent開發平台、企業服務和雲資源消費變現。

走高端能力路線的廠商，則更看重旗艦模型在高價值場景中的付費能力。它們未必要卷最低價，但要證明自己的不可替代性。

從估值層面看，市場交易的是「AGI敘事」而非當期業務。如智譜頂着「全球通用大模型第一股」光環，市銷率高達1000倍，脫離基本面。一旦業績兌現不及預期（算力瓶頸、開源競爭、企業採用放緩），面臨大幅回調風險。（注：①6月18日收盤，市值約9300億港元，2025年營收7億；②因為虧損，所以用市銷率估值）

運營商的Token套餐則是另一種打法。中國移動、中國電信、中國聯通把AI算力包裝成類似「流量包」的產品，優勢在於用戶觸達和計費體系。但這類模式能否真正賺錢，還要看其數據中心、電力和上游模型成本，能否被規模攤薄。只有智算收入佔比持續提升、生態鎖定能力被驗證，估值纔會有修復空間。

至於算力租賃商，雖然需求景氣度高，但商業模式缺乏技術壁壘，本質是「買卡轉租賺差價」，一旦供需逆轉利潤即刻崩塌。就像通用Token價格降了後，部分客戶可能因為用雲廠商的服務更省事、更便宜而不再續租。

如智譜2025年策略調整就是例證，從"租賃設備"為主轉向算力服務商/雲平台購買計算服務為主。從此維度看，數據港160倍的滾動市盈率不算低，安全墊較弱。

總體看，中游的格局已經比較清楚：有云生態、有模型能力、有企業服務能力的玩家，可以把通用Token當入口；缺乏技術壁壘的算力租賃，則會淪為被擠壓的夾層。

（圖表來源：妙投製作）

下游要嵌入場景

通用Token降價後，下游並沒有普遍迎來躺贏，而是出現了劇烈的分化。

簡單AI寫作、換臉工具、聊天等無壁壘的應用，競爭會越來越激烈。真正能喫到紅利的，是有場景壁壘、用戶粘性和付費閉環的公司。

這些場景包括AI辦公、AI編程、法律合同審查、醫療報告生成、工業故障排查、金融信息服務等。它們有一個共同點：用戶原本就有明確需求，AI的作用是在已有工作流裏提高效率。

金山辦公是典型代表。WPS原本就有用戶、文檔、訂閱和企業客戶，AI能力嵌入後，可以提升付費轉化、企業客單價和產品粘性。2025年WPS AI國內月活突破8013萬，按年暴漲307%，日均Token調用量超2000億，按年增長超12倍。公司同期營收59.29億元，毛利率高達85.95%。

要知道，金山辦公的高毛利並非模型帶來的，而是文檔場景的護城河帶來的。AI只是提高ARPU和粘性的增強器。沒有場景壁壘的AI應用，反而容易淪為上游硬件和模型API的「打工仔」。

進一步從估值角度看，金山辦公當下27倍左右的滾動市盈率，對比未來2年機構預期的歸母淨利潤年複合增速11%左右看，通用Token降價利好已在估值中體現。未來隨着付費率與留存繼續提升，估值有望進一步走強。但一旦這兩個數據拐頭，溢價也會收窄。

此外，下游還有另一個變量：Token治理能力。

Agent工作流的複雜性，使企業賬單不可預期。企業需要搞清楚哪個Agent最燒錢，哪個Prompt（任務說明書）導致上下文膨脹，哪個用戶/功能/工作流在消耗Token，才能做調整和降本。

這使AI FinOps成為一個新機會。

所謂AI FinOps，指的是圍繞模型調用、Token消耗、模型路由、緩存、上下文壓縮、預算上限和熔斷機制建立的一套成本治理能力。它解決的不是「要不要用AI」，而是「怎麼大規模用AI而不被賬單反噬」。

如，迅策科技正將業務延伸至LLM Observability，即大模型可觀測性，用於跟蹤模型調用、Token消耗和系統表現，相關業務推進值得持續觀察。

從估值角度看，但該賽道目前處於極早期，市場尚未形成統一的估值錨。這類公司更可能參考SaaS的PS估值（5-10倍），後續可跟蹤再驗證。

所以下游真正的分水嶺是「有沒有場景壁壘」和「有沒有Token治理能力」。有場景喫紅利，沒壁壘的公司被同質化競爭卷死；有Token治理能力的控住成本，沒治理能力的公司則可能會被Agent調用量反噬。

寫在最後

綜上，Token經濟下，高估值的錨不僅是模型能力的邊際提升，更是"AI算力通脹"下的物理瓶頸。

這輪變化的起點，是推理算力消耗的快速膨脹。Agent循環、長上下文、多模態任務帶來的算力消耗大幅度增長時，市場的估值錨從"軟件訂閱邏輯"切換到了"硬件消耗邏輯"。

此背景下，產業鏈價值開始重構。真正的利潤，將向具備稀缺性、定價權和現金流兌現能力的環節聚集。

短期看，當前確定性最高的產業機會集中在上游供給側的硬約束資產，包括HBM、GPU、光模塊、電力、液冷和數據中心基礎設施等，這些資源決定了AI能否大規模運行。

中期看，彈性來自雲廠商和模型廠商的分層定價能力，尤其是能否把通用Token調用量轉化為企業級服務收入。通用模型低價獲客，高價值能力分層變現，將成為中游玩家能否穿越價格戰的關鍵。

長期看，最大價值仍會回到下游場景，只有真正嵌入工作流、掌握用戶和數據閉環的AI應用，才能喫到產業成熟後的利潤紅利。此外，擁有Token FinOps，即算力成本治理能力的企業，也值得持續關注，因為企業需要知道AI的錢花到哪裏去了，纔好調整控本。

因此，未來AI產業的投資邏輯，不再是單純比拼模型單價，更多是比誰能在價格分裂中找到自身不可替代的價值，從而保有定價權和利潤份額。

免責聲明：本文內容僅供參照，文內信息或所表達的意見不構成任何投資建議，請讀者謹慎作出投資決策。

本內容未經允許不得轉載。授權事宜請聯繫 hezuo@huxiu.com。

End

想漲知識關注虎嗅視頻號！

免責聲明：投資有風險，本文並非投資建議，以上內容不應被視為任何金融產品的購買或出售要約、建議或邀請，作者或其他用戶的任何相關討論、評論或帖子也不應被視為此類內容。本文僅供一般參考，不考慮您的個人投資目標、財務狀況或需求。TTM對信息的準確性和完整性不承擔任何責任或保證，投資者應自行研究並在投資前尋求專業建議。

老虎證券

Token低價陷阱

熱議股票