AI價值鏈正在經歷結構性重估。過去賺走大部分利潤的芯片製造商正面臨下游模型廠商的快速追趕,但上游的利潤空間遠未觸及天花板。
SemiAnalysis分析指出,Anthropic年化收入在數月內從90億美元升至逾440億美元,推理毛利率從38%增至70%以上。英偉達目前的定價框架仍以成本為導向,尚未反映推理工作負載經濟學的變化。一旦框架調整,英偉達系統定價具備40%以上的上調空間。台積電N3製程產能同樣處於價值重分配的核心位置。
支撐此判斷的關鍵在於供需兩端的結構性錯配:N3製程預計2026年下半年利用率將超過100%,DRAM工廠已逾90%滿負荷運行,而前沿模型的Token需求仍在以複合速度擴張。這一背景下,英偉達通過SOCAMM內存模塊實現差異化定價的窗口已經打開。
AI價值窪地轉移:基礎設施層讓位於模型層
從2023年至2025年初,AI價值鏈中的絕大部分利潤積聚於基礎設施層。英偉達率先爆發,隨後電力資產Vistra與GE Vernova分別在2024年上漲265%和146%,存儲廠商SanDisk、Western Digital、Seagate和Micron在2025年均實現逾200%漲幅。
這一格局的背面,是模型創建者與推理服務商長期承受的低毛利困境。彼時AI的實際使用價值有限,市場對AI投資回報的質疑聲不斷。
轉折點出現在2025年12月。隨着Agentic AI(智能體AI)真正走向實用,AI的經濟邏輯被徹底改寫。SemiAnalysis披露,其自身年化Token消耗支出已接近員工薪酬的30%,每名員工每月消耗Token量接近50億個,是Meta內部人均用量的5倍以上。大量原本需要初級分析師數小時完成的工作——包括財務建模、數據可視化、盈利分析——如今只需數美元的Token支出即可完成。
SemiAnalysis估算,其團隊在Anthropic Claude上的年化支出峯值已達1095萬美元,而由此帶來的競爭優勢遠超這一成本。Anthropic隨即受益:ARR從90億美元飆升至440億美元以上,推理毛利率從38%升至超過70%。
Token成本驟降,模型廠商利潤率擴張具有持續性
驅動模型廠商毛利率躍升的另一核心因素,是Token生產成本的大幅下降。
從硬件維度看,在8K輸入、1K輸出的標準推理任務上,經過完整軟件優化(含寬EP、計算與預取分離、多令牌預測)的B300系統每秒每GPU可產生約14000個Token,而未優化版本僅約1000個——同款硬件上,軟件優化單獨貢獻了14倍的吞吐量提升。若進一步疊加硬件升級,最優配置的GB300 NVL72相比H100的FP8吞吐量提升約17倍,切換至H100原生不支持的FP4精度後,差距擴大至32倍,而GB300每GPU總擁有成本僅高出約70%。
從定價結構看,Agentic工作負載具有極高的輸入輸出比(Claude Code使用場景約為300:1)與極高的緩存命中率(90%以上),使得絕大多數Token落入最低計費檔。SemiAnalysis估算,Opus 4.7在智能體任務上的真實混合成本約為每百萬Token0.99美元,遠低於標價的每百萬輸入Token5美元。
即便面對Anthropic對Opus系列的大幅降價——Opus 4.5的定價較此前降低三分之二——SemiAnalysis認為Anthropic的單位毛利實際上有所提升:一方面,生產成本隨硬件升級進一步下降;另一方面,用戶大規模從Sonnet切換至Opus,推高了混合ASP。
更具戰略意義的是,Anthropic在高端產品線上仍擁有定價主導權。Opus Fast定價為常規Opus的6倍,而已宣佈的Mythos定價為每百萬Token25美元/125美元,是常規Opus的5倍。SemiAnalysis明確表示,若Anthropic願意開放每百萬Token150美元/750美元的Mythos Fast,其團隊仍會購買——因為生產力提升的價值遠超成本。

模型廠商的定價權為何難以被競爭侵蝕
對於前沿模型高利潤率是否可持續,最常見的質疑來自競爭壓力。SemiAnalysis給出了兩個反駁理由。
其一,前沿閉源模型與開源模型之間的能力差距依然顯著,且短期內難以彌合。以Kimi K2.6(每百萬Token0.95美元/4美元)為代表的低價開源模型對Opus定價幾乎不構成實質性壓制。
其二,算力約束意味着任何一家前沿實驗室都無法獨自服務整個市場。Anthropic已通過將Claude Code鎖定在100美元以上月訂閱門檻、限制第三方接入等方式主動管理需求側。Token需求在可預見的未來將持續超出供給,這意味着有能力提供真正前沿質量的實驗室,可以按照Token所創造的經濟價值而非競爭性成本來制定價格。
英偉達的定價剋制:監管邏輯還是戰略誤判
面對AI價值鏈的深刻重構,英偉達迄今未對其定價框架作出實質性調整,這是一個值得關注的結構性問題。
英偉達目前的定價仍主要以成本為錨,反映的是需求價值隨時間遞減的舊範式——而這一假設已不再成立。當前需求增長並非線性,而是以複合速度擴張,由智能體工作負載爆發與每個工作流程Token消耗量的持續躍升共同驅動。
SemiAnalysis認為,英偉達保持定價剋制,部分原因在於監管層面的顧慮。英偉達在GPU、互聯與軟件棧上的主導地位已引發日益密切的反壟斷關注。在下游AI實驗室同樣大幅盈利的背景下,激進提價可能加劇監管風險,也可能加速客戶向TPU、Trainium等替代平台分散。
在此意義上,英偉達的行為模式與台積電頗為相似。台積電長期以來即便在滿負荷運營、扮演先進製程供應瓶頸的情況下,也未將定價提升至稀缺溢價的極限,而是優先維護生態系統長期穩定與客戶關係。這一邏輯可概括為"AI央行"——通過適度讓利支撐下游生態擴張,而非最大化短期利潤提取,以確保自身在AI時代的長期主導地位。
然而,這一策略存在真實的機會成本。在算力需求持續超過供給的結構性背景下,掌握稀缺資源卻未充分定價,相當於將價值拱手相讓給生態鏈中游和下游。台積電在N3製程上同樣如此——SemiAnalysis直接指出這是"戰略失誤",至少應要求更大規模的預付款安排。
Rubin定價空間:SOCAMM成為利潤新槓桿
英偉達即將推出的Vera Rubin VR NVL72系統,提供了一個重新評估定價框架的契機。
從成本角度看,據測算,VR NVL72實現與GB300 NVL72相同的15.6%項目IRR(5年期,15%預付款)所需的最低GPU租金約為每小時4.92美元。從價值角度看,若以FP8密集算力維度錨定當前GB300每PFLOP租金約0.70美元,VR NVL72對應的理論最高定價約為每GPU每小時12.25美元,是成本地板價的約2.5倍。
這一巨大價差表明,英偉達在VR NVL72定價上擁有充足的上調空間。SemiAnalysis估算,若英偉達將系統定價提升約40%,仍可為Neocloud保留足夠的利潤空間——即便Neocloud將租金提價至每小時8美元以上,對應每PFLOP成本仍低於歷史趨勢線。
在具體機制上,SOCAMM成為最關鍵的定價槓桿。不同於GB300將LPDDR5X內存直接焊接於主板、嵌入整體系統定價,VR NVL72採用可插拔的SOCAMM模塊,允許英偉達將內存作為獨立計費項目單獨列示和定價。
SOCAMM(Small Outline Compression Attached Memory Module,小型化壓縮附加內存模組)是英偉達主導、聯合三星、SK海力士和美光等內存廠商開發的新型模塊化內存標準,基於LPDDR5X(或未來LPDDR6)DRAM技術,面向AI服務器與個人AI超級計算機場景。
模型顯示,英偉達在2026年第一季度支付的SOCAMM合同價格約為每GB 8美元,較上季度大幅提升,主要反映LPDDR5X供應緊張與整體DRAM價格上行。基於對2026年底移動DRAM定價的預測,2026年底SOCAMM定價或超過每GB 13美元,全年均值約10美元為合理假設。
在此基礎上,SemiAnalysis認為英偉達在SOCAMM上收取60%毛利率具有合理性:一是內存供應全面緊張,英偉達在SOCAMM採購上具有優先獲取權;二是VR NVL72在性能/TCO維度遠超同期競品,客戶缺乏可替代選項;三是英偉達本身已面臨SOCAMM採購成本的大幅上漲,向下遊傳導具有合理依據。
此外,內存定價不像GPU定價那樣面臨反壟斷顧慮,這給了英偉達更大的差異化定價空間——包括對Neocloud與超大規模雲廠商實施差別定價。目前,英偉達在網絡設備上已對Neocloud收取約為超大規模雲廠商兩倍的價格,同樣的邏輯完全可以延伸至內存層面。
