在 AI 芯片領域,英偉達憑藉強大的訓練芯片性能牢牢佔據市場霸主地位,短期內難逢敵手。然而,隨着 AI 推理市場的爆發式增長,這塊利潤驚人的 “蛋糕” 吸引了衆多科技巨頭與初創公司入局。
Rivos是其中一個。8月13日,這家位於美國加州的初創公司被曝正在尋求一筆4億美元到5億美元的融資。如果這筆融資敲定,那麼Rivos自其2021年成立以來,融資總金額將超過8.7億美元,也是迄今爲止尚未大規模量產,卻獲得最大融資額的芯片初創公司之一。而這家芯片公司的背後投資者之一,是英特爾首席執行官陳立武。
這些初創公司和科技巨頭,爲何選擇從推理側狙擊英偉達?它們又如何憑藉差異化技術與成本優勢撕開壟斷缺口?
推理需求暴漲
在人工智能的世界裏,訓練與推理猶如驅動行業發展的雙引擎,共同塑造着技術演進與市場競爭的格局。
訓練,堪稱 AI 系統的 “啓蒙教育” 階段。它如同培育一個懵懂孩童,通過海量數據投餵與高強度的算法訓練,讓 AI 模型從一無所知成長爲能夠應對複雜任務的 “智能體”。這一過程不僅成本高昂,往往需要強大的算力支撐與鉅額資金投入。這個過程耗時漫長,一次完整的訓練週期可能長達數月甚至數年。更關鍵的是,它具有明顯的一次性特徵,每一次訓練都是全新的探索,難以複用。
而推理,則是 AI 技術的 “實戰應用” 環節。當 AI 模型完成訓練、積累了足夠的知識後,推理便負責將這些知識轉化爲實際生產力,用於解決現實世界中的各類問題。
在生成式 AI 時代,技術架構迎來重大變革。以 Transformer 爲代表的AI架構,讓基礎模型訓練趨向穩定和固化。就像搭建好一座堅固的大廈,後續只需進行局部修繕與優化,無需頻繁重建,極大降低了重複訓練的成本。在這種情況下,推理成爲持續創造價值的關鍵,如同永不停歇的生產線,不斷調用模型能力,滿足不同的場景和服務。
從商業視角看,訓練階段如同高風險的 “資本賭局”。鉅額的研發投入與漫長的回報週期,使得只有少數科技巨頭具備入場資格,且投入產出比充滿不確定性。
而推理階段則搖身一變,成爲 AI 產業的 “現金印鈔機”。廣爲人知的 AI 應用,無一不是通過向用戶收取推理服務費實現盈利。
根據第三方機構Verified Market Research的數據,AI推理芯片市場正在經歷爆發式增長,2023年市場規模爲158億美元,預計到2030年規模將達到906億美元。
市場需求與商業收入在此形成良性循環,推理需求越旺盛,企業營收越高,進而吸引更多資源投入,推動技術迭代升級。這也不難理解,爲何英偉達數據中心 40% 的收入都源自推理業務。
推理成本的大幅下降是市場增長的最主要驅動力之一,根據斯坦福大學2025年AI指數報告,在短短18個月內,AI推理成本從每百萬token 20美元暴跌至0.07美元,下降了280倍。硬件層面,企業AI硬件成本每年下降30%,能源效率每年提高40%。
算法優化技術如量化、稀疏化和蒸餾等顯著降低了模型的計算複雜度和內存需求。有資深投資人就曾向虎嗅表示,現在有效的互聯網數據存量已經被使用得差不多了,它的更新是有限的,最終的增長肯定是推理,推理是要把訓練好的模型應用到不同的場景。再加上MOE(專家混合模型架構)出現,對於新的信息,只需要局部訓練。所以最終爆發的市場肯定是推理,推理是要把訓練好的模型應用到不同的場景。
推理市場利潤驚人、巨頭爭搶
摩根士丹利近期發佈的一份深度報告,通過構建精細的財務模型,揭示AI推理工廠的驚人利潤,將 AI 推理工廠的盈利密碼層層解開。
以 100 兆瓦電力消耗爲標尺,涵蓋基建、硬件與運營的全成本覈算顯示,無論採用哪家巨頭的芯片方案,AI 推理工廠的平均利潤率竟普遍突破 50%。其中,英偉達 GB200 以 77.6% 的 “恐怖” 利潤率笑傲羣雄,儘管其搭載 72顆GB200芯片和NVL72系統售價高達300萬美元,但超高的利潤回報,仍讓科技巨頭們“眼紅”。
“生成式AI時代,只有英偉達賺到錢了。”一位算法人士告訴虎嗅。
推理,是一份可以測算得出來的生意。當訓練端已被英偉達銅牆鐵壁牢牢穩住,推理,反而具備了突破英偉達的可能性。推理對生態和性能的要求沒有訓練苛刻,重點是性價比,也就是成本低,關鍵的是推理的暴利。
“天下苦英偉達已久。”主要來自對英偉達CUDA生態的依賴,但推理對於CUDA生態系統的依賴通常比訓練小一些。原因是,部署靈活性,因爲推理階段可以使用更多樣化的硬件和軟件平臺,包括CPU、邊緣設備、WebGPU等,而不一定需要英偉達的CUDA環境,另外,訓練過程需要大量的矩陣運算、梯度計算和反向傳播,這些操作在CUDA上有高度優化的實現;而推理只需要前向傳播,計算量相對較小。
因此,科技巨頭選擇在推理端逐漸滲透英偉達雄霸的市場。
比如說,根據The Information報道,爲了減少對英偉達的依賴,AWS向其客戶推銷租用自研推理芯片——Trainium提供支持的服務器,並提供了25%的折扣,這個服務器提供的計算能力與英偉達的H100芯片相當。
虎嗅從硅谷科技公司人士、AWS的客戶處獲知,目前這款服務還沒有在AWS的客戶中廣泛推廣,主要是針對Anthropic,2023年亞馬遜宣佈向這家人工智能初創公司投資40億美元並獲得部分股權。Anthropic發佈Claude系列模型,使其躋身全球頭部領先模型公司行列。
今年6月,OpenAI也開始通過租用谷歌的TPU,降低推理計算的成本以及在推理側對英偉達的依賴。
儘管,業內人士表示這並不是一蹴而就的過程,甚至現階段這個舉動從外界看來只是“隔靴搔癢”,生態依然是最大的問題,這涉及背後一整個軟件棧的適配,但對於這些科技巨頭而言,這確實不得不開始做的一件事——沒人希望自己的錢都被英偉達掙了。
初創公司的“蠶食”
在 AI 推理市場的利潤盛宴中,科技巨頭的博弈只是冰山一角,一衆初創公司更是摩拳擦掌,試圖分一杯羹。
隨着人工智能推理邁入高級學習和決策階段,對算力的需求呈現出多元化、精細化的特點,通用 GPU 的靈活性優勢不再是唯一選擇,新興的芯片初創公司另闢蹊徑,聚焦 AI 專用芯片(ASIC)的研發。相較於通用 GPU,ASIC 以更低的成本實現高效運算,儘管應用場景相對單一,但其在特定推理任務中的卓越性能,成爲初創公司撬動市場的支點。
在這場初創勢力的突圍戰中,Rivos 無疑是備受矚目的 “黑馬”。從戴爾、臺積電到英特爾、聯發科,衆多行業巨頭紛紛爲其注資。據The Information援引知情人士的話,Rivos正在開發軟件,該軟件可以將英偉達的CUDA軟件代碼,翻譯成在Rivos的語言,在其芯片上高效運轉。這意味着其芯片可無縫承接英偉達生態的軟件資源,極大降低用戶遷移成本。
除了Rivos,另一家英偉達的挑戰者Groq也在籌集資金。
虎嗅根據公開信息以及The Information上公佈的人工智能芯片初創公司的名單,25家英偉達的挑戰者,一共從投資者那裏籌集了超過70億美元的資金,總估值達到290億美元。
初創芯片公司Groq由前谷歌TPU團隊成員成立,開發了獨特的語言處理單元(Language Processing Unit)架構,這是其最大的技術差異化優勢,專門針對AI推理任務進行了優化,號稱能提供"世界最快推理"性能。Groq提供了遠低於傳統GPU的token處理成本的解決方案,這使其在推理市場具有明顯的經濟優勢。如今,Groq已從貝萊德、思科、三星等處累計籌集超過10億美元,並與沙特阿拉伯達成了價值15億美元的芯片合作協議,在英偉達滲透率還不算高的中東市場開始拓展自己的芯片生意。
Groq的CEO在一次播客採訪中也表示,英偉達可以製造他們原本要製造的每一個GPU,並將其用於高利潤的訓練業務,而他們則可以接手低利潤但高體量的推理業務。
還有的地方是英偉達的視線尚未看到的微小角落——比如一些邊緣側,小型分散的推理需求正悄然爆發。例如從智能家居設備到智能穿戴產品,AI 智能硬件的廣泛應用催生海量邊緣推理場景。
此外,一些新型算法架構以及與之相結合所開發的芯片正在誕生。在過去幾年裏,英偉達是“算力越大越好”(Scaling Law)敘事下,最大的受益者,其依靠這套暴力美學,兜售其GPU。
只是Scaling Law到底是不是真正通往通用人工智能的道路?並沒有定論,起碼Meta首席人工智能科學家楊立昆(Yann LeCun),並不這麼認爲,“我們不能使用像 ChatGPT 或 GPT4這樣的技術來訓練機器人清理桌子或者填滿洗碗機,即使這對一個孩子來說是一件微不足道的任務,我們還是做不到。”
對於在生成式AI時代處於絕對壟斷地位的英偉達而言,GPU的“越多算力越好”的故事還能說多久,不好說,科技界永遠在上演顛覆與被顛覆的故事。
免責聲明:投資有風險,本文並非投資建議,以上內容不應被視為任何金融產品的購買或出售要約、建議或邀請,作者或其他用戶的任何相關討論、評論或帖子也不應被視為此類內容。本文僅供一般參考,不考慮您的個人投資目標、財務狀況或需求。TTM對信息的準確性和完整性不承擔任何責任或保證,投資者應自行研究並在投資前尋求專業建議。