文|半導體產業縱橫
「AI 行業正在使用一個‘錯誤的工具’。」
當 Cerebras 創始人 Andrew Feldman 拋出這個論斷時,英偉達正憑藉 GPU 統治着萬億級市場。
Andrew Feldman是否在口出狂言?Cerebras 用一塊餐盤大小、擁有 900,000 個核心的晶圓級引擎 WSE-3,試圖用「一顆芯片即一個集群」的解決方案來回答這個問題。
Cerebras 相信,深度學習的核心瓶頸從未在算力本身,而在於數據跨越芯片邊界時撞上的那堵內存牆。
2026 年 3 月,Oracle 在財報分析師會議上主動提及正在部署 Cerebras 芯片,將其與 Nvidia、AMD 並列為核心加速器供應商,這一「順帶點名」被業內視為 Cerebras 進入超大型企業採購視野的重要信號。
01叫板英偉達,Cerebras做對了什麼?
Cerebras由Andrew Feldman(前SeaMicro聯合創始人,後被AMD收購)於2016年創立。
Cerebras 推出的WSE-3 是迄今規模最大的人工智能芯片,面積達 46,255 平方毫米,集成 4 萬億個晶體管。它憑藉 90 萬個 AI 優化內核 提供 125 PFLOPS 的 AI 算力,晶體管數量是英偉達 B200 的 19 倍,算力更是其 28 倍。
同時,WSE-3配備44GB片上SRAM與21PB/s的內存帶寬,徹底打破了傳統內存瓶頸。其晶圓級互聯架構可提供27PB/s的內部帶寬,速度是最新一代NVLink的206倍。
WSE 最多可將 2048 套系統組合在一起,提供 256 EFLOPS 的 AI 算力。AI 開發者可以訓練參數規模高達 24 萬億的模型,而無需處理多 GPU 調度和並行策略帶來的複雜問題。
傳統 GPU(如 B200)必須不斷從片外的 HBM 內存中讀取數據,這受限於 HBM 的帶寬,這也是AI大模型爆發帶動HBM存儲迅速發展的重要原因——通過強化片外存儲的傳輸能力,被動緩解算力與存儲分離帶來的性能瓶頸。
Cerebras 將 44GB 的高速內存直接放在 90 萬個 AI 核心旁邊,無需再通過片外鏈路調取數據,從物理架構上消除數據往返傳輸延遲。
2026 年1 月,Cerebras 與OpenAI 簽署多年合作協議,承諾為 OpenAI 提供 750 兆瓦的推理算力,部署規模將分階段在 2026 至 2028 年間落地,合同總價值逾 100 億美元,被官方稱為「全球最大規模高速AI推理部署」。OpenAI官方公告指出,此次合作的核心目的之一是降低ChatGPT實時響應的推理延遲。
2026 年3 月 13 日,AWS 宣佈與 Cerebras 建立多年合作,將 Cerebras CS-3 系統部署於 AWS 數據中心,通過 Amazon Bedrock 提供推理服務。官方新聞稿顯示,這是首次有主流超大規模雲平台在自有數據中心內部署非 GPU AI 加速器。
AWS計算服務副總裁David Brown表示:「這種分離式架構讓每個系統各盡其長,結果將是比今天任何方案都快一個數量級的推理性能。」
行業分析機構 Futurum 在其評析中指出,這一合作「是標誌性的新階段——推理架構正在獨立,專用芯片將取代單體 GPU 部署,用於延遲敏感型任務。」
02用面積換性能,真無敵了嗎?
Artificial Analysis 的測評表示,Cerebras CS-3 在Meta Llama 4 Maverick(400B 參數)模型上達到 2,522 tokens/秒,超過英偉達 Blackwell B200 的1,038 tokens/秒,領先幅度約 2.4 倍。對比Llama 3.1 8B小模型,差距更顯著:Cerebras可達約1,800 t/s,而英偉達H100約為90 t/s,相差約20倍。
按 token 計費的雲服務,DeepSeek V3 在Cerebras 上的定價為輸入 $0.20/百萬 tokens、輸出 $0.50/百萬 tokens,綜合價格極具競爭力。截至2025年9月,Cerebras已在北美、歐洲擴建至五個新數據中心,並同步在AWS Marketplace上線,進入企業級採購渠道。
AI 行業正在從「訓練為主」轉向「推理為主」」,而推理對延遲極為敏感。ChatGPT 等對話 AI、多步驟智能體(Agentic AI)、實時代碼生成等場景,都對 tokens/秒有嚴苛要求。AI 推理市場規模預計將從 2025 年的 1,062 億美元增長至 2030 年的 2,550 億美元,CAGR 約19%。
這項測評展示了 Cerebras 在推理領域速度與成本上的顯著優勢,但要得出「完全碾壓」的結論還為時過早。
英偉達最強大的武器並非硬件,而是極其成熟的CUDA 生態。開發者在轉向 Cerebras 時需適配專有編譯器,且目前對動態控制流等高級 AI 特性的支持尚不完整,這種遷移成本是企業決策時的核心障礙。全球數以百萬計的AI工程師在CUDA上深度訓練,遷移至Cerebras平台存在學習成本。分析指出,AWS Bedrock集成的戰略意義之一,正是通過託管服務降低工程師直接接觸底層硬件差異的必要性——如果開發者無需修改代碼就能使用Cerebras,生態差距的影響將大幅減小。
CS-3 單系統功耗高達 50kW,遠超單台 GPU 服務器。對於空間和電力受限的傳統數據中心來說,部署此類設備面臨物理基礎設施的制約。
同時,在加速數據通信上,英偉達並未坐以待斃。除了 Blackwell 的快速迭代,英偉達還通過收購推理初創公司 Groq 的核心資產,以及推出 NIM 推理微服務來鞏固其在推理市場的地位。
Groq 的芯片為LPU(Language Processing Unit),主要面向LLM 等推理場景,從架構上追求「快速、可預測、低成本」的大模型推理,而不是通用訓練 + 圖形渲染。許多 LLM 推理場景下,單位 token 的計算成本和能耗都顯著低於傳統 GPU 集群(原因是高片上帶寬、少外存訪問、推理專用指令流)。
基於 Tensor Streaming Processor(TSP)架構,硬件儘量去掉緩存、多級亂序等導致不確定性的機制,讓編譯器可以靜態安排每條指令和每一跳數據路徑,實現「流水線裝配線式」的可預測執行。
第一代 LPU 約有 230 MB 片上 SRAM、80 TB/s 內部帶寬,遠高於典型 GPU 的 HBM 外部帶寬(約 8 TB/s 量級),減少訪問外部內存的次數,從而降低時延並提升能效。
對很多企業來說,訓練成本是一次性投入,而推理(每天要跑的token 數)纔是真正長期的資本支出,Groq 把長期成本曲線壓低,使得大規模商用 LLM 服務更可持續。對於英偉達來說,收購Groq是在「訓練卡賣一次」的模式之外,增加了英偉達在「長期推理成本優化」的抓手。簡單來說,英偉達能在 TCO 和能效上給出更有競爭力的推理方案,而不僅依賴堆更多 GPU。
03Cerebras的風險
從產品角度來看,Cerebras選擇將整個300mm晶圓做成一顆芯片,這同時意味着任何一處缺陷都可能導致芯片報廢,Cerebras在良率控制上承擔了極高的製造風險。相對來說,傳統GPU的小芯片可通過「切割丟棄缺陷區」規避。
在商業模式上,Cerebras必須應對客戶集中度風險。
雖然Cerebras官方表示有許多頭部客戶在使用自家產品,如Notion將Cerebras集成為其實時企業搜索功能的底層推理引擎,面向數百萬企業用戶,Cerebras也成為OpenAI最新安全模型的最快推理提供商,使AI安全策略的實時判斷成為可能——在內容審核、文檔分類、智能體護欄等場景,實現了「先審後發」的實時安全檢測。
從營收來看,阿聯酋G42貢獻了2024年H1高達87%的營收。對應一份$14.3億的合同承諾。雖然新合同不斷到來,但若G42出現任何地緣政治變化(美國對阿聯酋AI芯片出口管制趨嚴等),將對營收造成重大沖擊。雖然G42已被移出Cerebras投資者名單,但其仍是最大單一客戶。
從交貨壓力來看,雖然拿下了許多大訂單,但Cerebras的產能卻不一定能到位。隨着OpenAI750MW算力部署、AWS合作相繼到位,Cerebras在2026-2028年間將面臨極大的產能擴張壓力。公司已將Series H資金的重要部分用於美國本土製造產能擴充,但實際交付時間線仍是最大的執行不確定性。
04寫在最後
想撕開英偉達算力圍城的企業不只Cerebras,「非GPU AI芯片」賽道上還有一家明星企業SambaNova。SambaNova的創新性也是想解決GPU的內存牆問題。但解法截然不同。SambaNova的核心思路是用可重配置的數據流架構(RDU)+三級內存,在標準芯片上實現接近單片大芯片的效率。
三級內存包括SRAM(片上,極速,小容量)、HBM(高帶寬內存,中速大容量)、DDR(低速超大容量)。三級內存使 SambaNova 系統可承載遠超片上SRAM大小的模型(單機架3TB內存),同時通過「算子融合」(operator fusion)減少內核調用次數,大幅降低延遲。測評顯示,SambaNova SN40L在Llama 3.3 70B上相對Nvidia H200實現了低批量9倍、高批量4倍的速度提升,同時能耗效率提升5.6–2.5倍。
SambaNova 的低功耗是其在電力受限數據中心的核心賣點。2021年 — Series D由SoftBank Vision Fund 2領投,估值$50億,但2025年開始出現關於SambaNova尋找買家的新聞,英特爾曾經提出16億美元的收購要約,但後續談判失敗。
曾經站在同一起跑線的兩家企業正面對不同的資本熱情,Cerebras市場估值超200億美元,但SambaNova正在尋找新的孖展方。
英偉達的圍城仍在,一名 AI 創業公司 CTO 曾評價三家公司表述最能說明問題:「我們對 SambaNova和 Cerebras 都做了基準測試。兩家在推理速度上都比英偉達快。但我們整個代碼庫都基於 CUDA,工程師都懂 CUDA,雲預算已經包含了與英偉達談好的折扣。切換意味着重寫代碼、重新培訓員工、重新談合同——為了大約 30% 的性能提升,這筆賬不合算。」
在贏者通喫的市場裏,好10%遠遠不夠——你需要好10倍,並且有清晰的市場採用路徑。