據Theinformation報道,Meta公司在多款芯片的研發上都遇到了問題。該公司放棄了一款內部代號為Iris的第二代訓練芯片。之後,該公司開始研發一款更先進的訓練芯片,代號為Olympus,但現在這款芯片也已被放棄。
一位知情人士透露,Meta 最初計劃與 Olympus 合作構建大型服務器集羣,但高管最終認為,在與 OpenAI 和 Google 等老牌競爭對手展開激烈競爭之際,這樣做會給新模型的訓練帶來重大風險。例如,用於訓練芯片的軟件穩定性不如英偉達的產品,而且 Olympus 複雜的設計也可能導致難以大規模生產。
與此同時,據報道,Meta Platforms 已經與谷歌簽訂一項價值數十億美元的協議,租用谷歌的 AI 芯片(即張量處理單元)來開發新的 AI 模型。這必將加劇谷歌和英偉達的芯片競爭。
Meta的定製芯片之旅
Meta 進軍定製芯片領域是一項深思熟慮的戰略,旨在克服現成 AI 加速器在技術和財務方面的侷限性。首先從財務上看,Meta自研芯片應該是大有可為。
鑑於 Meta Platforms 在研發和資本支出方面投入了鉅額資金——預計 2025 年,其研發投入約為 500 億美元,資本支出約為 660 億至 720 億美元,而其收入約為 1900 億至 2000 億美元,因此,按上述各項的中值計算,資本支出約佔總收入的 61%——即使基礎設施成本降低幾個百分點,也能對其盈利能力產生重大影響。
因此不難理解為什麼 Meta Platforms 至少想要設計自己的 CPU 和 XPU,並且還要迫使互連 ASIC 製造商(我們將交換、路由和內存互連都包含在內)滿足其需求,並威脅說如果他們不這樣做,就設計自己的交換和內存結構互連。
而回看Meta這些年的芯片自研之路,Meta Platforms 希望跳過可授權但閉源的 Arm 架構,直接採用開源但仍不完善且尚未成為主流的 RISC-V 架構來構建其未來的計算引擎,這已不是什麼祕密。
相關資料顯示,該公司於 2020 年開始定製芯片研發,並於 2023 年 5 月推出了 Meta 訓練和推理加速器 (MTIA:Meta Training and Inference Accelerator ) v1。事實上,這款芯片名稱並不貼切,因為它只能進行推理,而不能進行訓練。
而按照Meta自身所說,之所以會研發這顆芯片,是因為我們發現,GPU並非總能以其所需的效率水平,高效運行Meta的特定推薦工作負載。為了應對這一挑戰,我們設計了一系列專用於推薦的MTIA ASIC芯片。
「我們與下一代推薦模型共同設計了第一代ASIC芯片,並將其集成到PyTorch中,從而創建了一個完全優化的排名系統。此外,我們還保留了PyTorch即時開發模式所帶來的用戶體驗和開發者效率。隨着我們持續支持PyTorch 2.0,開發者效率的提升是一個持續的過程。PyTorch 2.0在編譯器層面(底層)大幅提升了PyTorch的運行效率。」Meta方面表示。
據介紹,MTIA V1是包含芯片、PyTorch 和推薦模型在內的全棧式協同設計解決方案的一部分。該加速器採用台積電 7nm 工藝製造,運行頻率為 800 MHz,在 INT8 精度下可提供 102.4 TOPS 的運算能力,在 FP16 精度下可提供 51.2 TFLOPS 的運算能力。其熱設計功耗 (TDP) 為 25 W。MTIA加速器安裝在小型雙M.2板上,便於集成到服務器中。這些板卡通過PCIe Gen4 x8鏈路連接到服務器的主機CPU,功耗低至35瓦。
到了2024年 4 月,Meta又發不了性能大幅提升的 MTIA v2 發布,這款芯片的推理能力有所提高,但仍然無法進行訓練。
「這款芯片的架構從根本上來說是為了在計算能力、內存帶寬和內存容量之間找到最佳平衡點,從而更好地服務於排名和推薦模型,」Meta 的三位技術人員在發布 MTIA v2 的博客文章中寫道。「在推理過程中,即使批處理大小相對較小,我們也需要能夠提供相對較高的利用率。通過提供遠超典型 GPU 的 SRAM 容量,我們可以在批處理大小有限的情況下實現高利用率,並在遇到大量潛在併發任務時提供足夠的計算能力。」
數據顯示,採用7納米工藝打造的MTIA v1 芯片面積為 373 平方毫米( 19.34 x 19.1 平方毫米),運行頻率僅為 800 MHz。MTIA v2 芯片則採用 5 納米工藝製造,Meta 公司將時鐘頻率提升了 68.8%,達到 1.35 GHz,同時芯片面積也大幅增大至 421 平方毫米(25.6 x 16.4平方毫米),從而增加了芯片上的 SRAM 容量。面積增加 12.9%,時鐘頻率提升 68.8%,導致功耗增加了 2.6 倍,達到 90 瓦。此外,PE 單元增加了稀疏性支持,在許多情況下,矩陣運算的性能提升了近 7 倍。在矢量核心上,SIMD 操作性能提高了 72.5%,比時鐘速度的提升略好一些。

值得一提的是,這兩款芯片均採用基於 RISC-V 內核的處理單元陣列,具體來說,它們由兩個內核組成:一個內核負責標量運算,另一個內核則配備向量引擎,用於處理整數和浮點數據。MTIA v1 在 Meta 數據中心服務器集羣中部署規模適中,而性能更強大的 MTIA v2 的部署規模則更為龐大。
從這兩代產品可以看到,Meta一直還是在推理上深耕,還沒有涉足訓練芯片。而且,據相關報道,即使如此,該公司還是碰到了不少波折。但是他們依然毅然決然地進軍訓練芯片。如上所述,他們這個芯片不出意外地屢受波折。
於是,收購芯片公司,成為了他們的新發展方向,芯片初創公司Rivos就成為了他們的目標。
收購Rivos增加籌碼
2025年10月,有消息稱,Meta 收購了人工智能芯片初創公司 Rivos。在很多人看來,這與AWS當年收購Annapurna Labs異曲同工,只是晚了十年。
據Walden Catalyst所說,2025年初,Rivos準備進行下一輪孖展時,投資者反響熱烈,最終超額認購。在孖展過程中,公司還收到了多家收購要約。經過慎重考慮,創始人、董事會和投資者最終選擇了Meta的收購方案:這一決定既肯定了Rivos的技術實力,也認可了其願景的戰略重要性。
資料顯示,Rivos成立於2021年9月,由陳立武和Amarjit Gill共同創立。
Amarjit Gill是MIPS芯片製造商SiByte(2000年被博通收購)和Power芯片設計公司PA Semi(2008年被蘋果收購)的聯合創始人;Rivos的聯合創始人之一Tse-Yu Yeh曾在蘋果工作超過17年,從架構和驗證高級工程師一路晉升為CPU設計高級總監;聯合創始人Puneet Kumar曾效力於鼎盛時期的Digital Equipment Corp;Rivos的另一位聯合創始人Mark Hayter 的職業道路與Belli Kuttanna類似,他曾先後在DEC、SiByte、博通、PA Semi、蘋果、Agnilux和谷歌工作;Rivos的最後一位聯合創始人是Belli Kuttanna,在加入Rivos之前,他曾在德州儀器、摩托羅拉、Sun Microsystems、高通(短暫任職)和英特爾擔任芯片設計師和架構師。
在 Walden International 的支持下,Rivos 成立之初就擁有超過百名員工,Tan 被任命為董事會主席。這在一定程度上使 Rivos 能夠使用先進的 EDA 工具,並利用台積電的代工技術和產能。
2023 年,Rivos 從蘋果公司挖走了近 50 名工程師,導致與蘋果公司發生訴訟,最終由 Tan 促成和解。當時,Rivos 正在研發 CPU 設計,但 Tan 建議公司專注於 AI 加速,而與 Meta 的合作正是這一轉型的結果。根據 Walden 的聲明,Rivos憑藉卓越的技術進步實現了其願景。該公司成功流片了3.1 GHz處理器,並構建了兼容CUDA的軟件棧,使得原本為NVIDIA生態系統開發的AI工作負載能夠在RISC-V硬件上無縫運行。這種「重新編譯而非重新設計」的方法降低了客戶的採用門檻,同時展現了Rivos業界領先的性能和能效。
Rivos表示,其設計為從模型訓練到推理等一系列工作負載提供了可擴展性和能效。「該架構通過最大限度地減少外部數據傳輸和降低功耗,消除了計算和內存資源之間的不平衡,」該公司在一份白皮書中表示。「它避免了常見的資源不匹配問題,即僅僅為了彌補內存限制而部署額外的GPU單元,從而導致資源利用率低下。」
在完成A輪孖展的時候,Rivos也曾表示,Rivos 提供功耗優化的芯片,該芯片結合了高性能服務器級 RISC-V CPU 和數據並行加速器(一種針對大型語言模型 (LLM) 和數據分析優化的 GPGPU),可滿足當今軟件編程模型和機架服務器的限制。CPU 和並行計算的緊密集成,以及在 DDR DRAM 和 HBM 上共享統一內存,使其成為當今需要 TB 級內存的模型和數據庫的理想選擇。
由此可見,Rivos 似乎正在打造一種類似英偉達 Grace-Hopper 和 Grace-Blackwell CPU-GPU「超級芯片」的芯片或封裝式混合 CPU-GPU 計算系統。而且,該系統很可能基於 RISC-V 架構,更重要的是,它兼容英偉達的 CUDA-X 軟件棧。CUDA-X 是一種並行編程模型,它與一系列算法、庫和框架相結合,用於將軟件從 CPU 卸載到 GPU 上進行加速。正是 CUDA-X 賦予了英偉達強大的定價權。
通過這單收購,Meta 將受益於一支能夠製造高端 RISC-V 芯片的團隊,這些芯片可以根據其 AI 工作負載進行定製,讓公司在英偉達和AMD等巨頭把持的市場中找到新的機會。
寫在最後
雖然Meta野心勃勃,但如文章開頭所說,他們還是需要繼續交學費。最近他們與英偉達和AMD的交易,也側面證明了公司在自研芯片上的波折。繼一周多前與英偉達達成了數百萬顆GPU的交易外,Meta日前與AMD也達成了6吉瓦的GPU交易。通過這兩單交易,讓他們在未來的算力競爭中獲得了更多的籌碼。而通過和兩個巨頭合作,則分擔了風險並增加了談判籌碼。
再加上文章開頭談到的TPU交易,Meta正在下一盤大棋。
在最新的模型中,谷歌已成功證明,其在處理最關鍵的內部工作負載時可以繞過英偉達。目前,Gemini 3 和 4 幾乎完全(95-100%)在谷歌內部 TPU 上進行訓練,而英偉達 GPU 實際上僅處理該特定工作負載的 0-5%。對於搜索和 YouTube 等內部推理任務,TPU 仍處理約 85-90% 的業務量。
正是基於這個成功經驗,谷歌瞄準英偉達的地盤,計劃推出 TPU 即服務模式,作為 GPU 的可行替代方案。
據theinformation引述一位參與談判的人士的消息透露,Meta 還一直在與谷歌洽談,計劃最早於明年為其數據中心購買 TPU,但目前尚不清楚談判進展如何。對谷歌而言是一項勝利,它為其增添了一位知名客戶,有助於其打造數十億美元的 TPU 銷售業務。與此同時,這也對英偉達構成了威脅。英偉達目前主導着人工智能芯片市場,並向 Meta 提供圖形處理單元 (GPU) 以支持其人工智能的開發(即訓練過程)。
除了與 Meta 達成協議外,谷歌還與一家未透露名稱的大型投資公司簽署了一項協議,為一家合資企業提供資金,該合資企業將向其他客戶租賃 TPU。谷歌正在與其他投資公司洽談,以資助其他類似的合資企業。
毫無疑問這次和Meta的合作,為TPU增加了更多可能,也為英偉達的GPU壟斷增加了變數。
但對Meta來說,他們更需要關心的事,自研的訓練芯片,什麼時候才能如願。