OpenAI 算力負責人薩欽・卡蒂OpenAI 算力負責人薩欽・卡蒂在交流中透露,公司考慮對外開源自研適配多品牌芯片的調度軟件,此舉或將撼動英偉達賴以立足的核心軟件優勢。
本次訪談由專欄作者、Amp 創始人安傑尼・米達、半導體分析機構 SemiAnalysis 數據中心行業專家傑雷米・埃利亞烏・翁蒂韋羅斯共同參與。
訪談圍繞 AI 企業跨多品牌服務器芯片、跨多家雲廠商部署算力業務展開。OpenAI、安索帕(Anthropic)、Meta 均不願在覈心算力環節單一依賴某一家供應商,且單一廠商也無法滿足其海量算力採購需求。
卡蒂表示:「未來算力市場必然走向多芯片異構混用格局。」
過往數年 OpenAI 算力幾乎全盤依託英偉達芯片,近期已陸續敲定合作,接入亞馬遜、賽雷布拉斯(Cerebras)、AMD 自研 AI 芯片,同時自主研發定製化芯片。被問及是否效仿 Anthropic、Meta 採用谷歌自研芯片時,卡蒂未予以答覆。
跨不同硬件架構開發、運行大型 AI 模型門檻很高,需要工程師喫透各類底層硬件細節。
卡蒂介紹,OpenAI 正在研發一款抽象層軟件,研發與產品團隊藉助該工具部署業務時,無需關注底層服務器硬件型號。谷歌早年正是依靠同類硬件抽象調度軟件(標杆產品為 Borg 算力管理系統)實現業務規模化落地。「當下我們正沿着相同路徑落地 AI 算力架構。」
米達指出:倘若 OpenAI 對外開源這套跨英偉達、谷歌、AMD 等全品類芯片的 AI 調度軟件,將對現有行業格局形成顛覆性衝擊。
被問及開源可行性,卡蒂明確該方案已納入備選:
「我們希望把這套智能調度優化能力面向全行業開放,也就是智能體優化技術。」 他並未詳述具體落地方式與時間表。
上述表態備受市場關注:英偉達長期依靠CUDA 閉源軟件生態(編譯器、程序庫、硬件優化工具套件)構築行業護城河,是其壟斷 AI 芯片市場的關鍵。卡蒂認為,依託 AI 自動生成多硬件適配優化代碼,未來會逐步瓦解 CUDA 的獨佔優勢。
「我們正利用 AI 生成硬件優化內核代碼,實現全品類芯片兼容落地。」
現階段多款開源軟件已在分流 CUDA 生態:Meta 開源的 PyTorch 框架大幅降低跨芯片代碼開發難度,不少初創企業還推出代碼編譯工具,可將 PyTorch 高層代碼轉譯為適配各類芯片的底層指令。
英偉達 Vera Rubin 新一代芯片相關進展
座談同步披露 OpenAI 對接英偉達新一代 Vera Rubin 芯片集群的籌備進度。
卡蒂透露,OpenAI 已拿到該芯片工程樣片,計劃在今年年底上線用於大模型訓練。英偉達從上代 Blackwell 芯片落地故障中吸取經驗:初代 Blackwell 因組網、固件、佈線設計繁雜,各大雲廠商規模化部署屢屢受阻,後續迭代版本故障問題顯著改善。
「英偉達妥善解決了量產落地中的各類磨合難題,值得肯定。」
卡蒂未透露首批 Vera Rubin 算力集群落地的合作雲廠商,僅表示微軟、甲骨文、亞馬遜等主力服務商正積極競標首波落地名額,行業競爭激烈。
他還提到,當前擴充算力的最大瓶頸不在於芯片產能,而是配套供電基建與新硬件上線的工程落地難度。
「現階段電力配套、工程實施能力纔是制約算力擴容的核心因素。」
責任編輯:郭明煜