來源:內容編譯自tomshardware。
OpenAI 首席執行官 Sam Altman並不以目光短淺而聞名,但他最近的言論甚至突破了他一貫的大膽技術言論的界限。在 X 上的一篇新文章中,Altman 透露,OpenAI 有望在今年年底前“上線超過 100 萬個 GPU”。僅此一個數字就已經很驚人了。
想想埃隆馬斯克的 xAI,它在今年早些時候憑藉其 Grok 4 模型引起轟動,運行在大約 200,000 個 Nvidia H100 GPU 上。OpenAI 的計算能力是這個的五倍,但對於 Altman 來說這還不夠。“爲團隊感到非常自豪......”他寫道,“但現在他們最好開始研究如何將其提高 100 倍,哈哈。”
“哈哈”可能聽起來像是在開玩笑,但 Altman 的過往經歷表明並非如此。早在 2 月份,他就承認 OpenAI 不得不放慢 GPT-4.5 的推出速度,因爲他們實際上“ GPU 用完了”。這可不是小問題;考慮到Nvidia 的頂級 AI 硬件到明年的訂單也已售罄,這可謂一記警鐘。
此後,Altman 將計算擴展作爲首要任務,尋求合作伙伴關係和基礎設施項目,這些項目看起來更像是全國性的行動,而非企業 IT 升級。當 OpenAI 在今年晚些時候達到 100 萬個 GPU 的里程碑時,它將不僅僅是社交媒體的炫耀——它將鞏固自己作爲全球最大 AI 計算消費者的地位。
無論如何,讓我們來談談那個 100 倍的目標吧,因爲它聽起來確實很瘋狂。按照目前的市場價格,1 億塊 GPU 的成本約爲 3 萬億美元——幾乎相當於英國的 GDP——這還不包括電力需求或容納這些 GPU 所需的數據中心。Nvidia短期內根本不可能生產出這麼多芯片,更不用說滿足所有 GPU 的能源需求了。然而,這正是 Altman 的“登月計劃”式思維。這與其說是一個字面意義上的目標,不如說是爲通用人工智能 (AGI) 奠定基礎,無論這意味着定製芯片、奇特的新架構,還是我們尚未見過的東西。OpenAI 顯然想要找到答案。
最活生生的例子就是OpenAI位於德克薩斯州的數據中心,它目前是全球最大的單體設施,耗電量約爲300兆瓦——足以爲一座中型城市供電——預計到2026年中期將達到1千兆瓦。如此巨大且難以預測的能源需求已經引起了德克薩斯州電網運營商的關注。他們警告說,要穩定如此規模的數據中心的電壓和頻率,需要成本高昂且快速的基礎設施升級,即使是州公用事業公司也難以匹敵。無論如何,創新必須佔上風,泡沫不應該破裂。
OpenAI 並非僅僅囤積 NVIDIA 硬件。雖然微軟的 Azure 仍然是其主要的雲骨幹,但OpenAI 已與甲骨文合作構建自己的數據中心,並且據傳正在探索谷歌的 TPU 加速器,以使其計算堆棧多樣化。這是一場更大規模軍備競賽的一部分,從Meta到亞馬遜,每家公司都在自主研發 AI 芯片,並大力投資高帶寬內存 (HBM),以支持這些龐大的模型。Altman 則暗示了 OpenAI 自己的定製芯片計劃,考慮到公司不斷增長的規模,這並非偶然。
Altman 的評論也毫不掩飾地提醒我們,這個領域的發展速度有多麼快。一年前,一家擁有 1 萬塊 GPU 的公司聽起來就像是一個重量級的競爭者。而現在,即使是 100 萬塊 GPU,也感覺只是邁向更大目標的墊腳石。OpenAI 推進基礎設施建設的目的不僅僅是加快訓練速度或更順暢的模型部署;而是爲了在這個計算能力最終成爲瓶頸的行業中確保長期優勢。當然,Nvidia 非常樂意提供這些基礎模塊。
1億個GPU現實嗎?目前還不行,除非在製造、能源效率和成本方面取得突破。但這正是關鍵所在。Altman的願景並非侷限於現有資源,而是着眼於未來的可能性。年底前上線的100萬個GPU,是標誌着AI基礎設施新基線的真正催化劑,而這個基線似乎正在日益多樣化。除此之外,一切都是雄心勃勃的目標,如果Altman的歷史可以作爲借鑑,那麼將其視爲純粹的炒作或許是愚蠢的。
參考鏈接
https://www.tomshardware.com/tech-industry/sam-altman-teases-100-million-gpu-scale-for-openai-that-could-cost-usd3-trillion-chatgpt-maker-to-cross-well-over-1-million-by-end-of-year
*免責聲明:本文由作者原創。文章內容系作者個人觀點,半導體行業觀察轉載僅爲了傳達一種不同的觀點,不代表半導體行業觀察對該觀點贊同或支持,如果有任何異議,歡迎聯繫半導體行業觀察。