硅谷人工智能基礎設施的蓬勃發展帶來了一個令人驚訝的物理問題:通過銅線傳輸的數據量是有限的,超過一定限度,熱量、距離和電力消耗就會變得難以承受。
這就是為什麼投資者、芯片製造商和雲巨頭們突然開始密切關注光子學,利用光而不是電信號在人工智能芯片和服務器之間傳輸數據。
我最近參觀了Lightmatter位於硅谷的總部,這家初創公司在那裏展示了其用於人工智能數據中心的最新光子硬件。活動結束後,我與Lightmatter首席執行官尼克·哈里斯(Nick Harris )進行了交流,探討了光學技術為何可能成為人工智能時代不可或缺的基礎設施。
哈里斯看起來年輕得令人惱火,而且聰明得令人惱火,擁有麻省理工學院的博士學位。Lightmatter公司也已經取得了令人惱火的成功,從包括谷歌、富達和T. Rowe Price在內的大投資者那裏籌集了8.5億美元。
周二,Lightmatter 加入了英偉達的 NVLink Fusion 生態系統,這應該有助於這家初創公司的技術更好地與英偉達的主導 AI 硬件協同工作。
以下是我與哈里斯的對話,為了清晰簡潔,略作編輯。
問:為什麼人工智能公司突然對光子學感興趣?
哈里斯表示,人工智能行業已經發展到這樣一個階段:提升性能不再是提高單個芯片的速度,而是有效地將大量的 GPU 連接在一起。
如今的人工智能系統嚴重依賴GPU之間的銅線連接。在小規模應用中,這種方式運行良好。但隨着企業將成百上千個GPU連接起來構建前沿人工智能模型,銅線連接便成為瓶頸,因為電信號在相對較短的距離內會衰減,併產生大量熱量。
光子學使用光在光纖中傳輸。這使得數據傳輸距離更遠、速度更快、能耗更低。
「假設你有 500 個 GPU,並且有銅線將它們連接起來,使它們能夠在所謂的縱向擴展域中進行通信。人們在這些系統上運行模型訓練工作負載。」
哈里斯告訴我,如果使用銅纜,你需要四個獨立的GPU服務器機架才能達到500台GPU服務器,但「如果全部改用光纖,就可以直接連接所有500台GPU服務器。這樣一來,訓練AI模型的時間就會大幅縮短。想想像Claude這樣的前沿模型,速度提升了三倍。」
「誰先掌握了這項技術,誰就在這場前沿競賽中更快地推出新車型。他們有兩個選擇。一是每個月都推出新車型,二是花三個月時間,但推出一款規模更大的車型,」他補充道。
「假設我的能源供應有限。同樣的功率,我能獲得三倍的性能。這樣一來,原本1吉瓦的功率感覺就像3吉瓦一樣。或者說,同樣的功率,你只需三分之一的時間就能用完,」哈里斯解釋道。
問:人工智能數據中心內部的銅纜連接存在什麼問題?
哈里斯說:「銅線只能傳輸大約一米長」,因為電信號在銅纜中傳輸時會迅速衰減。
「信號會在導線中產生電信號,但隨着傳輸距離的增加,信號強度會越來越弱。大約一米後,數據就丟失了。」
這種物理限制又帶來了另一個問題:散熱。由於銅纜的傳輸距離有限,人工智能數據中心裏的GPU服務器機架現在都緊密地排列在一起。
「它們擠在一起了,」哈里斯說。「問題是我需要它們全部疊在一起,這樣銅才能接觸到。但缺點是散熱非常困難。」
光子學改變了這一點,因為光信號可以傳播得更遠更快而不會衰減,所以 GPU 服務器和機架可以間隔更遠的距離。
「光學成像並不關心物體之間的距離,」哈里斯說。「它們可能遠在一公里之外。」
這樣一來,數據中心運營商在設計和冷卻 AI 集群方面就有了更大的靈活性,從而有可能節省更多用於冷卻這些系統的電力成本。
問:什麼是雙向通信(BiDi),它為什麼重要?
Lightmatter 正在研究的一項更具實用性的創新是減少人工智能數據中心內部所需的佈線量。
哈里斯表示,一些下一代人工智能集群需要大約300英里的電纜。Lightmatter公司旨在通過一種名為BiDi(雙向通信的縮寫)的技術將電纜長度減少一半。
「通常情況下,無論是使用銅纜還是光纖,如果我想在兩個GPU之間建立連接,我需要兩根線,」哈里斯解釋說。「一根是發送線,另一根是接收線。」
Lightmatter 的方案是將兩個方向的線纜合併到一根線纜中。
對於超大規模數據中心而言,減少光纖長度至關重要,因為光纜會佔用空間、產生熱量、增加維護難度並提高成本。Lightmatter 指出,將光纖總需求量從 300 英里減少到 150 英里,可以顯著簡化大規模人工智能集群的構建。
問:為什麼光子學沒有更早得到應用?
哈里斯表示,主要問題在於成本。「光子學太貴了,」他說。
哈里斯解釋說,這種情況正在發生變化,因為製造技術得到了改進,人工智能基礎設施的需求也呈爆炸式增長。
「設計這些系統的人追求的是可靠的2倍性能提升。帶寬翻倍,性能翻倍,而且他們堅持定期實現這一目標。以前銅纜還能榨取一些性能提升,但現在這種機會已經用完了。不僅如此,還有更強勁的推動力,那就是人們意識到,率先採用和部署光子技術的公司——英偉達很可能就是其中之一——擁有巨大的性能優勢。」
「以前是‘迫不得已才進行轉換’,現在是為了獲得競爭優勢才進行轉換,」哈里斯說。
本文轉載自微信公衆號「半導體行業觀察」,智通財經編輯:徐文強。