這顆GPU,一鳴驚人:技術細節曝光

格隆匯
10/31

在今年三月,一家名為Bolt Graphics的初創公司橫空出世,併發布了一款專為高性能工作負載(包括渲染、高性能計算和遊戲)而設計的全新GPU Zeus。據他們在新聞稿中所說,Zeus解決了傳統GPU在性能、效率和功能方面的侷限性。

Bolt Graphics在官網中指出,公司創始人Darwesh Singh 熱愛學習,並致力於突破界限。在從事數據中心和雲環境設計十年之後,他創立了 Bolt Graphics。他們指出,創立這家公司的誘因是Darwesh 在2014年目睹了電影視覺效果渲染時間的漫長之後,在創新精神的推動下,他開發了硬件加速光線追蹤解決方案。這一突破為他於2020年創立的 Bolt Graphics 奠定了基礎。自此他立下了一個目標——解決模擬和 3D 圖形等重負荷任務的性能問題,同時降低功耗。

正因如此,這家公司引發了廣泛關注。


10倍於英偉達5090的性能


從公司表示發佈的幻燈片顯示,其在路徑追蹤工作負載方面比Nvidia GeForce RTX 5090的性能高出約10倍 。但需要注意的是,Zeus僅在路徑追蹤和FP64計算工作負載方面優於RTX 5090 GPU。目前尚不清楚它在傳統渲染技術方面的表現如何,因為這並非其重點。Bolt Graphics表示,該顯卡確實支持光柵化,但並未過多強調這一功能,因此在遊戲方面,它可能難以與頂級顯卡匹敵。

他們同時指出,要運行此類高要求工作負載的用戶需要大量的內存。為此,Bolt 首次將可擴展內存引入 GPU,使用戶能夠通過 PCIe 卡將內存擴展至 384 GB,在 2U 服務器中,每個 Zeus 的內存最高可達 2.25 TB。一整架 Zeus 2U 服務器最多可配置 180 TB 的內存,是傳統 GPU 的 8 倍。

從歷史上看,性能提升往往需要消耗更多能源。但Zeus 顛覆了這一長期趨勢,在提升性能的同時降低了能耗。作為 GPU 領域的新晉企業,Bolt 的核心價值觀之一便是減少 GPU 對環境的影響。

Bolt Graphics創始人兼首席執行官Darwesh Singh表示:「Zeus在提升性能的同時,還能降低功耗。我為Bolt團隊的專注努力感到自豪,他們打造出的解決方案解決了客戶的關鍵痛點,使他們能夠提高生產力,並將他們的想法變為現實。」

據介紹,這款GPU 的另一項創新是將高速 400 GbE 和 800 GbE 以太網接口原生集成到 GPU 中,從而無需昂貴、高延遲且功耗高的網卡。換而言之,在這個設計下,用戶可以大規模地將 Zeus GPU 直接連接起來,而無需承受這些缺點。

Zeus 將以多種形式提供,包括 PCIe 卡、服務器和雲平臺。Bolt 計劃在未來幾年內將 Zeus 擴展到智能手機、平板電腦、筆記本電腦、遊戲主機和汽車等領域,從而在各種平臺上提供統一的 GPU 架構。

在發佈Zeus 的同時,Bolt Graphics 還發布了 Glowstick,一款面向渲染用戶的實時路徑追蹤工具。衆所周知,路徑追蹤能夠模擬現實世界中複雜的光交互,但傳統 GPU 的計算量過大,無法實時模擬。Glowstick 將通過實現實時路徑追蹤,徹底革新電影、建築、產品設計和遊戲開發等行業,使用戶能夠即時查看作品效果,並與客戶或同事進行即時協作。

單張 Zeus PCIe 卡即可實現4K 120fps的實時路徑追蹤,適用於遊戲、建築設計和產品設計等工作負載,無需進行圖像放大或幀生成方面的變通方法。建築師可以向客戶展示其逼真的設計,並立即與客戶進行修改,從而減少因內存限制而導致的數小時重新渲染或崩潰。電影客戶在製作擁有最高品質紋理的大型場景時,只需 28 個 Zeus GPU 即可實現實時路徑追蹤,而無需像傳統高性能 GPU 那樣耗費 280 個。Zeus 用戶不僅可以構建更小的數據中心或渲染農場,還能大幅減少城市電力消耗。

Glowstick 將免費包含在 Zeus 中,並支持行業標準的 OpenUSD、MaterialX、OSL 和 Deadline,可實現跨平臺無縫集成和渲染調度。Glowstick 還將擁有自己的紋理庫,初始包含 5000 張紋理,是所有 GPU 廠商紋理庫中最大的。


一系列基於RISC-V的GPU


他們此前就強調,Zeus 採用 RISC-V 標準主要是為了更好地融入現有快速發展的生態系統。QEMU 等仿真器應用廣泛且功能強大,無需物理硬件即可進行移植和測試工作。目前,各種採用 RVA23 兼容內核的開發板和單板計算機 (SBC) 也正在研發中。

在上週於倫敦舉行的 Ubuntu Summit 25.10大會上,Bolt Graphics 的 Antonio Salvemini 發表了一場令人意想不到的演講,介紹了該公司即將推出的 Zeus 系列圖形加速器硬件。這些硬件與任何傳統的 GPU 都截然不同——實際上,它們與任何其他產品都大相徑庭。

Zeus 採用了一種與目前主導 PC 行業的兩大圖形加速器截然不同的方法。早期功能非常有限的加速器使用一些簡單的技巧將圖形生成從計算機的主 CPU 中卸載出來,例如使用一種快速複製比特塊的位圖傳輸器,以及在硬件中執行繪製線條、弧線和字體等操作的 GUI 加速器。

本世紀以來,這些技術被3D加速器所取代。3D加速器可以在硬件層面執行變換和光照計算,渲染的是紋素而非像素——正如20年前亮相的Nvidia GeForce 7800 GTX所做到那樣。2002年,蘋果公司開發出利用3D顯卡加速窗口化圖形用戶界面(GUI)顯示的方法,並將其命名為Quartz Extreme 。此後,3D GPU迅速風靡全球。如今,Nvidia通過銷售這些用於加速運行大型語言模型所需的張量運算的3D顯卡而獲利頗豐。

根據已發佈的幻燈片,Zeus 核心採用開源的亂序通用 RVA23 標量核心,搭配 FP64 ALU 和 RVV 1.0(RISC-V 向量擴展版本 1.0),能夠處理 8 位、16 位、32 位和 64 位數據類型,此外還包含 Bolt 專為加速科學計算工作負載而設計的專有擴展。

與如今許多處理器一樣,Zeus 也採用了多芯片設計。

入門級 Zeus 1c26-032 配備單個處理單元,內置 32GB LPDDR5X 顯存,帶寬為 273 GB/s,並可通過兩條 SO-DIMM 插槽(帶寬 80 GB/s)擴展至最高 128GB DDR5 內存。Zeus GPU 還配備一個 I/O 芯片,該芯片包含一個用於 400GbE/800GbE 的 QSFP-DD 端口、兩個支持 CXL 3.0 的 PCIe Gen5 x16 插槽(可實現多卡之間的高效內存共享)以及一個用於 BMC 的千兆以太網端口。GPU 芯片與其 I/O 芯片之間的連接速度為 256 GB/s。

更高級的 Zeus 2c26-064/128 採用兩個 Zeus 處理單元、一個 I/O 芯片組,並支持 64GB 或 128GB 的 LPDDR5X 內存。最強大的版本——Zeus 4c26-256——集成了四個處理單元、四個 I/O 芯片組、256GB LPDDR5X 內存以及高達 2TB 的 DDR5 內存。這款四芯片組的 Zeus 並非獨立顯卡,而是作為服務器運行。

與優先考慮帶寬的高端GPU不同,Bolt顯然更注重更大的內存容量,以便處理用於渲染和模擬的大型數據集。

Salvemini 還提到 Zeus 將採用的其他幾項技術,包括用於處理表面的MaterialX和Open Image Denoise。MCPT本身並不新鮮——甚至還有一款用於製作逼真截圖的Minecraft 着色器。不過,在硬件上實現高性能的 MCPT 卻是全新的。Bolt 的設計採用了大量配備 RISC-V Vector Extensions (RVV) 的小型高速 RISC-V 內核,以及該公司自主研發的 Lightning 光線追蹤加速器。該公司目前使用 FPGA 硬件對該設計進行仿真,但量產版將採用專用 ASIC 硬件,其性能將提升約兩個數量級。

據介紹,該公司正在設計兩款 PCIe 卡(單槽和雙槽版本),計劃於 2027 年進行量產。

按照規劃,數據中心應用也是他們的目標。

作為這個領域應用的核心,因為Zeus 4c26-256 封裝尺寸較大,需要使用全尺寸 DDR5 RDIMM 內存條來擴展內存容量。因此,它無法採用 PCIe 或 OAM 規格。所以他們選擇與領先的代工廠商合作,設計並生產搭載 4 個 Zeus 4c26-256 GPU 的主板:

如圖所示,每個 Zeus 4c26-256 都通過 2 個 800 GbE 端口與其他芯片連接。每個芯片還直接連接到最多 8 個 PCIe Gen5 x5 NVMe 設備。由於這些 PCIe 接口支持 CXL 3.0,因此可以使用內存擴展設備。

下表列出了配備 4 個 Zeus 4c26-256 GPU 的 2U 服務器的主要規格:

Zeus 2U 服務器配置了 8 個 800 GbE 端口,可實現海量 I/O 處理。機架中的服務器有多種連接方式。在他們看來,服務器直接連接可以降低成本、複雜性和功耗。Zeus機架式設計的最大功率約為44千瓦,可採用風冷散熱。我們正在研發一款1U的液冷版本,其性能、容量和功率密度將翻倍,達到近90千瓦。

在這種配置中,一半的 800 GbE 端口用於連接到下一個服務器(以二維網狀結構,在機架內部以及相鄰機架之間)。由於所需距離較短(機架內服務器之間的 DAC 距離為 2 英尺,機架之間的 DAC 距離為 5-10 英尺),因此可以使用低功耗、低成本的無源 DAC。

需要使用光纜將每臺服務器連接到一臺或多臺交換機。剩餘的 4 個 800 GbE 端口除了用於本地 2D 網狀網絡外,還可用於靈活配置後端和前端網絡。


分析師怎麼看?


Jonpeddie分析師在介紹這顆GPU時指出,Bolt基準測試的合成性質在將其結果外推至實際應用時造成了重要的侷限性。他們受控的測試環境使用可預測的射線模式,針對具有優化加速結構的靜態三角形集合,生成反映理想條件下理論吞吐量的清晰測量結果。但是,你需要建立一些真實值,而他們已經做到了這一點。

實時遊戲引擎引入了衆多變量,這些變量通常會降低實際性能,使其低於合成基準測試結果。動態物體需要不斷進行加速結構更新;反射和折射會產生不連貫的光線模式;三角形密度在不同幀之間變化顯著。引擎特定的遍歷算法、着色管線和內存佈局還會進一步影響每條光線需要測試的三角形數量,從而導致性能波動,與合成測試結果存在顯著差異。

Zeus 處理器在光線追蹤運算方面表現出色,但與現有硬件相比,其傳統着色器性能略顯遜色。Zeus 1c 的 FP32 TFLOPS 性能為 10,Zeus 2c 的 FP32 TFLOPS 性能翻倍至 20,而 GeForce RTX 5090 的 FP32 TFLOPS 性能則高達 105。這種差異表明 Zeus 更側重於光線追蹤工作負載,而非通用圖形計算。其每個核心更大的緩存容量有助於彌補片外內存帶寬的不足。

內存架構也存在類似的權衡取捨。Zeus 2c 擁有 128GB 的 GDDR7 顯存,容量遠超 RTX 5090 的 32GB,但其帶寬卻較低,僅為 725 GB/s,而 RTX 5090 的帶寬為 1.8 TB/s。這種配置更適合需要大量內存的工作負載,而非對內存吞吐量要求較高的工作負載。然而,Bolt 的單核心內存帶寬實際上 超過了 5090 和 7900 XTX。

Bolt Graphics 計劃在 2026 年推出開發者套件,並在 2027 年進行量產。這一時間表意味着 Zeus 將與 AMD 和 Nvidia 的下一代架構競爭,而不是與目前的 2025 年硬件競爭,因此目前的性能比較對於實際的市場定位意義不大。

兩年的研發週期也帶來了不確定性,即Bolt Graphics能否在從仿真過渡到實際芯片的過程中實現其性能預期。由於缺乏獨立的硬件測試,預期性能與實際性能之間的差距仍然未知。

Jonpeddie總結說,Zeus 代表了一種引人入勝的專用 GPU 設計方法,它優先考慮光線追蹤吞吐量和內存容量,而非傳統的柵格化性能。其可擴展的內存系統和集成的網絡功能旨在滿足專業渲染工作流程的需求,在這些工作流程中,內存容量和 GPU 間通信比原始着色器吞吐量更為重要。

該架構專注於路徑追蹤,旨在解決當前GPU設計中的一些實際侷限性,例如開發者為了保持可接受的幀速率而不得不犧牲視覺質量。如果Bolt Graphics能夠兌現其性能承諾,Zeus有望將實時光線追蹤的視覺保真度提升到全新水平。

大家對此有期待嗎?

免責聲明:投資有風險,本文並非投資建議,以上內容不應被視為任何金融產品的購買或出售要約、建議或邀請,作者或其他用戶的任何相關討論、評論或帖子也不應被視為此類內容。本文僅供一般參考,不考慮您的個人投資目標、財務狀況或需求。TTM對信息的準確性和完整性不承擔任何責任或保證,投資者應自行研究並在投資前尋求專業建議。

熱議股票

  1. 1
     
     
     
     
  2. 2
     
     
     
     
  3. 3
     
     
     
     
  4. 4
     
     
     
     
  5. 5
     
     
     
     
  6. 6
     
     
     
     
  7. 7
     
     
     
     
  8. 8
     
     
     
     
  9. 9
     
     
     
     
  10. 10