这颗GPU,一鸣惊人:技术细节曝光

格隆汇
Oct 31

在今年三月,一家名为Bolt Graphics的初创公司横空出世,并发布了一款专为高性能工作负载(包括渲染、高性能计算和游戏)而设计的全新GPU Zeus。据他们在新闻稿中所说,Zeus解决了传统GPU在性能、效率和功能方面的局限性。

Bolt Graphics在官网中指出,公司创始人Darwesh Singh 热爱学习,并致力于突破界限。在从事数据中心和云环境设计十年之后,他创立了 Bolt Graphics。他们指出,创立这家公司的诱因是Darwesh 在2014年目睹了电影视觉效果渲染时间的漫长之后,在创新精神的推动下,他开发了硬件加速光线追踪解决方案。这一突破为他于2020年创立的 Bolt Graphics 奠定了基础。自此他立下了一个目标——解决模拟和 3D 图形等重负荷任务的性能问题,同时降低功耗。

正因如此,这家公司引发了广泛关注。


10倍于英伟达5090的性能


从公司表示发布的幻灯片显示,其在路径追踪工作负载方面比Nvidia GeForce RTX 5090的性能高出约10倍 。但需要注意的是,Zeus仅在路径追踪和FP64计算工作负载方面优于RTX 5090 GPU。目前尚不清楚它在传统渲染技术方面的表现如何,因为这并非其重点。Bolt Graphics表示,该显卡确实支持光栅化,但并未过多强调这一功能,因此在游戏方面,它可能难以与顶级显卡匹敌。

他们同时指出,要运行此类高要求工作负载的用户需要大量的内存。为此,Bolt 首次将可扩展内存引入 GPU,使用户能够通过 PCIe 卡将内存扩展至 384 GB,在 2U 服务器中,每个 Zeus 的内存最高可达 2.25 TB。一整架 Zeus 2U 服务器最多可配置 180 TB 的内存,是传统 GPU 的 8 倍。

从历史上看,性能提升往往需要消耗更多能源。但Zeus 颠覆了这一长期趋势,在提升性能的同时降低了能耗。作为 GPU 领域的新晋企业,Bolt 的核心价值观之一便是减少 GPU 对环境的影响。

Bolt Graphics创始人兼首席执行官Darwesh Singh表示:“Zeus在提升性能的同时,还能降低功耗。我为Bolt团队的专注努力感到自豪,他们打造出的解决方案解决了客户的关键痛点,使他们能够提高生产力,并将他们的想法变为现实。”

据介绍,这款GPU 的另一项创新是将高速 400 GbE 和 800 GbE 以太网接口原生集成到 GPU 中,从而无需昂贵、高延迟且功耗高的网卡。换而言之,在这个设计下,用户可以大规模地将 Zeus GPU 直接连接起来,而无需承受这些缺点。

Zeus 将以多种形式提供,包括 PCIe 卡、服务器和云平台。Bolt 计划在未来几年内将 Zeus 扩展到智能手机、平板电脑、笔记本电脑、游戏主机和汽车等领域,从而在各种平台上提供统一的 GPU 架构。

在发布Zeus 的同时,Bolt Graphics 还发布了 Glowstick,一款面向渲染用户的实时路径追踪工具。众所周知,路径追踪能够模拟现实世界中复杂的光交互,但传统 GPU 的计算量过大,无法实时模拟。Glowstick 将通过实现实时路径追踪,彻底革新电影、建筑、产品设计和游戏开发等行业,使用户能够即时查看作品效果,并与客户或同事进行即时协作。

单张 Zeus PCIe 卡即可实现4K 120fps的实时路径追踪,适用于游戏、建筑设计和产品设计等工作负载,无需进行图像放大或帧生成方面的变通方法。建筑师可以向客户展示其逼真的设计,并立即与客户进行修改,从而减少因内存限制而导致的数小时重新渲染或崩溃。电影客户在制作拥有最高品质纹理的大型场景时,只需 28 个 Zeus GPU 即可实现实时路径追踪,而无需像传统高性能 GPU 那样耗费 280 个。Zeus 用户不仅可以构建更小的数据中心或渲染农场,还能大幅减少城市电力消耗。

Glowstick 将免费包含在 Zeus 中,并支持行业标准的 OpenUSD、MaterialX、OSL 和 Deadline,可实现跨平台无缝集成和渲染调度。Glowstick 还将拥有自己的纹理库,初始包含 5000 张纹理,是所有 GPU 厂商纹理库中最大的。


一系列基于RISC-V的GPU


他们此前就强调,Zeus 采用 RISC-V 标准主要是为了更好地融入现有快速发展的生态系统。QEMU 等仿真器应用广泛且功能强大,无需物理硬件即可进行移植和测试工作。目前,各种采用 RVA23 兼容内核的开发板和单板计算机 (SBC) 也正在研发中。

在上周于伦敦举行的 Ubuntu Summit 25.10大会上,Bolt Graphics 的 Antonio Salvemini 发表了一场令人意想不到的演讲,介绍了该公司即将推出的 Zeus 系列图形加速器硬件。这些硬件与任何传统的 GPU 都截然不同——实际上,它们与任何其他产品都大相径庭。

Zeus 采用了一种与目前主导 PC 行业的两大图形加速器截然不同的方法。早期功能非常有限的加速器使用一些简单的技巧将图形生成从计算机的主 CPU 中卸载出来,例如使用一种快速复制比特块的位图传输器,以及在硬件中执行绘制线条、弧线和字体等操作的 GUI 加速器。

本世纪以来,这些技术被3D加速器所取代。3D加速器可以在硬件层面执行变换和光照计算,渲染的是纹素而非像素——正如20年前亮相的Nvidia GeForce 7800 GTX所做到那样。2002年,苹果公司开发出利用3D显卡加速窗口化图形用户界面(GUI)显示的方法,并将其命名为Quartz Extreme 。此后,3D GPU迅速风靡全球。如今,Nvidia通过销售这些用于加速运行大型语言模型所需的张量运算的3D显卡而获利颇丰。

根据已发布的幻灯片,Zeus 核心采用开源的乱序通用 RVA23 标量核心,搭配 FP64 ALU 和 RVV 1.0(RISC-V 向量扩展版本 1.0),能够处理 8 位、16 位、32 位和 64 位数据类型,此外还包含 Bolt 专为加速科学计算工作负载而设计的专有扩展。

与如今许多处理器一样,Zeus 也采用了多芯片设计。

入门级 Zeus 1c26-032 配备单个处理单元,内置 32GB LPDDR5X 显存,带宽为 273 GB/s,并可通过两条 SO-DIMM 插槽(带宽 80 GB/s)扩展至最高 128GB DDR5 内存。Zeus GPU 还配备一个 I/O 芯片,该芯片包含一个用于 400GbE/800GbE 的 QSFP-DD 端口、两个支持 CXL 3.0 的 PCIe Gen5 x16 插槽(可实现多卡之间的高效内存共享)以及一个用于 BMC 的千兆以太网端口。GPU 芯片与其 I/O 芯片之间的连接速度为 256 GB/s。

更高级的 Zeus 2c26-064/128 采用两个 Zeus 处理单元、一个 I/O 芯片组,并支持 64GB 或 128GB 的 LPDDR5X 内存。最强大的版本——Zeus 4c26-256——集成了四个处理单元、四个 I/O 芯片组、256GB LPDDR5X 内存以及高达 2TB 的 DDR5 内存。这款四芯片组的 Zeus 并非独立显卡,而是作为服务器运行。

与优先考虑带宽的高端GPU不同,Bolt显然更注重更大的内存容量,以便处理用于渲染和模拟的大型数据集。

Salvemini 还提到 Zeus 将采用的其他几项技术,包括用于处理表面的MaterialX和Open Image Denoise。MCPT本身并不新鲜——甚至还有一款用于制作逼真截图的Minecraft 着色器。不过,在硬件上实现高性能的 MCPT 却是全新的。Bolt 的设计采用了大量配备 RISC-V Vector Extensions (RVV) 的小型高速 RISC-V 内核,以及该公司自主研发的 Lightning 光线追踪加速器。该公司目前使用 FPGA 硬件对该设计进行仿真,但量产版将采用专用 ASIC 硬件,其性能将提升约两个数量级。

据介绍,该公司正在设计两款 PCIe 卡(单槽和双槽版本),计划于 2027 年进行量产。

按照规划,数据中心应用也是他们的目标。

作为这个领域应用的核心,因为Zeus 4c26-256 封装尺寸较大,需要使用全尺寸 DDR5 RDIMM 内存条来扩展内存容量。因此,它无法采用 PCIe 或 OAM 规格。所以他们选择与领先的代工厂商合作,设计并生产搭载 4 个 Zeus 4c26-256 GPU 的主板:

如图所示,每个 Zeus 4c26-256 都通过 2 个 800 GbE 端口与其他芯片连接。每个芯片还直接连接到最多 8 个 PCIe Gen5 x5 NVMe 设备。由于这些 PCIe 接口支持 CXL 3.0,因此可以使用内存扩展设备。

下表列出了配备 4 个 Zeus 4c26-256 GPU 的 2U 服务器的主要规格:

Zeus 2U 服务器配置了 8 个 800 GbE 端口,可实现海量 I/O 处理。机架中的服务器有多种连接方式。在他们看来,服务器直接连接可以降低成本、复杂性和功耗。Zeus机架式设计的最大功率约为44千瓦,可采用风冷散热。我们正在研发一款1U的液冷版本,其性能、容量和功率密度将翻倍,达到近90千瓦。

在这种配置中,一半的 800 GbE 端口用于连接到下一个服务器(以二维网状结构,在机架内部以及相邻机架之间)。由于所需距离较短(机架内服务器之间的 DAC 距离为 2 英尺,机架之间的 DAC 距离为 5-10 英尺),因此可以使用低功耗、低成本的无源 DAC。

需要使用光缆将每台服务器连接到一台或多台交换机。剩余的 4 个 800 GbE 端口除了用于本地 2D 网状网络外,还可用于灵活配置后端和前端网络。


分析师怎么看?


Jonpeddie分析师在介绍这颗GPU时指出,Bolt基准测试的合成性质在将其结果外推至实际应用时造成了重要的局限性。他们受控的测试环境使用可预测的射线模式,针对具有优化加速结构的静态三角形集合,生成反映理想条件下理论吞吐量的清晰测量结果。但是,你需要建立一些真实值,而他们已经做到了这一点。

实时游戏引擎引入了众多变量,这些变量通常会降低实际性能,使其低于合成基准测试结果。动态物体需要不断进行加速结构更新;反射和折射会产生不连贯的光线模式;三角形密度在不同帧之间变化显著。引擎特定的遍历算法、着色管线和内存布局还会进一步影响每条光线需要测试的三角形数量,从而导致性能波动,与合成测试结果存在显著差异。

Zeus 处理器在光线追踪运算方面表现出色,但与现有硬件相比,其传统着色器性能略显逊色。Zeus 1c 的 FP32 TFLOPS 性能为 10,Zeus 2c 的 FP32 TFLOPS 性能翻倍至 20,而 GeForce RTX 5090 的 FP32 TFLOPS 性能则高达 105。这种差异表明 Zeus 更侧重于光线追踪工作负载,而非通用图形计算。其每个核心更大的缓存容量有助于弥补片外内存带宽的不足。

内存架构也存在类似的权衡取舍。Zeus 2c 拥有 128GB 的 GDDR7 显存,容量远超 RTX 5090 的 32GB,但其带宽却较低,仅为 725 GB/s,而 RTX 5090 的带宽为 1.8 TB/s。这种配置更适合需要大量内存的工作负载,而非对内存吞吐量要求较高的工作负载。然而,Bolt 的单核心内存带宽实际上 超过了 5090 和 7900 XTX。

Bolt Graphics 计划在 2026 年推出开发者套件,并在 2027 年进行量产。这一时间表意味着 Zeus 将与 AMD 和 Nvidia 的下一代架构竞争,而不是与目前的 2025 年硬件竞争,因此目前的性能比较对于实际的市场定位意义不大。

两年的研发周期也带来了不确定性,即Bolt Graphics能否在从仿真过渡到实际芯片的过程中实现其性能预期。由于缺乏独立的硬件测试,预期性能与实际性能之间的差距仍然未知。

Jonpeddie总结说,Zeus 代表了一种引人入胜的专用 GPU 设计方法,它优先考虑光线追踪吞吐量和内存容量,而非传统的栅格化性能。其可扩展的内存系统和集成的网络功能旨在满足专业渲染工作流程的需求,在这些工作流程中,内存容量和 GPU 间通信比原始着色器吞吐量更为重要。

该架构专注于路径追踪,旨在解决当前GPU设计中的一些实际局限性,例如开发者为了保持可接受的帧速率而不得不牺牲视觉质量。如果Bolt Graphics能够兑现其性能承诺,Zeus有望将实时光线追踪的视觉保真度提升到全新水平。

大家对此有期待吗?

Disclaimer: Investing carries risk. This is not financial advice. The above content should not be regarded as an offer, recommendation, or solicitation on acquiring or disposing of any financial products, any associated discussions, comments, or posts by author or other users should not be considered as such either. It is solely for general information purpose only, which does not consider your own investment objectives, financial situations or needs. TTM assumes no responsibility or warranty for the accuracy and completeness of the information, investors should do their own research and may seek professional advice before investing.

Most Discussed

  1. 1
     
     
     
     
  2. 2
     
     
     
     
  3. 3
     
     
     
     
  4. 4
     
     
     
     
  5. 5
     
     
     
     
  6. 6
     
     
     
     
  7. 7
     
     
     
     
  8. 8
     
     
     
     
  9. 9
     
     
     
     
  10. 10