英伟达公布基于其Vera Rubin架构的千兆瓦“人工智能工厂”愿景 作者: 时间:2025-10-14 来源:
加入技术交流群
扫码加入和技术大咖面对面交流海量资料库查询
英伟达公司今天在圣何塞举行的2025 年 OCP 全球峰会上登台,谈论了它如何与 70 多个合作伙伴合作设计更高效的“千兆瓦 AI 工厂”,以支持下一代人工智能模型。
英伟达设想的千兆瓦人工智能工厂将采用Vera Rubin NVL144,这是一款基于 100% 液冷设计的开放式架构机架式服务器。它旨在支持该公司的下一代Vera Rubin 图形处理单元,预计将于 2027 年推出。该架构将使公司能够成倍地扩展其数据中心,通过中央印刷电路板中板实现更快的组装,并根据需要添加用于网络和推理的模块化扩展托架。
英伟达表示,它正在将 Vera Rubin NVL144 架构作为开放标准捐赠给开放计算项目,以便任何公司都能够在自己的数据中心中实施它。它还谈到了其生态系统合作伙伴如何加强对 Nvidia Kyber 服务器机架设计的支持,该设计最终将能够连接 576 个 Rubin Ultra GPU 可用。
此外,Meta Platforms Inc. 和 Oracle Corp. 都宣布计划在该公司的 Spectrum-X 以太网网络交换机上标准化其数据中心,这也提振了 Nvidia。
对 Vera Rubin NVL144 的支持不断增加Vera Rubin NVL144 架构旨在支持千兆瓦时代推出 800 伏直流数据中心,英伟达希望它能成为新的“人工智能工厂”的基础,即针对人工智能工作负载进行优化的数据中心。
主要的设计创新之一是中央印刷电路板中板,它取代了数据中心中传统的基于电缆的连接,以实现更快速的组装,同时使其更易于维修和升级。模块化扩展托架有助于该架构面向未来,允许数据中心运营商添加 Nvidia ConnectX-9 800GB/s 网络和 Vera Rubin GPU 来扩展其 AI 工厂,以满足对计算能力和带宽日益增长的需求。此外,Vera Rubin NVL144 采用先进的 45°C 液冷母线,可实现更高的性能,储能能力提高 20 倍,以确保可靠的供电。
Nvidia 解释说,Vera Rubin NVL144 旨在为未来做准备,其灵活的架构旨在随着时间的推移而扩展,以支持先进的推理引擎和自主 AI 代理的需求。它基于现有的 Nvidia MGX 模块化架构,这意味着它与来自 50 多个生态系统合作伙伴的众多第三方组件和系统兼容。借助新架构,数据中心运营商将能够以模块化方式混合和匹配不同的组件,以定制他们的人工智能工厂。
在峰会上,超过 50 家生态系统合作伙伴宣布支持 Vera Rubin NVL144 架构。
Nvidia Kyber 提高 AI 能源效率Nvidia 还透露了对其 Nvidia Kyber 机架服务器架构的日益增长的支持,该架构旨在支持为 576 个 Vera Rubin GPU 集群提供动力的基础设施。与 Vera Rubin NVL144 一样,Nvidia Kyber 在 800 VDC 供电、液体冷却和机械设计方面具有多项创新。
该公司解释说,即将推出的 Vera Rubin GPU 的电力需求增加,需要改进的能源分配系统。它表示,应对更高配电挑战的最有效方法是增加电压,这意味着它正在放弃传统的 415 和 480 伏三相系统,转而采用新的 800 VDC 架构。英伟达表示,有了这个系统,将有可能通过相同的铜线传输 150% 以上的电力。
Nvidia Kyber 还支持增加机架 GPU 密度,以最大限度地提高 AI 基础设施的性能。它引入了一种新设计,可以像书架上的书籍一样垂直旋转计算刀片,以便在单个机箱上安装 18 个计算刀片。同时,专用的 Nvidia NVLink 交换机刀片通过无电缆中板集成在背面,以扩展网络功能。
英伟达表示,Kyber 将成为未来超大规模数据中心的“基础元素”,具有卓越的性能、更高的可靠性和更高的能源效率,能够支持未来几年人工智能的预期进步。
Meta 和 Oracle 采用 Spectrum-X 以太网
Vera Rubin NVL144 和 Kyber 的影响可能还要几年后才能感受到,但 Nvidia 表示,Meta 和 Oracle 在决定在其现有和未来的数据中心标准化其Spectrum-X 以太网交换机(如图)后,将看到更直接的收益。
Spectrum-X 以太网交换机是更先进的网络交换机,可以通过提供更高速的连接和增强的数据吞吐量来为 AI 工作负载提供即时的性能提升。Nvidia 表示,它们利用自适应路由来优化通过网络的数据流,这使它们能够更好地处理 AI 应用程序的独特流量模式。在早些时候的演示中,Nvidia 展示了世界上最大的 AI 超级计算机如何使用 Spectrum-X 实现 95% 的数据吞吐速度。
Meta 计划将 Spectrum-X 以太网交换机集成到 Facebook 开放交换系统中,该系统是它用于大规模管理和控制网络交换机的软件平台。Meta 网络工程副总裁 Gaya Nagarajan 表示,该公司预计将立即提高 AI 训练效率。
“Meta 的下一代人工智能基础设施需要业界前所未有的规模的开放和高效的网络,”他说。“通过将 Nvidia Spectrum-X 以太网集成到 Minipack3N 交换机和 FBOSS 中,我们可以扩展我们的开放网络方法,同时释放训练越来越大的模型并将生成式 AI 应用程序带给数十亿人所需的效率和可预测性。”
与此同时,甲骨文正在展望未来。它不仅会将 Spectrum-X 以太网集成到其现有数据中心中,还会将未来由 Vera Rubin GPU 提供支持的千兆瓦级人工智能工厂集成。
Oracle 云基础设施执行副总裁 Mahesh Thiagarajan 表示:“通过采用 Spectrum-X 以太网,我们可以以突破性的效率互连数百万个 GPU,以便我们的客户能够更快地训练、部署并从下一波生成式和推理 AI 中受益。
-ky开元