|

财经

博通用一颗芯片,单挑英伟达InfiniBand 和 NVSwitch

来源:半导体行业观察

2025-07-18 09:03:34

(原标题:博通用一颗芯片,单挑英伟达InfiniBand 和 NVSwitch)

公众号记得加星标⭐️,第一时间看推送不会错过。

来源:内容编译自nextplatform。

InfiniBand 一直被认为是跨 PC、服务器、存储和网络使用的主流结构,但这一努力失败了,InfiniBand 的剩余努力在千禧年之交获得了第二次生命,成为运行模拟和模型的超级计算机的高性能、低延迟互连。

几十年来,得益于远程直接内存访问 (RDMA) 带来的低延迟,InfiniBand 找到了一个利基市场。RDMA 允许 CPU、GPU 以及其他类型的 XPU 直接访问彼此的主内存,而无需经过整个网络软件堆栈。这也是Nvidia 五年多前斥资 69 亿美元收购 Mellanox Technologies 的原因之一。Nvidia 无疑预见到了 GenAI 的蓬勃发展,并知道它需要 InfiniBand 作为连接 GPU 服务器节点的后端网络,以便它们能够协作训练 AI 模型。

与此同时,在 GPU 服务器内部,Nvidia 需要一种方法来集群 GPU 的内存,以便它们可以共享工作并运行 AI 训练和推理例程以及 HPC 代码,就像 CPU 具有非统一内存访问 (NUMA) 技术一样,这使得多个计算引擎在系统软件看来就像一个巨大的单一设备。为此,Nvidia 的研究人员重新发明了轮子,创建了 NVLink 端口,并最终创建了 NVLink 交换机(早年通常简称为 NVSwitch,因此我们习惯这样做),它于 2018 年首次部署在其 DGX-2 系统内部,该系统有 16 个“Volta”V100 GPU 加速器共享它们的 HBM 内存堆栈,使它们看起来像一个巨大的单个 GPU,具有 2 petaflops 的 FP16 浮点性能。(这在当时是很大的魅力。)

在 InfiniBand 互连商业化的前二十年里,使其成为主流的杀手级应用从未出现。传统的高性能计算 (HPC) 在 IT 市场中占据的份额不足以让 InfiniBand 转向以太网。然而,在短短几年内,大型语言模型、生成式人工智能及其多模态基础模型的兴起,将 InfiniBand 作为集群后端网络推向了新的高度;与此同时,NVLink 和 NVSwitch 为构建人工智能服务器节点提供了巨大的优势——如今已扩展到 GB200 NVL72 等机架级系统。

但 Nvidia 对这些产品收取了相当高的费用,而全世界都喜欢它的以太网和较低的网络价格。

这就是为什么芯片制造商博通花了三年多的时间将一种名为 Tomahawk Ultra 的新型低延迟、无损以太网交换机 ASIC 推向市场,它不仅可以取代 InfiniBand 作为 HPC 和 AI 集群的后端网络,而且可以兼作内存结构,将各种计算引擎连接在一起形成共享内存集群,就像 NVlink 和 NVSwitch 对 Nvidia GPU 加速器所做的那样。

博通的目标是将 InfiniBand 应用于传统的 HPC 社区和不断发展的 AI 应用,而这些应用对延迟越来越敏感。Tomahawk Ultra 交换机 ASIC 的开发实际上早于 GenAI 的兴起和向机架式系统发展的趋势,机架式系统支持大规模推理工作负载,并混合使用专家基础模型,当所有 XPU 在共享内存集群中通信时,响应速度会更快,而不是使用速度较慢且耦合度较低的 InfiniBand 或以太网。

“在推出 Tomahawk 5 之前的三年多时间里,我们一直在研究交换机的路线图,试图弄清楚我们是否完全覆盖了所有不同的应用领域,”博通 Trident 和 Tomahawk 交换机产品线经理 Peter Del Vecchio 告诉The Next Platform。“我们有 Jericho 芯片,主要应用于服务提供商和 AI 领域。我们有 Tomahawk 和 Trident,用于超大规模和企业网络。但我们发现,在 HPC 领域,InfiniBand 凭借其交换机的设计优势占据优势。优势不在于协议本身,而在于 InfiniBand 专注于不同的拓扑结构——它不需要处理全球数据中心网络、隧道和 VXLAN,也不用通过海底电缆进行 17 跳传输。InfiniBand 确实有一些特性优于我们针对特定 HPC 和 AI 应用的某些交换机 ASIC——尤其是在延迟和每秒数据包数方面,InfiniBand 更具优势。”

人们一直在谈论InfiniBand在延迟方面的优势,但并非所有人都意识到高数据包吞吐量对于高性能计算(HPC)工作负载(有时也包括人工智能工作负载)的重要性。高数据包吞吐量通常是以太网交换机ASIC的2到3倍,而ASIC经过调整,成为跨数据中心网络结构的一部分,并且随着时间的推移,处理的数据包越来越大。典型的数据中心交换机的数据包大小为1 KB,而支持巨型数据包的交换机则会将数据打包成9 KB的块进行传输。

InfiniBand 的数据包大小通常在 256 B 到 2 KB 之间,最大值为 4 KB,这个值较小。CPU 缓存行的大小为 64 B,GPU 缓存行的大小为 256 B,因此,如果要实现 CPU 和 GPU 的内存互连,需要进一步降低数据包大小,降低延迟,并提高每秒通过 ASIC 的数据包数 (PPS)。InfiniBand 不仅支持胖树网络拓扑,还支持蜻蜓、环面和网状拓扑。大型以太网通常采用 Clos 拓扑,这种拓扑结构允许以低成本连接整个数据中心的硬件,但这种方式不适合共享内存的机架式系统。

瞄准InfiniBand

早在我们首次启动The Next Platform时,我们就写了一篇名为《InfiniBand 速度太快,以太网无法消灭》的文章,这句话在十年内一直成立,在 2015 年也同样成立。

RDMA 加上 InfiniBand 协议中更小的报头等其他优势,使得这种高速网络相较于以太网具有巨大的优势。让我们来看看 Mellanox 的规格。2001 年 8 Gb/秒单速率 (SDR) InfiniBand 问世时,InfiniBand 交换机 ASIC 上的端口到端口跳跃延迟为 300 纳秒,比当时的以太网交换机快了一个数量级。使用 16 Gb/秒 DDR InfiniBand 后,延迟降至 200 纳秒;2007 年,随着 QDR InfiniBand 的推出,带宽再次翻倍至 32 Gb/秒,延迟降至 140 纳秒。由于 FDR InfiniBand 的运行速度为 56 Gb/秒,Mellanox 将以太网和 InfiniBand 融合到一个名为 Switch-X 的交换机 ASIC 上,运行 InfiniBand 协议时延迟高达 170 纳秒,这与许多 HPC 企业的预期背道而驰。因此,在 2015 年,随着 EDR InfiniBand 向 100 Gb/秒的迁移,非融合 InfiniBand 和以太网上的延迟有所降低,并推出了 Switch-IB ASIC。据 Mellanox 当时称,在某些情况下,该 ASIC 将延迟降低至 86 纳秒。Switch-IB 端口到端口跳转的官方延迟为 130 纳秒。

在过去的十年中,随着带宽的增加,信号变得越来越嘈杂,这意味着清理信号所必需的前向纠错给数据移动带来了越来越多的开销,因此延迟一直在增加。

使用 200 Gb/秒 HDR InfiniBand 时,同类最佳延迟为 130 纳秒,这意味着平均延迟更高。对于 400 Gb/秒 NDR InfiniBand,Nvidia 不再具体讨论延迟,800 Gb/秒 XDR InfiniBand 也是如此,尽管我们间接听到过 GTC 2025 大会上一位 Nvidia 工程师的演示,他表示这些设备的端口到端口跳跃延迟为 240 纳秒。

在同一时间内,交换机的数据包吞吐量对高性能计算 (HPC) 工作负载至关重要。我们目前没有关于 PPS 的早期数据,但十年前 100 Gb/秒的 Switch-IB ASIC 可以在 7.2 Tb/秒的设备上实现 70 亿 PPS。随着 2018 年 200 Gb/秒的 Quantum ASIC 的推出,在 16 Tb/秒的设备上,这一吞吐量提升至 166 亿 PPS;而对于 2021 年 400 Gb/秒的 Quantum-2 ASIC,该设备可以在 25.6 Tb/秒的总吞吐量下,实现 66.5 PPS。对于 51.2 Tb/秒、800 Gb/秒的 Quantum-X 设备,Nvidia 尚未提及 PPS。它可能会上升,也可能保持稳定。

博通的Tomahawk Ultra交换机ASIC拥有51.2 Tb/秒的总带宽,运行以太网协议,端口到端口跳数延迟仅为250纳秒,每秒可传输770亿次数据包。在高性能计算(HPC)中,对于常见的小数据包大小,其每秒传输速度(PPS)是博通102.4 Tb/秒Tomahawk 6交换机ASIC的两倍,而后者对于相同大小数据包的延迟在600纳秒到700纳秒之间。

那么,博通是如何凭借Tomahawk Ultra成为InfiniBand杀手的呢?部分原因是采用了一些早期加入Ultra以太网联盟的技术,另一项技术则是将以太网数据包报头压缩到很早以前,以便它们能够更快地穿透交换机——但这样做不会破坏以太网兼容性。除此之外,博通还添加了类似于InfiniBand长期以来所拥有的网络内集体操作,以便在网络中执行某些类型的HPC和AI操作,而不是在端点执行。

优化的以太网报头非常重要:


如您所见,优化后的以太网报头减少到 10 个字节,而标准以太网数据包中使用的标准 IPv4 和 UDP 报头为 46 个字节。

另一个提高吞吐量的巧妙方法是使以太网更加无损,这意味着当信号混乱或交换机中的缓冲区已满并导致拥塞时,它不会丢弃数据包。

使以太网表现得更无损(更有收益?)的一种技术是像 InfiniBand 一样在协议栈的链路层进行重试,检测前向纠错中的错误,并在必要时重新发送数据包帧,甚至在协议栈的上层发现有丢失之前。


LLR 是 UEC 规范的一部分,但如何实现它则由 ASIC 制造商决定。

另一项早期从 UEC 规范中引入的技术实际上是 InfiniBand 标准的一部分,并且从一开始就存在。它被称为基于信用的流量控制 (Credit-Based Flow Control)。顾名思义,它通过对设备缓冲区空间进行严格的遥测来控制发送方和接收方之间的数据流。就像这样:


使用 CBFC,接收方可以让发送方知道何时有空闲的缓冲区空间以及空闲量,这样发送方就只能发送在特定时间内能够接收的数据量。这样一来,缓冲区就不会溢出,比特也不会被丢弃,而这正是以太网传统的拥塞处理方式。这种方法在用于网页服务的 Clos 网络上运行良好,但对于运行 AI 和 HPC 工作负载来说却非常糟糕。

最后,如果要替换InfiniBand,则需要进行网络内集体操作:


Nvidia 为其 InfiniBand 产品线将这些功能称为 SHARP 功能,其中许多功能已转移到 NVSwitch,并且有一天可能也会转移到 Spectrum-X 以太网 ASIC,迄今为止,它们还不支持在交换机上进行这些集体操作。

以太网长期以来一直在追赶 InfiniBand,Cray(过去六年一直是 HPE 的一部分)的“Rosetta” Slingshot 互连或许是其逼近 InfiniBand 的最佳例证。Slingshot 网络已在美国和欧洲的准百亿亿次级和百亿亿次级计算机中使用,但它远未被 HPC 中心广泛采用,更不用说人工智能初创公司、超大规模企业和云构建商了。

我们强烈怀疑 Tomahawk Ultra 的表现会好得多。

也击中NVSwitch

虽然博通瞄准的是InfiniBand,并推出了Tomahawk Ultra,但它似乎也将对NVSwitch及其新兴竞争对手UALink发起猛烈攻击。我们尚不清楚NVSwitch端口到端口的延迟,但我们知道UALink声称可以将延迟降低到100纳秒到150纳秒。(更多信息请参阅“UALink向Nvidia NVSwitch发起首个GPU互连攻击” 。)

现在可以肯定的是,Tomahawk Ultra 是 Broadcom 一直在推动的扩展以太网 (SUE) 计划的一部分,作为 NVSwitch 和 UALink 的替代方案。


可以看出,传输层的传输和接收时间不到 150 纳秒,加上跨交换机的端口到端口跳转时间 250 纳秒,对于使用 Tomahawk Ultra 作为后端主干的机架式系统中运行的两个 XPU 设备之间的跳转时间而言,不到 400 纳秒。据 Del Vecchio 称,SUE 方法将允许 XPU 制造商(包括 Nvidia 或 AMD,如果他们选择这样做的话)通过以太网隧道传输其协议,由于这种隧道传输,开销仅为“数十纳秒”。

因此,AMD 计划在其未来的“Helios”机架式系统中,通过以太网隧道传输其 Infinity Fabric 的一个变体(该变体将被标记为 UALink,AMD 也捐赠了 Infinity Fabric),这或许并非巧合。AMD 目前正在等待 Astera Labs 以及其他可能加入 UALink 阵营的公司(例如 Marvell 和 Microchip)推出合适的 UALink 交换机。(鉴于 Tomahawk Ultra 的存在,博通可能不会生产 UALink 交换机。)

Tomahawk Ultra ASIC 现已开始提供样品,基于该芯片的产品预计将于 2026 年上半年上市。客户可以使用铜缆或光纤线缆与 Tomahawk Ultra 配合使用,并可直接从交换机驱动信号,或根据需要进行光器件共封装。博通愿意根据任何用例和预算进行定制。

https://www.nextplatform.com/2025/07/17/broadcom-tries-to-kill-infiniband-and-nvswitch-with-one-ethernet-stone/

*免责声明:本文由作者原创。文章内容系作者个人观点,半导体行业观察转载仅为了传达一种不同的观点,不代表半导体行业观察对该观点赞同或支持,如果有任何异议,欢迎联系半导体行业观察。

今天是《半导体行业观察》为您分享的第4098期内容,欢迎关注。

加星标⭐️第一时间看推送,小号防走丢



求推荐


半导体行业观察

2025-07-18

半导体行业观察

2025-07-18

半导体行业观察

2025-07-18

半导体行业观察

2025-07-18

半导体行业观察

2025-07-18

证券之星资讯

2025-07-18

首页 股票 财经 基金 导航