来源:半导体行业观察
2025-08-22 09:28:32
(原标题:售价2000万的GB200 NVL72,划算吗?)
公众号记得加星标,第一时间看推送不会错过。
来源 :内容 编译自 semianalysis 。
过去18个月,H100服务器的价格有所下降,目前约为每台19万美元。对于典型的超大规模数据中心而言,包括存储、网络和其他项目,每台服务器的前期资本总成本高达25万美元。
以 GB200 NVL72 为例,对于典型的超大规模数据中心来说,仅机架式服务器的成本就高达 310 万美元(约2000万人民币)。如果加上网络、存储和其他组件,每个机架的总成本约为 390 万美元。
当比较从超大规模企业到 Neocloud 巨头再到新兴 Neoclouds 的所有三种买家类型时,GB200 NVL72 每 GPU 的全部资本成本约为 H100 每 GPU 的全部资本成本的 1.6 倍到 1.7 倍。
比较两款系统的运营拥有成本,我们发现 GB200 NVL72 的每 GPU 运营成本 (Opex) 并不比 H100 高出太多。成本差异源于 GB200 NVL72 的每 GPU 总功耗高于 H100。这主要是因为 GB200 芯片的单芯片功耗为 1200 瓦,而 H100 的单芯片功耗为 700 瓦。
当我们将资本支出和运营支出都纳入考量,以计算总拥有成本 (TCO) 时,我们发现 GB200 NVL72 的 TCO 大约比 H100 高 1.6 倍。这意味着,GB200 NVL72 的速度至少需要比 H100 快 1.6 倍,才能在性能/TCO 方面优于 H100。
Nvidia 可以为 ML 社区做得更好的三件事
在深入研究基准和结果之前,我们将向 Nvidia 提出三条关键建议。
首先,我们建议 Nvidia 扩大其基准测试工作,并进一步提高透明度。为了持续提升整个 GPU 云行业的标准,Nvidia 需要对其超大规模合作伙伴和 Nvidia 云合作伙伴 (NCP) 进行基准测试,并将数据公开。这样,机器学习社区中的任何人都可以在签署价值数千万美元甚至数亿美元的合同之前,将基准测试数据纳入决策过程。
例如,在我们首次发布的 ClusterMAX 评级系统中,我们指出 GCP 较旧的 a3-mega H100 在 O(Llama 70B) 规模训练中的表现比平均 MFU 差 10%,在 O(8x7B) 混合专家备用模型的 MFU 中的表现比平均水平差 15-20%。因此,最终用户应该向 GCP 支付比平均租赁成本低 10-20% 的费用,才能获得与市场平均水平相同的性价比。在 Hyperscaler 和 NCP 提供商之间公开一套基准测试结果将大大增加协商公平合同价格的便利性并加快决策速度。这可以为双方节省大量时间和金钱,因为无需进行大量、昂贵且耗时的概念验证运行。
我们对 Nvidia 的第二个建议是,他们将基准测试重点扩展到 NeMo-MegatronLM 之外,因为许多用户更喜欢使用带有 FSDP2 和 DTensor 的原生 PyTorch,而不是 NeMo-MegatronLM。使用 NeMo-MegatronLM 的一个优势是,在任何时候,NeMo-MegatronLM 中都有许多原生 PyTorch 尚未提供的性能特性。将最新特性首先推广到 NeMo-Megatron 是合理的,但所有这些特性最多应在一个月后上传到原生 PyTorch。为此,应该分配更多 Nvidia 工程师负责 PyTorch 核心开发,而不是负责为 NeMo 添加更多特性。Nvidia 扩展基准测试重点应该包括使用 PyTorch 的运行,这也与该计划完美契合。
工程师们不应该优化 NeMo,而应该优化 TorchTitan。新的NeMo AutoModel库朝着正确的方向迈出了一步,它除了支持 Megatron-LM 之外,还支持原生 PyTorch FSDP2 后端。值得一提的是,它缺少原生 PyTorch 3D+ 与 DTensor 的并行性,并且缺少许多预训练功能,而大多数功能都用于微调。
我们的第三个建议是,Nvidia 应继续加快开发 GB200 NVL72 背板的诊断和调试工具。遗憾的是,即使经过了广泛的老化测试,NVLink 铜背板仍然不够可靠。GB200 NVL72 的运营商也抱怨说,用于诊断和调试背板相关错误的工具落后且不够完善,这加剧了这个问题。Nvidia 还可以通过坚持要求其 ODM/OEM 合作伙伴在将 GB200 NVL72 机架交付给客户之前进行更严格的验收测试来改善这种情况。
下表展示了我们在 128 个 H100 集群上在不同时间点训练 GPT-3 175B 的基准测试结果。我们选择展示不同 NeMo-Megatron LM 版本的结果,时间跨度从 2024 年 1 月开始,到 2024 年 12 月结束,分别代表 H100 大规模部署开始后的一年和两年。
基准测试设置使用 128 个 H100 和 4 个数据副本。每个数据副本由 32 个 GPU 并行化,每个层张量使用 NVLink 域在 4 个 GPU 上并行化(即 TP=4),然后进行流水线处理。有人可能会认为,对于 H100,最好使用 TP=8 来匹配整个 NVLink 域的 8 个 GPU 的世界规模,但对于 GPT-3 175B 模型,最好使用 TP=4,因为这样计算强度会更高。
具体来说,GPT3 175B 的隐藏维度为 12,288,这意味着如果使用 TP=8,结果将是 K 约简维度较小,为 1,536。相比之下,当使用 TP=4 时,隐藏约简维度将为 3,072。
基准测试的序列长度遵循GPT-3 原始论文的设置,使用 2,048 个序列长度以及 256 个样本的全局批次大小。这意味着模型在每个优化器步骤之前将看到 500k(全局Batch Size * Seq Len)个标记。
从 BF16 模型的浮点运算利用率 (MFU) 来看,我们发现在 12 个月内,MFU 从 34% 大幅提升至 54%,仅凭 CUDA 堆栈的软件改进,训练吞吐量就提升了 57%。这一提升得益于 NVIDIA CuDNN/CuBLAS 工程师编写了更优化的融合 wgmma 内核,NCCL 工程师编写了更优化的集合体,使用更少的 SM 进行通信,以及其他改进。归根结底,重要的是整个软件堆栈的优化。
我们看到 FP8 MFU 也有同样的趋势,在同一时间内从 29.5% MFU 提高到 39.5% MFU,仅从软件增益来看吞吐量就提高了 34%。
谈到成本,假设成本为 1.42 美元/小时/GPU(不包括任何租赁利润),我们发现在 FP8 上训练 GPT-3 175B 的成本从 2024 年 1 月训练的每 100 万个token 72 美分下降到 2024 年 12 月的每百万个token仅 54.2 美分。这意味着在使用原始训练token数量 300B 时训练 GPT-3 175B 的成本从 2024 年 1 月的 21.8 万美元提高到 2024 年 12 月的仅 16.2 万美元。
最后,我们检查了训练 GPT-3 的功耗。我们估算了 128 个 H100 集群(包括 GPU、CPU、网络、存储和其他组件)的总功耗。然后,我们将该功耗乘以典型主机托管数据中心的电源使用效率 (PUE),得出每个token的总效用焦耳数。
让我不禁回想起高中物理,焦耳是能量单位,相当于1牛顿的力将物体沿力的方向移动1米时所做的功。点亮一只60瓦的白炽灯泡一秒钟会消耗60焦耳(瓦特(W)是每秒能量消耗的单位),每小时消耗216千焦。另一种表示能量单位的方法是使用瓦时或千瓦时,也就是用设备功率乘以使用小时数。2022年,美国家庭平均每年消耗10,791千瓦时能源,约合38,847,600,000焦耳。将这 10,791 千瓦时除以每年 8,760 小时,我们得到全年平均 1,232 瓦的电力 - 比单个 GB200 GPU 使用的 1,200 瓦略多一点!
我们发现,使用 2024 年 12 月版本的 NVIDIA 软件,训练每个 token 的能耗为 FP8 2.46 焦耳,BF16 3.63 焦耳。如果我们的能源预算相当于美国家庭平均年能耗,那么我们可以训练 158 亿个 FP8 token。进一步扩展计算,在 GPT3 1750 亿上训练 3000 亿个 token,FP8 需要 19 个美国家庭的年能耗,BF16 需要 28 个美国家庭的年能耗。
GPT-3 的总训练成本为 16.2 万美元,相当于 19 户家庭每年的能源消耗,这听起来并不算多,但正是多次实验和多次失败的训练运行,才导致了我们现在在美国看到的人工智能训练能源消耗的激增。
弱扩展 vs 强扩展
强缩放和弱缩放描述了针对不同问题设置(例如不同批量大小)缩放计算资源的性能改进。
强扩展是指在保持模型大小和全局批次大小不变的情况下扩展计算资源。在这种情况下,可以使用阿姆达尔定律(该定律描述了通过并行化计算步骤可以实现的加速比)来量化强扩展的加速比。
另一方面,弱扩展是指扩展计算资源以在恒定时间内解决更大的问题。AI 训练本质上利用了弱扩展,因为您可以通过增加训练作业中使用的 GPU 数量来扩展模型大小和全局批次大小(取决于收敛性)。
在此基准测试中,我们检查了随着集群中 H100 GPU 数量的增加,Llama3 405B 的训练性能如何变化——这是弱扩展的一个例子。
在下表中,我们看到,随着 GPU 集群规模从 576 个 H100 增加到 2,304 个 H100,FP8 MFU 和 BF16 MFU 在所有规模下分别徘徊在 43% MFU 和 54% MFU 左右。在Llama 3 Herd of Models 论文中发表的训练运行中,研究人员使用 16,000 个 H100 来训练 Llama 3 405B,在使用类似并行策略的预训练中实现了 41% 的 BF16 MFU。请注意,上述预训练运行使用的序列长度为 8192,而对于训练中期上下文扩展,每个样本的序列长度为 131,072,而不是 8,192。这个更长的序列长度需要跨 16 个节点的上下文并行性,由于环注意力需要额外的通信,导致 MFU 下降到 38%。
谈到总训练成本,我们发现,仅进行预训练运行,使用 15T 代币对 Llama 3 405B 进行训练,在使用 BF16 和 2,304 个 H100 集群进行训练时,每百万代币的成本为 1.95 美元。仅预训练阶段的成本就高达 2910 万美元,远高于 DeepSeek 等混合专家模型的成本——后者每次训练运行的成本仅为 500 万美元。
当然,我们再次强调,这个成本反映了一次最终成功的训练运行的成本、以及进入最后阶段所需的多次实验的成本以及雇用研究人员的成本等。
由于 Llama3 405B 在总参数数量方面大约是 GPT3 175B 的 2.3 倍,因此 Llama 3 405B 和 GPT3 175B 的每令牌总效用焦耳大约是 GPT3 175B 的 2.3 倍,分别为每令牌 8.8 焦耳和每令牌 3.6 焦耳。
这意味着,对于相当于美国家庭平均一年消耗的能源,Meta 可以在 Llama3 上训练 44 亿个代币,在 BF16 上训练 4050 亿个代币。要使用 15T 代币进行训练直至收敛,Meta 所需的能源量相当于一个由 3,400 个美国家庭组成的社区的年消耗量。
接下来,我们考察不同集群规模下 Llama3 70B 训练的性能。随着集群规模从 64 块 H100 增加到 2,048 块 H100,我们发现 FP8 的性能下降了 10%,从 64 块 GPU 的 38.1% 下降到 2,048 块 GPU 的 35.5%。有趣的是,MFU 下降如此之多(按百分比计算——考虑到 MFU 基数较低,这才是真正重要的),是因为随着规模扩大,每个数据副本的批处理大小并没有改变,并行策略也没有改变。所有运行仍然使用 TP=4、PP=2 和上下文并行=2——唯一真正的变化是增加了更多数据副本。有趣的是,对于 BF16,MFU 的下降幅度要小得多,仅为 1-2%,从 64 块 H100 的 54.5% 下降到 2,408 块 GPU 的 53.7%。
Llama3 405B 比 Llama3 70B 大 5.7 倍,并且与任何密集模型一样,所需的 FLOP 数量与参数数量呈线性关系。因此,训练 Llama 3 405B 的成本应该是 Llama 3 70B 的 5.7 倍。实际上,在约 2k H100 规模下,使用 BF16 时,Llama3 405B 的每百万 token 成本是 Llama3 405B 的 5.4 倍。
在功耗方面,我们发现,对于 FP8 来说,在 2,408 个 H100 上进行训练时,每个令牌的能耗比在 64 个 H100 上训练时高出 10%。在 FP8 上使用 64 个 H100 训练 Llama 3 70B 并使其收敛至 15T 令牌,所需的能耗仅相当于 440 个美国家庭的年能耗;而在 2,048 个 H100 规模下,所需的能耗则相当于 472 个美国家庭的年能耗。
像 Llama3 405B 和 Llama3 70B 这样的大型模型都使用了张量并行、流水线并行和数据并行,但训练 Llama3 8B 只需要在 NVLink 域内每对 GPU 上实现 8,192 个序列长度的上下文并行,并使用数据并行将工作分散到其他 GPU 上。在本分析中,我们还考察了训练性能随时间的变化,以评估整个堆栈的软件改进如何影响训练性能。我们发现,从 2024 年 11 月到 2025 年 4 月,性能仅略有提升,而后者距离 Hopper 开始大规模部署已经过去了整整 23 个月。
https://semianalysis.com/2025/08/20/h100-vs-gb200-nvl72-training-benchmarks/
*免责声明:本文由作者原创。文章内容系作者个人观点,半导体行业观察转载仅为了传达一种不同的观点,不代表半导体行业观察对该观点赞同或支持,如果有任何异议,欢迎联系半导体行业观察。
今天是《半导体行业观察》为您分享的第4133期内容,欢迎关注。
加星标第一时间看推送,小号防走丢
求推荐
大众证券报
2025-08-22
大众证券报
2025-08-22
半导体行业观察
2025-08-22
半导体行业观察
2025-08-22
半导体行业观察
2025-08-22
半导体行业观察
2025-08-22
证券之星资讯
2025-08-22
证券之星资讯
2025-08-22
证券之星资讯
2025-08-22