|

财经

英伟达表示,并未放弃 64 位计算

来源:半导体行业观察

2025-12-11 09:26:35

(原标题:英伟达表示,并未放弃 64 位计算)

公众号记得加星标,第一时间看推送不会错过。

英伟达因忽视传统建模和仿真工作负载所需的64位性能,而专注于提升低精度计算(例如人工智能应用)的性能,而遭到超级计算领域一些人士的批评。然而,一位英伟达高管告诉HPCwire,公司并未放弃64位计算,像cuBLAS这样的新型仿真库可以提供帮助,而且下一代英伟达GPU的64位性能将会得到提升。

在最近的 SC25 大会上,田纳西大学的 Jack Dongarra 在介绍新的 TOP500 榜单时强调,Nvidia 从 Hopper 过渡到 Blackwell 时,其 FP64 性能并没有得到实质性的改进。

“该平台的浮点运算能力并没有比上一代有所提升——真的没有提升。64位性能也没有提高,”Dongarra在新闻发布会上说。“我们看到的是一款带宽更高但浮点运算能力却有所下降的处理器。”

英伟达的 Hopper H100 和后续的 H200 都拥有 34 万亿次浮点运算的 FP64 性能和 67 万亿次浮点运算的 FP64 Tensor Core 性能。(Tensor Core 是 GPU 上的专用引擎,用于加速矩阵乘法并支持混合精度工作负载。)这相比英伟达在 2020 年推出的 Ampere A100 GPU 的 9.7 万亿次浮点运算的 FP64 性能和 19.5 万亿次浮点运算的 FP64 Tensor Core 性能有了显著提升。

2024年,英伟达发布Blackwell架构时,其64位计算能力较低,B100的FP64和FP64 Tensor Core性能仅为30 teraflops。英伟达最终并未发售B100,而是推出了B200和GB200 Grace Blackwell“超级芯片”。虽然B200的FP64和FP64 Tensor Core性能相比B100略有提升,但其整体FP64 Tensor Core性能仍然不及H200,因此对于传统的高性能计算(HPC)工作负载而言,更老款(也更便宜)的H100和H200仍然是更优的选择。


当英伟达发布其B300 Ultra Blackwell GPU时,FP64和FP64 Tensor Core的性能基本上被忽略了,用于这种计算形式的性能仅有不到1 teraflops,远低于B200或H200/H100。然而,Blackwell芯片拥有14 petaflops或更高的低精度FP4性能,这正是AI工作负载所需要的。

显然,英伟达的Blackwell芯片更侧重于低精度AI工作负载。该公司对市场信号做出了恰当的回应,市场对训练和运行大型语言模型(LLM)及其他AI模型所需的计算能力提出了越来越高的要求。英伟达GPU的销售业绩极其强劲,使其成为全球首家市值突破5万亿美元的公司。这一点毋庸置疑。

但是(总会有个但是),高性能计算(HPC)领域的人感觉有点被冷落了。在材料科学、气候建模或计算流体动力学方面,原始的FP64运算能力是无可替代的。拥有大量的高带宽内存(HBM)当然很好。毕竟,谁会抱怨内存太多呢?但这些改进是由人工智能的需求驱动的,而不是高性能计算。

虽然人工智能确实正在改变科学计算——看看美国政府在“创世纪计划”背后的努力就知道了——但事实是,较新的 GPU 无法提供高性能计算 (HPC) 用户运行建模和仿真工作负载所需的 FP64 功能,而建模和仿真工作负载几十年来一直是高性能计算的支柱。

Intersect360 Research首席执行官 Addison Snell 表示:“FP64 对用户群体仍然至关重要,不仅对科研实验室如此,对制造业、能源、金融、医疗保健等众多行业的企业也同样重要。我们高性能计算人工智能领导组织 (HALO) 的顾问委员会已将此列为行业面临的最重要问题之一。如果您致力于‘科学人工智能’,那么 64 位计算就应该被视为一项基本要求。”

英伟达高性能计算和人工智能超大规模基础设施解决方案高级总监迪翁·哈里斯表示,虽然 Blackwell 的 64 位性能不如 Hopper,但这并不意味着英伟达放弃了在该领域的领先地位。

“当我们审视我们的平台时,我们认为FP64仍然至关重要,因为要创建所有这些强大的AI代理……你需要一个真实数据,而这通常基于你的核心仿真,你可以用它来训练和开发许多其他活动,或者至少可以用来验证它们,”哈里斯说。“所以我们认识到FP64无疑是核心的。”

哈里斯指出,英伟达于10月发布了cuBLAS,这是一个CUDA-X数学库,可在Tensor Core上模拟双精度(FP64)计算。哈里斯表示,使用cuBLAS API可以将FP64矩阵乘法的性能提升1.8倍。他指出,这种软件创新可以帮助高性能计算(HPC)专业人员充分利用英伟达提供的功能,获得所需的精度。


“我们正努力将这些功能开放给开发者环境,以便他们能够……获得所需的FP64编码,”Harris告诉HPCwire。“但我认为关键在于,我们并非试图针对硬件描述语言(HDL)优化芯片。大家都认同这样做没有价值。我们希望确保能够进行科学研究,而这正是我们投入大量精力的原因所在,即确保我们能够支持完整的流程,从仿真到数据处理,再到训练和推理,以及新计算科学工作流程中发生的整个反馈循环。”

斯内尔表示,在物理精度较低的环境中模拟更高精度的环境是开发人员会采用的一种技术。“但64位运算与64位向量指令并不相同,”他补充道,“这是一条复杂的道路。”

高性能计算行业此前也曾面临过类似的挑战。“这与我们之前看到的从向量处理到标量处理,或者从共享内存系统到分布式内存集群的过渡类似,”斯内尔告诉我们。“编程模型必须做出相应的调整。这些过渡需要时间,有些应用需要的时间更长。但高性能计算总能找到前进的方向。”

高性能计算 (HPC) 专业人士也将迎来一些 64 位性能提升。哈里斯表示,虽然他无法提供具体细节,但他暗示英伟达将致力于提升未来 GPU 在 64 位计算方面的“核心底层性能”。

“我们肯定会在未来的架构中加入一些额外的功能,”他说道。“我们非常重视确保能够提供所需的性能来支持这些仿真工作负载,我们认为这最终也将是实施……那些基于人工智能的方法的关键驱动力,因为核心仿真对于这项工作至关重要。”

具体情况如何,我们得等到三月份的 GTC 2026 大会才能见分晓。高性能计算 (HPC) 市场似乎更希望看到 FP64 性能像 A100 Ampere 到 H100 Hopper 那一代那样大幅提升。目前尚不清楚英伟达是否准备好这样做,尤其是在这意味着要牺牲其 AI 性能的情况下。三月份见分晓。

https://www.hpcwire.com/2025/12/09/nvidia-says-its-not-abandoning-64-bit-computing/

(来 源 : hpcwired )

*免责声明:本文由作者原创。文章内容系作者个人观点,半导体行业观察转载仅为了传达一种不同的观点,不代表半导体行业观察对该观点赞同或支持,如果有任何异议,欢迎联系半导体行业观察。

今天是《半导体行业观察》为您分享的第4253期内容,欢迎关注。

加星标第一时间看推送,小号防走丢

求推荐

半导体行业观察

2025-12-11

半导体行业观察

2025-12-11

半导体行业观察

2025-12-11

半导体行业观察

2025-12-11

半导体行业观察

2025-12-11

首页 股票 财经 基金 导航