|

财经

Arm服务器芯片,五大难关

来源:半导体行业观察

2025-08-03 11:20:55

(原标题:Arm服务器芯片,五大难关)

公众号记得加星标,第一时间看推送不会错过。

来源:内容来自servethehome,谢谢。

Arm 在企业领域经历了一段艰难的时期。NVIDIA 正在 AI 应用领域大力推广 Arm CPU,这是其整体战略的一部分,旨在构建像 IBM 大型机那样销售全栈的系统。在物联网领域,Arm 表现非常出色。除此之外,在主流服务器领域,企业对 Arm 的采用率相对较低。造成这种情况的原因有很多,而且它们与超大规模服务器截然不同。

在企业中,Arm 仍然缺乏推动采用的关键功能:

1、安装基础兼容性

2、硬件可用性

3、与云选项功能相同

4、软件支持

5、许可证支持

安装基础兼容性

从这些开始,我们来看看安装基数。企业主要运行 x86 计算集群,这已不是什么秘密。事实上,如果你看一下安装基数,就会发现大多数服务器都运行着英特尔至强处理器。AMD EPYC 很可能在 2025 年至 2027 年期间在关键指标上超越英特尔至强处理器,但从安装基数的角度来看,至强处理器仍然是王者,并且在未来几年内仍将如此。

说到已安装基础兼容性,这在 2025 年将至关重要。我们稍后会深入探讨这个问题,但能够不必考虑兼容性真是太好了。如今,许多 Arm 服务器推广看起来像是未经授权的云原生应用程序,可以将其转换为 Arm。我通常在这里使用 nginx Web 服务器作为示例。如果您托管在容器中而不是虚拟机中,那么迁移实际上并没有那么糟糕。或者更好的说法是,您花在架构无关的应用程序架构上的时间越多,就越容易将 Arm 纳入您的已安装基础。当然,这需要在已经运行 x86 服务器的环境中付出努力,所以问题是,为什么要花费这些精力呢?当最终结果是必须运行两种不同的架构时,尤其如此。

几年前,由于能效原因,Arm 服务器一度被英特尔至强所取代,尤其是在英特尔的制造优势被台积电夺走之后。AMD EPYC 采用与台积电相同的先进制造技术,限制了切换到 Arm 所能获得的功率增益。必须记住,在现代 CPU 中,芯片面积的主要部分并非计算核心,不同供应商之间存在差异。除了相对较小的功率增益外,挑战在于这些功率增益的上下文正在变成一个舍入误差。如果在主流的 1-1.2kW x86 计算服务器上节省 10-50W,如果 x86 计算服务器性能更佳,这是否意味着巨大的收益?

而在如今功率远超 10kW 的 AI GPU 计算服务器的背景下,情况就完全不同了。考虑到 AMD EPYC 在功耗方面的差距,公平地说,甚至与拥有 E 核的英特尔相比,情况就不同了。与新兴的 AI 功耗需求相比,CPU 计算方面节省的任何功耗收益都微不足道。我们正在评测的 AMD Instinct MI325X,每个加速器的功耗限制为 1kW,但除此之外还有额外的冷却需求。换句话说,通过切换到 Arm(或甚至一般的 E 核)来节省计算功耗的说法已经失败,因为切换到高效的架构来运行 Web 服务器意味着每 8-12 个转换为不同架构的 2U 计算服务器机架就会安装一台 8 GPU 服务器。

如今,各方正努力应对人工智能需求。在将如此多的服务器转换为更高效、优化的 Arm/E 核心以提升单台 GPU 服务器的功耗的背景下,打破现有客户群的现状毫无意义。本质上,打破现有客户群的最大原因——功耗——已被 x86 供应商的效率提升所抵消,而这种差异在当今人工智能建设的热门话题中也成了一个微不足道的误差。我们之前已经报道过这个问题,但一个略带幽默的版本是:英特尔 E 核心旨在缩小英特尔核心的应用能力范围,从而降低类似 Arm 的功耗,这一想法最终在 2024/2025 年基本停滞,因为业界不再为传统数据中心功耗的微小提升而争论不休。

硬件可用性

即使您对在 AI 背景下节省功耗的舍入误差的前景感到兴奋,部署 Arm 服务器,那么将这一愿景变为现实也是一个挑战。

目前,几乎所有供应商的 NVIDIA Grace 服务器均可选择。这些服务器的双 CPU 模块内核数量限制为 144 个,用户必须在低容量固定内存和高带宽之间进行选择,或者在高容量固定内存和低带宽之间进行选择。大多数主流供应商都会出售 NVIDIA Arm 解决方案,但 NVIDIA 目前并不专注于在企业级通用工作负载中支持这些解决方案。此外,由于 NVIDIA Grace Arm Neoverse V2 内核已开始老化,因此在绝大多数情况下,按节点计算,最好选择内核数量更高的 Intel 或 AMD 解决方案。

除了购买并非为通用工作负载设计的旧架构 Grace CPU 外,企业选择现代 Arm CPU 的选择非常有限。AmpereOne 或许是目前最好的选择,但尝试寻找戴尔、联想或 HPE 的服务器,却并非易事。更难的不仅仅是找到硬件,还有你的销售代表会优先销售 AmpereOne 服务器吗?很可能不会。从顶级服务器供应商来看,真正唯一的选择是 Supermicro,例如我们评测过的 Supermicro MegaDC ARS-211M-NR。不过,如果你想要不同规格的 CPU 配置等等,你仍然会遇到困难。

值得一提的是,我们评测过 HPE ProLiant RL300 Gen11。它使用的是老款 DDR4 Ampere Altra (Max) 处理器,并且是单插槽平台。它是一款完全可以接受的 HPE ProLiant 服务器,但在市场上却惨败。原因在于,它很难说服用户接受现有服务器的不兼容性以及缺乏广泛的选择(例如双插槽 ProLiant Arm 服务器)。它与上一代 Arm 处理器搭配使用,最终未能成功。

从企业的角度来看,通常存在一个主要的 IT 供应商关系,如果该供应商没有 Arm,那么在项目开始之前就根本无法进行。

与云产品功能相同

混合多云是当今的热门话题,并且将继续如此。拥有本地基础设施以降低成本,然后从云提供商处获得额外容量和功能的想法将变得越来越重要。随着新的人工智能功能的推出,利用多家云提供商将变得至关重要。同时,即使是这些人工智能应用程序,如果选择本地部署(或实际选择主机托管),其投资回收期也可以在12个月以内。

然而,实现功能对等确实是一个非常棘手的话题。亚马逊拥有自己的 Graviton 芯片,但仅在其云平台中可用。像甲骨文这样的公司拥有自己的 Ampere Altra 和 AmpereOne 实例。其他一些提供商则混合使用 Ampere Altra 和定制 Arm 处理器。每种方案的功能都非常不同。如果您有繁重的浮点应用程序,那么这些并非 Ampere 的设计优化点。如果您想要拥有许多人习以为常的简单功能,例如嵌套虚拟化,那么您肯定不想在 Ampere Altra (Max) 平台上运行。

云服务提供商声称这些芯片成本更低,但这在某种程度上回避了超大规模企业协商定价的方式。超大规模客户非常精明,他们可以利用硅片面积,构建包含良率和硅片制造成本的模型,加上封装等成本,最终得出芯片的生产成本。然后,他们会给硅片供应商一定的利润,这就是他们购买芯片的价格。相比企业销售中高昂的标价和高折扣,不难想象为什么超大规模企业通常能获得优惠的价格。另一方面,在构建这些模型时,唯一的区别可能最终在于芯片本身的利润率与他们接受其他供应商的利润率之间的差异。

实际上,我们在超大规模云定价中看到的 Arm 处理器折扣另有目的。云实例定价中不仅仅包含芯片价格。相反,云提供商知道每个实例与其他服务都有一个附加率。如果使用计算实例在云中构建 Web 应用程序,它通常会附加存储、备份存储、云出口带宽等等。因此,获得计算实例意味着云提供商可以围绕该实例销售更多服务。

这为云提供商带来了另一个好处。由于没有任何真正的企业硬件供公司遣返实例,因此实际上没有合法的方法来下载实例映像并在从主要供应商处购买的本地服务器中运行它。如果您使用的是 x86,那么这不是什么大问题,因为有很多可以在本地运行的选项。云提供商知道这一点,因此 Arm 成为了加州旅馆的提案。事实上,如果您在 AWS Graviton 上运行,那么您也许能够在 AmpereOne 或 Altra (Max) 实例上运行映像,但性能会有所不同,您可能需要花时间进行分析。这与 x86 不同,在 x86 方面,您可以直接购买云提供商正在运行的服务器一代(或更新一代)。

某种程度上,x86 方面的情况与此类似,因为在新的英特尔 E 核 CPU 上,如果你的 FP 工作负载很重,那么从 P 核实例迁移到 E 核实例,你的应用程序可能仍然可以运行,但性能可能会有很大差异。STH 的读者可能会在这里提出警告,因为英特尔在 Xeon 6 中也有两种 P 核,分别是 Xeon 6700P 和 6900P(以及 Xeon 6 SoC),以及另一种不支持 AVX-512 的 P 核。同时,你可以购买包含所有这些选项的服务器,所以情况略有不同。

软件支持

从软件角度来看,世界分为“云原生”和许多许可软件包。2016 年 4 月,当 Arm 服务器与最初的 Cavium ThunderX(现为 Marvell)服务器兼容时,我们就开始评测它们。如果你在 2016 年问我,我会说我认为 Arm 会在近十年后成为主流。在软件世界中,有两个强大而不同的类别:云原生和企业级。

在云原生方面,如果你想在 Arm 应用程序栈上运行 WordPress,现在真的很容易。事实上,随着容器技术的发展以及这些应用程序在 Arm 上的成熟,事情变得非常轻松。另一方面,在企业领域,这种推动力还不够。这在某种程度上是有道理的。

如果企业无法购买 Arm 服务器,就无法部署。如果没有 Arm 的安装基础,现有的应用程序将无法在 Arm 上运行。由于 Arm 服务器短期内没有解决方案,也没有安装基础,因此其背后缺乏巨大的推动力。

这是一个循环。如果你是一家正在考虑支持哪些架构的独立软件供应商 (ISV),那么 x86 是必选的,因为它占据了市场的主流。除此之外,除了物联网和边缘计算用例之外,很难对在 Arm 或 RISC-V 上移植和支持软件感到兴奋。换个角度来看,如果低产量、难以获取的平台易于移植和支持,那么 IBM POWER 很可能会在市场上占据第二的位置,因为它是一个知名的架构,拥有稳定的、愿意花钱的客户群。尽管如此,市面上仍然有大量的企业软件库,ISV 并不支持 POWER。Arm 在产量上优于 POWER,但两者之间也存在一些难以忽视的相似之处。

这种恶性循环真是令人难以接受。如果没有云原生应用之外的软件支持,我为什么要要求服务器 OEM 厂商生产并销售 Arm 服务器呢?如果没有部署这些服务器,独立软件开发商 (ISV) 又何必在意支持 Arm?答案可能是被云提供商锁定,也可能是 NVIDIA 大力推广 IBM Z 等全栈解决方案。无论哪种情况,在使用 Arm 服务器近十年,听取了 OEM 厂商和市场客户的反馈,并观察了各种动态,我越来越怀疑这种循环能否自行修复,因为网页服务功耗的降低或许能带来一些好处。

获得许可很难

这就引出了我最重要的一点,那就是许可。Arm 服务器供应商乐于谈论云原生应用,因为通常他们不需要支付许可费。即使需要,很多这类业务也只是基于受支持的节点或类似的机制运行。

但是,假设您是一家企业,并且像许多企业一样,拥有 Microsoft Windows Server。假设您可以获得支持本地部署的 Arm 版 Windows Server。那么您需要获得许可。目前,这是按核心许可的。对于按物理核心许可的产品(例如我们在最近的虚拟化文章中介绍的),SMT 和每核心最大性能等功能会更好。如果您按核心付费,那么大多数人会强烈倾向于一个性能与两个或更多低功耗核心一样好的 SMT 核心。

该问题不仅限于 Microsoft 的许可。以 VMware 为例。两年多前,我们展示了在 AMD Pensando DPU 上运行的 VMware ESXio 。虽然这是一个受支持的模型,但在 Arm 上运行 VMware 仍然只是昙花一现。Nick 在 2020 年为 STH 撰写了一篇关于在 Raspberry Pi 上运行 VMware 的文章。2021 年,Tom Fenton 和我出版了关于在 Arm 和 Raspberry Pi 上运行 VMware ESXi 的书(参见:在 Raspberry Pi 上运行 ESXi。)。2025 年 6 月,当我撰写本文时,祝你好运,尝试在 Arm 服务器上运行用于生产用途。考虑到 Broadcom 和 VMware 对许可的更改,考虑到成本,很难有任何在 Arm 上运行 VMware 的愿望。

由于基本的低级组件缺乏与市场上的 Arm 硬件有效兼容的许可证,因此高级应用程序也同样不适用。如果每个核心的速度都不是最快的,你会愿意按核心授权 CFD 软件吗?即使是按插槽授权,x86 架构仍然更受青睐,因为 AMD EPYC 9005 Turin 拥有 192 个核心和 384 个线程。对于 ISV 来说,他们需要围绕每核性能创建不同的授权方案,才能使其更具吸引力。当超大规模计算提供商提供从老款 Ampere Altra Arm 核心到新款定制核心的各种产品时,这无疑是一个危险的局面。

如果您确实拥有适用于在服务器上运行的 Arm 应用程序的按核心或按插槽许可,那么下一个挑战就出现了:您会如何处理它?您会将相同的许可证用于性能较低的按插槽或按核心的 Arm 处理器,还是性能更高的按插槽和按核心的 EPYC 处理器(在某些情况下还包括 Xeon 处理器)?更糟糕的是,如果您在 VMware ESXi 上运行已获得许可的应用程序,那么您必须弄清楚许可层级以及在 x86 和 Arm 服务器之间如何放置工作负载。如果您还没有经历过许可方面的噩梦,那么在阅读并思考了这一点之后,如果您遇到了这样的噩梦,我深表歉意。

从这五个方面来看,企业在 2025 年部署 Arm 服务器非常困难。这让我们做出了决定。

https://www.servethehome.com/deploying-amd-instead-of-arm-in-our-infrastructure-2025-here-is-why/2/

*免责声明:本文由作者原创。文章内容系作者个人观点,半导体行业观察转载仅为了传达一种不同的观点,不代表半导体行业观察对该观点赞同或支持,如果有任何异议,欢迎联系半导体行业观察。

今天是《半导体行业观察》为您分享的第4114期内容,欢迎关注。

加星标第一时间看推送,小号防走丢

求推荐

半导体行业观察

2025-08-03

半导体行业观察

2025-08-03

半导体行业观察

2025-08-03

半导体行业观察

2025-08-03

半导体行业观察

2025-08-03

证券之星资讯

2025-08-01

首页 股票 财经 基金 导航