|

财经

AMD发布3nm GPU,推理性能狂飙35倍

来源:半导体行业观察

2025-06-13 08:52:08

(原标题:AMD发布3nm GPU,推理性能狂飙35倍)

公众号记得加星标⭐️,第一时间看推送不会错过。

过去几年,AMD屡创新高。

从第一季度的财务数据看来,AMD季度营收74亿美元,同比增长36%。这已是公司连续第四个季度营收加速。其中,数据中心和AI业务的蓬勃发展无疑是公司最强的底气来源。数据显示,AMD数据中心部门一季度营收为营收37亿美元,同比增长57%,主要得益于AMD EPYC CPU和AMD Instinct GPU销量的增长。

与此同时,公司第一季度客户收入创纪录地达到23亿美元,同比增长68%,主要得益于市场对最新“Zen 5”AMD Ryzen处理器的强劲需求以及更丰富的产品组合。


在今天于旧金山举办的“Advancing AI 2025”活动中,AMD董事会主席及首席执行官苏姿丰(Lisa Su)博士抛出了一个数据。如下图所示,在2018年的时候,AMD在服务器CPU的市场份额仅为2%,但到了今年一季度,公司在这个市场的占比已经高达40%,这足以公司看到公司在这个市场的号召力。

当然,作为本届大会的重头戏,Lisa Su博士重申了对AI业务的看好。

她表示,在去年同期,它曾预测到2028年,整个数据中心AI加速器的市场规模会高达5000亿美元。在抛出了这个观点后,有些分析师对这个数据有所质疑。但她补充说:“根据我们现在的观察,届时这个数字可能大概率会超过5000亿美元。尤其是用于推理的AI需求,增长速度更为惊人。”


AMD也正在面向这个市场需求,做好全方位的准备。

AI市场,AMD的全栈实力

能在AI市场突围,除了本身在CPU和GPU积累领域的积累外,过去多年围绕AI生态的收购,也是AMD能走到现在的关键之一。

相关统计显示,自 2023 年以来,AMD进行了多次收购,首先是 2023 年收购软件公司 Mipsology 和 Nod.ai,然后去年继续收购 AI 实验室 Silo AI 和数据中心基础设施提供商 ZT Systems。此次收购热潮一直持续到今年。

在过去十来天,该公司宣布收购了硅光子初创公司 Enosemi、编译器软件初创公司 Brium 以及人工智能芯片初创公司Untether AI和生成式AI初创公司Lamini背后的团队。这些收购都有助于改善和增强 AMD 的人工智能能力,尤其是在数据中心市场,该市场是收入增长和盈利潜力最大的市场。

当然,AMD的AI战略及其与英伟达竞争的能力也受益于其最新一轮收购之前的收购。这包括该公司在2022年收购可编程芯片设计公司赛灵思(Xilinx)和网络芯片设计公司Pensando,这两笔收购都为AMD拓展新产品和新市场提供了机会。


Lisa Su博士在今天的演讲中表示,如上图所示,AMD已经为AI市场积累了多样化的算力底座。 与此同时,公司也打造了包括开源硬件、开源软件和开源生态在内的开源开发生态,推动价值和创新。

AMD数据中心GPU产品营销总监Mahesh Balasubramanian此前在接受媒体采访时曾表示,世界上没有哪家公司能够解决所有问题,而用人工智能解决世界问题的最佳途径是建立统一战线,而统一战线意味着拥有一个开放的软件栈,供所有人协作。这也正是AMD愿景的关键部分。

据介绍,AMD 的开源软件堆栈 ROCm 已被 OpenAI、微软、Meta、甲骨文等行业领导者广泛采用。Meta在 AMD Instinct GPU 上运行其最大、最复杂的模型。ROCm 标配对最大的 AI 框架 PyTorch 的支持,并拥有来自 Hugging Face 高级模型库的超过一百万个模型,使客户能够在 ROCm 软件和 Instinct GPU 上享受无缝的开箱即用体验。

此外,围绕着硬件服务,通过近期收购的 ZT Systems,AMD获得了重要的服务器和集群设计专业知识,再叠加上述谈到的其他各种收购,AMD打造了能够加速客户AI部署的全栈AI实力。

正如Balasubramanian 所说:“我们广泛的产品组合旨在适配各种规模的 AI 解决方案,使其能够为各种客户设置提供最佳性能,并支持各种规模的 AI 战略。无论组织处于 AI 之旅的哪个阶段,无论他们是在构建模型还是将模型用于最终用例,我们都希望他们能够与我们交流,了解我们如何帮助他们解决最大的问题。”

在今天的“Advancing AI”活动中,AMD也带来公司芯片和软件的更新。

MI350系列亮相,MI400同步披露

如大家所见,过去几年,GPU成为了AI市场的风口浪尖,这也正是AMD Instinct 系列一展所长的地方。如图所示,继去年推出MI325X之后,AMD在今年的AI大会上带来了基于CDNA 4架构的MI350X 和 MI355X AI GPU。

按照他们所说,AMD新一代GPU除了领先于英伟达的同类产品以外,与上一代 AMD MI300X 相比,还能将称性能提升高达 4 倍,推理速度更将提高 35 倍。这主要得益于向 CDNA 4 架构过渡,并采用了更小、更先进的计算芯片工艺节点。


据介绍,MI350X 和 MI355X 采用相同的底层设计,使用3nm工艺(XCD的制造工艺),集成了1850亿晶体管。在HBM方面,均配备高达 288GB 的 HBM3E 内存、高达 8 TB/s 的内存带宽,并新增了对 FP4 和 FP6 数据类型的支持。其中,AMD MI355X 配备的 HBM3E 显存容量更是竞争对手 Nvidia GB200 和 B200 GPU 的 1.6 倍,但内存带宽同样为 8TB/s。


和我们在 Nvidia 方案上看到的那样,AMD GPU更强大的性能也带来了功耗的增加。不过,MI350X 还能适用于总板级功耗 (TBP) 较低的风冷解决方案,但 MI355X 则将功耗进一步提升,满足最高性能的液冷系统需求。

如上图所示,液冷高性能 MI355X 型号的总板载功耗 (TBP) 最高可达 1400W。这比 MI300X 的 750W 和 MI325X 的 1000W 散热能力有了显著提升。不过,AMD强调,性能密度的提高使其客户能够在单个机架中塞入更多性能,从而降低至关重要的每 TCO(总体拥有成本)性能指标。


得益于这些配置,AMD 声称,MI355X 其峰值 FP64/FP32 性能比 Nvidia 芯片高出 2 倍。无论是在训练还是推理方面,AMD新的GPU也能获得不小的提升。据介绍,与B200相比,使用MI355X ,能在相同成本的前提下,获得高达40%的tokens增加。换而言之,AMD这个方案进一步降低了推理成本。

在发布会现场,AMD还展示了公司基于MI250系列打造的Rack-Scale解决方案。其中,DLC 机架配备 128 个 MI355X GPU 和 36TB HBM3E,这得益于液冷子系统提供的更高密度,从而支持使用更小的节点尺寸。AC 解决方案则最高可配备 64 个 GPU 和 18TB HBM3E,利用更大的节点通过风冷散热。


在介绍MI350系列的时候,AMD强调,新的GPU延续了公司在封装和Chiplet方面的优势。其中,应用在XCD 在 IOD 之上的 3D 混合键合堆叠意味着垂直连接芯片的带宽比使用 2.5D 中介层技术所能实现的带宽要大得多,这使得整个 GPU 封装比其他方式小得多。而I/O 芯片和 HBM 堆栈使用台积电的 CoWoS-S 封装以 2.5D 方式连接,这是目前将芯片连接在一起的一种成熟方法。


具体而言,该芯片共包含八个 XCD Chiplet,每个chiplet启用 32 个计算单元 (CU),总计 256 个 CU。其中,XCD 芯片从上一代的 5nm 工艺过渡到采用台积电 N3P 工艺节点生产的 MI350 系列芯片,使得整个芯片集成的晶体管数量比上一代的 1530 亿个晶体管预算增加了 21%。


来到I/O Die (IOD) ,虽然仍然使用 N6 工艺,但 AMD 已将 IOD 从四个 Tile 减少到两个。通过这个设计,AMD 可以在两个 I/O 芯片之间以更宽的总线运行 Infinity Fabric 高级封装互连使 AMD 能够将 Infinity Fabric 总线宽度翻倍,将对分带宽提升至高达 5.5 TB/s,同时通过降低总线频率和电压来降低功耗。这降低了非核心功耗,从而将更多功耗用于计算。


如上图所示,每个 XCD 总共包含 32 个计算单元和 128 个矩阵单元,其中 8 个 XCD 组合起来可组成 256 个计算单元和 1024 个矩阵核心。每个 GPU 芯片都有一个 HBM3E 堆栈,其中包含 12 个垂直堆叠的 DDR5 DRAM,每个堆栈互连 36 GB,并以 8 Gb/秒的速率运行。MI350 系列拥有 8 个堆栈和 288 GB 的容量,可在 128 个通道上驱动 8 TB/秒的总内存带宽。HBM3E 内存和 Infinity Fabric 互连之间有一层 Infinity Cache 内存,用于将内存连接到 XCD。


在介绍了MI350系列以后,AMD又披露了公司的下一代的MI400系列产品。据介绍,AMD MI400 GPU 系列将于 2026 年推出,能够执行40 petaflops(FP4)和20 petaflops(FP8),的运算,是今年推出的旗舰产品 MI355X 的两倍。

与 MI350 系列相比,MI400 系列基于 HBM4 标准,将内存容量提升至 432 GB,内存带宽将达到 19.6 TBps,同样是上一代产品的两倍多。MI400 系列还将支持每 GPU 300 GBps 的横向扩展带宽容量。


届时,AMD 还计划将 MI400 系列与其下一代 EPYC“Venice”CPU 和 Pensando“Vulcano”NIC 配对,为一个叫做 Helios AI 的机架提供动力。

据介绍,Helios 机架将由 72 个 MI400 GPU 组成,使其拥有 31 TB 的 HBM4 显存容量、1.4 PBps 的显存带宽和 260 TBps 的扩展带宽。这将使其能够实现每秒 2.9 exaflops 的 FP4 计算能力和每秒 1.4 exaflops 的 FP8 计算能力。该机架的扩展带宽也将达到 43 TBps。AMD透露,与定于明年推出的 Nvidia Vera Rubin 平台相比,Helios 机架将配备相同数量的 GPU 和扩展带宽,以及大致相同的 FP4 和 FP8 性能。

AMD同时表示,Helio 是一款双宽机架,这主要是因为AMD 及其主要合作伙伴认为,这是“复杂性和可靠性之间的正确设计点”。


在上文中,我们提到了AMD下一代 EPYC处理器——基于ZEN 6架构的 “Venice”。

据介绍,该CPU使用台积电2纳米工艺,配备多达 256 个核心,比当前一代 EPYC “Turin” 处理器的核心数量增加了 33%。与现有的第五代 EPYC“Turin”9005 系列处理器相比,新产品的性能将提高高达 70%。此外,新款 EPYC “Venice” 处理器的单路内存带宽将提升一倍以上,达到 1.6 TB/s(高于公司现有 CPU 的 614 GB/s),以确保高性能 Zen 6 核心始终保持数据畅通。

“Venice 进一步拓展了AMD在数据中心各个重要领域的领导地位。”Lisa Su博士在演讲中强调。


除了上述产品以外,AMD在本届峰会上的另一个硬件亮点则是在网络方面。众所周知,为了更好的增加系统的扩展能力,他们多年前收购了Pensando,以增强公司在网络拓展方面的能力。如他们所说,模型大小每三年增加1000倍,训练数据集每八个月增加2倍。但晶体管密度每两年增加两倍。

为此,AMD认为,开放系统和以太网是未来分布式系统的基础,公司目前也正在出货Pollara 400 AI 网卡——一款集成了 UltraEthernet 的 400G 设备。据介绍,该产品搭载 AMD P4 可编程引擎,支持最新的 RDMA 软件,并提供多项新功能,以优化和增强高速网络的可靠性和可扩展性。


AMD 指出,当使用 AMD 版本的 NVIDIA NCCL(称为 RCCL,用于横向扩展集体通信)时,它的速度更快,比 NVIDIA ConnectX-7 快约 10%,比 Broadcom Thor2 快约 20%。这意义重大,因为如果通信效率低下,可能会导致 GPU 空闲,从而降低整体工作负载的运行速度。


同时,随着下一代 AMD“Helios”机架规模架构的出现,AMD还计划使用 UALink 1.0 来处理其扩展。作为NVIDIA NVLink 5.0 的开放替代方案,AMD 表示其扩展能力几乎是英伟达的两倍,而且还能集成来自多家供应商的组件。AMD 还计划到2026年推出一款名为 Vulcano的800G NIC,一款适用于下一代 PCIe Gen6 集群以及 UALink 和 UltraEthernet 的产品。


此外,AMD还带来了全新的AMD ROCm 7 和 AMD 开发者云.

首先看ROCm 7,据AMD介绍,推理是 ROCm 7 最大的重点领域,在 AI 工作负载中性能提升高达 3.5 倍。细分性能提升。与 ROCm 6 相比,新一代ROCm 的Llama 3.1 70B 性能提升高达 3.2 倍,Qwen2-72B 性能提升高达 3.4 倍,Deep Seek R1 性能提升高达 3.8 倍。至于训练性能,ROCm 7 仍然比 ROCm 6 有显著提升,比 Llama 2 70B、Llama 3.1 8B 和 Quen 1.5 7B 提升了 3 倍。

全新 ROCm 软件堆栈还将扩展到企业 AI,提供完整的端到端解决方案、安全的数据集成和便捷的部署。该软件堆栈将与 GPU、CPU 和 DPU 协同工作,并支持各种工作负载,重点关注 GenAI 工作负载。

“与 ROCm 7 相辅相成的是 AMD 开发者云,现已面向全球开发者和开源社区开放。这个完全托管的环境可即时访问 AMD Instinct MI300X GPU,无需任何硬件投资或本地设置。”AMD强调。

在这些软硬件的支持下,AMD和AI的未来,更可期。

*免责声明:本文由作者原创。文章内容系作者个人观点,半导体行业观察转载仅为了传达一种不同的观点,不代表半导体行业观察对该观点赞同或支持,如果有任何异议,欢迎联系半导体行业观察。

今天是《半导体行业观察》为您分享的第4064期内容,欢迎关注。

加星标⭐️第一时间看推送,小号防走丢



求推荐


半导体行业观察

2025-06-13

半导体行业观察

2025-06-13

半导体行业观察

2025-06-13

半导体行业观察

2025-06-13

半导体行业观察

2025-06-13

证券之星资讯

2025-06-13

首页 股票 财经 基金 导航