AMD发布3nm GPU，推理性能狂飙35倍

来源：半导体行业观察

2025-06-13 08:52:08

（原标题：AMD发布3nm GPU，推理性能狂飙35倍）

公众号记得加星标⭐️，第一时间看推送不会错过。

过去几年，AMD屡创新高。

从第一季度的财务数据看来，AMD季度营收74亿美元，同比增长36%。这已是公司连续第四个季度营收加速。其中，数据中心和AI业务的蓬勃发展无疑是公司最强的底气来源。数据显示，AMD数据中心部门一季度营收为营收37亿美元，同比增长57%，主要得益于AMD EPYC CPU和AMD Instinct GPU销量的增长。

与此同时，公司第一季度客户收入创纪录地达到23亿美元，同比增长68%，主要得益于市场对最新“Zen 5”AMD Ryzen处理器的强劲需求以及更丰富的产品组合。

在今天于旧金山举办的“Advancing AI 2025”活动中，AMD董事会主席及首席执行官苏姿丰（Lisa Su）博士抛出了一个数据。如下图所示，在2018年的时候，AMD在服务器CPU的市场份额仅为2%，但到了今年一季度，公司在这个市场的占比已经高达40%，这足以公司看到公司在这个市场的号召力。

当然，作为本届大会的重头戏，Lisa Su博士重申了对AI业务的看好。

她表示，在去年同期，它曾预测到2028年，整个数据中心AI加速器的市场规模会高达5000亿美元。在抛出了这个观点后，有些分析师对这个数据有所质疑。但她补充说：“根据我们现在的观察，届时这个数字可能大概率会超过5000亿美元。尤其是用于推理的AI需求，增长速度更为惊人。”

AMD也正在面向这个市场需求，做好全方位的准备。

AI市场，AMD的全栈实力

能在AI市场突围，除了本身在CPU和GPU积累领域的积累外，过去多年围绕AI生态的收购，也是AMD能走到现在的关键之一。

相关统计显示，自 2023 年以来，AMD进行了多次收购，首先是 2023 年收购软件公司 Mipsology 和 Nod.ai，然后去年继续收购 AI 实验室 Silo AI 和数据中心基础设施提供商 ZT Systems。此次收购热潮一直持续到今年。

在过去十来天，该公司宣布收购了硅光子初创公司 Enosemi、编译器软件初创公司 Brium 以及人工智能芯片初创公司Untether AI和生成式AI初创公司Lamini背后的团队。这些收购都有助于改善和增强 AMD 的人工智能能力，尤其是在数据中心市场，该市场是收入增长和盈利潜力最大的市场。

当然，AMD的AI战略及其与英伟达竞争的能力也受益于其最新一轮收购之前的收购。这包括该公司在2022年收购可编程芯片设计公司赛灵思（Xilinx）和网络芯片设计公司Pensando，这两笔收购都为AMD拓展新产品和新市场提供了机会。

Lisa Su博士在今天的演讲中表示，如上图所示，AMD已经为AI市场积累了多样化的算力底座。与此同时，公司也打造了包括开源硬件、开源软件和开源生态在内的开源开发生态，推动价值和创新。

AMD数据中心GPU产品营销总监Mahesh Balasubramanian此前在接受媒体采访时曾表示，世界上没有哪家公司能够解决所有问题，而用人工智能解决世界问题的最佳途径是建立统一战线，而统一战线意味着拥有一个开放的软件栈，供所有人协作。这也正是AMD愿景的关键部分。

据介绍，AMD 的开源软件堆栈 ROCm 已被 OpenAI、微软、Meta、甲骨文等行业领导者广泛采用。Meta在 AMD Instinct GPU 上运行其最大、最复杂的模型。ROCm 标配对最大的 AI 框架 PyTorch 的支持，并拥有来自 Hugging Face 高级模型库的超过一百万个模型，使客户能够在 ROCm 软件和 Instinct GPU 上享受无缝的开箱即用体验。

此外，围绕着硬件服务，通过近期收购的 ZT Systems，AMD获得了重要的服务器和集群设计专业知识，再叠加上述谈到的其他各种收购，AMD打造了能够加速客户AI部署的全栈AI实力。

正如Balasubramanian 所说：“我们广泛的产品组合旨在适配各种规模的 AI 解决方案，使其能够为各种客户设置提供最佳性能，并支持各种规模的 AI 战略。无论组织处于 AI 之旅的哪个阶段，无论他们是在构建模型还是将模型用于最终用例，我们都希望他们能够与我们交流，了解我们如何帮助他们解决最大的问题。”

在今天的“Advancing AI”活动中，AMD也带来公司芯片和软件的更新。

MI350系列亮相，MI400同步披露

如大家所见，过去几年，GPU成为了AI市场的风口浪尖，这也正是AMD Instinct 系列一展所长的地方。如图所示，继去年推出MI325X之后，AMD在今年的AI大会上带来了基于CDNA 4架构的MI350X 和 MI355X AI GPU。

按照他们所说，AMD新一代GPU除了领先于英伟达的同类产品以外，与上一代 AMD MI300X 相比，还能将称性能提升高达 4 倍，推理速度更将提高 35 倍。这主要得益于向 CDNA 4 架构过渡，并采用了更小、更先进的计算芯片工艺节点。

据介绍，MI350X 和 MI355X 采用相同的底层设计，使用3nm工艺(XCD的制造工艺)，集成了1850亿晶体管。在HBM方面，均配备高达 288GB 的 HBM3E 内存、高达 8 TB/s 的内存带宽，并新增了对 FP4 和 FP6 数据类型的支持。其中，AMD MI355X 配备的 HBM3E 显存容量更是竞争对手 Nvidia GB200 和 B200 GPU 的 1.6 倍，但内存带宽同样为 8TB/s。

和我们在 Nvidia 方案上看到的那样，AMD GPU更强大的性能也带来了功耗的增加。不过，MI350X 还能适用于总板级功耗 (TBP) 较低的风冷解决方案，但 MI355X 则将功耗进一步提升，满足最高性能的液冷系统需求。

如上图所示，液冷高性能 MI355X 型号的总板载功耗 (TBP) 最高可达 1400W。这比 MI300X 的 750W 和 MI325X 的 1000W 散热能力有了显著提升。不过，AMD强调，性能密度的提高使其客户能够在单个机架中塞入更多性能，从而降低至关重要的每 TCO（总体拥有成本）性能指标。

得益于这些配置，AMD 声称，MI355X 其峰值 FP64/FP32 性能比 Nvidia 芯片高出 2 倍。无论是在训练还是推理方面，AMD新的GPU也能获得不小的提升。据介绍，与B200相比，使用MI355X ，能在相同成本的前提下，获得高达40%的tokens增加。换而言之，AMD这个方案进一步降低了推理成本。

在发布会现场，AMD还展示了公司基于MI250系列打造的Rack-Scale解决方案。其中，DLC 机架配备 128 个 MI355X GPU 和 36TB HBM3E，这得益于液冷子系统提供的更高密度，从而支持使用更小的节点尺寸。AC 解决方案则最高可配备 64 个 GPU 和 18TB HBM3E，利用更大的节点通过风冷散热。

在介绍MI350系列的时候，AMD强调，新的GPU延续了公司在封装和Chiplet方面的优势。其中，应用在XCD 在 IOD 之上的 3D 混合键合堆叠意味着垂直连接芯片的带宽比使用 2.5D 中介层技术所能实现的带宽要大得多，这使得整个 GPU 封装比其他方式小得多。而I/O 芯片和 HBM 堆栈使用台积电的 CoWoS-S 封装以 2.5D 方式连接，这是目前将芯片连接在一起的一种成熟方法。

具体而言，该芯片共包含八个 XCD Chiplet，每个chiplet启用 32 个计算单元 (CU)，总计 256 个 CU。其中，XCD 芯片从上一代的 5nm 工艺过渡到采用台积电 N3P 工艺节点生产的 MI350 系列芯片，使得整个芯片集成的晶体管数量比上一代的 1530 亿个晶体管预算增加了 21%。

来到I/O Die (IOD) ，虽然仍然使用 N6 工艺，但 AMD 已将 IOD 从四个 Tile 减少到两个。通过这个设计，AMD 可以在两个 I/O 芯片之间以更宽的总线运行 Infinity Fabric 高级封装互连使 AMD 能够将 Infinity Fabric 总线宽度翻倍，将对分带宽提升至高达 5.5 TB/s，同时通过降低总线频率和电压来降低功耗。这降低了非核心功耗，从而将更多功耗用于计算。

如上图所示，每个 XCD 总共包含 32 个计算单元和 128 个矩阵单元，其中 8 个 XCD 组合起来可组成 256 个计算单元和 1024 个矩阵核心。每个 GPU 芯片都有一个 HBM3E 堆栈，其中包含 12 个垂直堆叠的 DDR5 DRAM，每个堆栈互连 36 GB，并以 8 Gb/秒的速率运行。MI350 系列拥有 8 个堆栈和 288 GB 的容量，可在 128 个通道上驱动 8 TB/秒的总内存带宽。HBM3E 内存和 Infinity Fabric 互连之间有一层 Infinity Cache 内存，用于将内存连接到 XCD。

在介绍了MI350系列以后，AMD又披露了公司的下一代的MI400系列产品。据介绍，AMD MI400 GPU 系列将于 2026 年推出，能够执行40 petaflops（FP4）和20 petaflops（FP8），的运算，是今年推出的旗舰产品 MI355X 的两倍。

与 MI350 系列相比，MI400 系列基于 HBM4 标准，将内存容量提升至 432 GB，内存带宽将达到 19.6 TBps，同样是上一代产品的两倍多。MI400 系列还将支持每 GPU 300 GBps 的横向扩展带宽容量。

届时，AMD 还计划将 MI400 系列与其下一代 EPYC“Venice”CPU 和 Pensando“Vulcano”NIC 配对，为一个叫做 Helios AI 的机架提供动力。

据介绍，Helios 机架将由 72 个 MI400 GPU 组成，使其拥有 31 TB 的 HBM4 显存容量、1.4 PBps 的显存带宽和 260 TBps 的扩展带宽。这将使其能够实现每秒 2.9 exaflops 的 FP4 计算能力和每秒 1.4 exaflops 的 FP8 计算能力。该机架的扩展带宽也将达到 43 TBps。AMD透露，与定于明年推出的 Nvidia Vera Rubin 平台相比，Helios 机架将配备相同数量的 GPU 和扩展带宽，以及大致相同的 FP4 和 FP8 性能。

AMD同时表示，Helio 是一款双宽机架，这主要是因为AMD 及其主要合作伙伴认为，这是“复杂性和可靠性之间的正确设计点”。

在上文中，我们提到了AMD下一代 EPYC处理器——基于ZEN 6架构的 “Venice”。

据介绍，该CPU使用台积电2纳米工艺，配备多达 256 个核心，比当前一代 EPYC “Turin” 处理器的核心数量增加了 33%。与现有的第五代 EPYC“Turin”9005 系列处理器相比，新产品的性能将提高高达 70%。此外，新款 EPYC “Venice” 处理器的单路内存带宽将提升一倍以上，达到 1.6 TB/s（高于公司现有 CPU 的 614 GB/s），以确保高性能 Zen 6 核心始终保持数据畅通。

“Venice 进一步拓展了AMD在数据中心各个重要领域的领导地位。”Lisa Su博士在演讲中强调。

除了上述产品以外，AMD在本届峰会上的另一个硬件亮点则是在网络方面。众所周知，为了更好的增加系统的扩展能力，他们多年前收购了Pensando，以增强公司在网络拓展方面的能力。如他们所说，模型大小每三年增加1000倍，训练数据集每八个月增加2倍。但晶体管密度每两年增加两倍。

为此，AMD认为，开放系统和以太网是未来分布式系统的基础，公司目前也正在出货Pollara 400 AI 网卡——一款集成了 UltraEthernet 的 400G 设备。据介绍，该产品搭载 AMD P4 可编程引擎，支持最新的 RDMA 软件，并提供多项新功能，以优化和增强高速网络的可靠性和可扩展性。

AMD 指出，当使用 AMD 版本的 NVIDIA NCCL（称为 RCCL，用于横向扩展集体通信）时，它的速度更快，比 NVIDIA ConnectX-7 快约 10%，比 Broadcom Thor2 快约 20%。这意义重大，因为如果通信效率低下，可能会导致 GPU 空闲，从而降低整体工作负载的运行速度。

同时，随着下一代 AMD“Helios”机架规模架构的出现，AMD还计划使用 UALink 1.0 来处理其扩展。作为NVIDIA NVLink 5.0 的开放替代方案，AMD 表示其扩展能力几乎是英伟达的两倍，而且还能集成来自多家供应商的组件。AMD 还计划到2026年推出一款名为 Vulcano的800G NIC，一款适用于下一代 PCIe Gen6 集群以及 UALink 和 UltraEthernet 的产品。

此外，AMD还带来了全新的AMD ROCm 7 和 AMD 开发者云.

首先看ROCm 7，据AMD介绍，推理是 ROCm 7 最大的重点领域，在 AI 工作负载中性能提升高达 3.5 倍。细分性能提升。与 ROCm 6 相比，新一代ROCm 的Llama 3.1 70B 性能提升高达 3.2 倍，Qwen2-72B 性能提升高达 3.4 倍，Deep Seek R1 性能提升高达 3.8 倍。至于训练性能，ROCm 7 仍然比 ROCm 6 有显著提升，比 Llama 2 70B、Llama 3.1 8B 和 Quen 1.5 7B 提升了 3 倍。

全新 ROCm 软件堆栈还将扩展到企业 AI，提供完整的端到端解决方案、安全的数据集成和便捷的部署。该软件堆栈将与 GPU、CPU 和 DPU 协同工作，并支持各种工作负载，重点关注 GenAI 工作负载。

“与 ROCm 7 相辅相成的是 AMD 开发者云，现已面向全球开发者和开源社区开放。这个完全托管的环境可即时访问 AMD Instinct MI300X GPU，无需任何硬件投资或本地设置。”AMD强调。

在这些软硬件的支持下，AMD和AI的未来，更可期。

*免责声明：本文由作者原创。文章内容系作者个人观点，半导体行业观察转载仅为了传达一种不同的观点，不代表半导体行业观察对该观点赞同或支持，如果有任何异议，欢迎联系半导体行业观察。

今天是《半导体行业观察》为您分享的第4064期内容，欢迎关注。

加星标⭐️第一时间看推送，小号防走丢

求推荐

特别推荐

6月13日新股上会动态：道生天合IPO上会通过

证券之星资讯

2025-06-13

市场寒冬下的上海电影：支柱放映业务屡陷亏损，“第二曲线”同比大增难挽业绩颓势

证券之星资讯

2025-06-13

如何看待持续下跌的白酒？

证券之星资讯

2025-06-13

首页股票财经基金导航

举报专区联系我们

AMD发布3nm GPU，推理性能狂飙35倍

相关个股

相关阅读

特别推荐