|

财经

华为CloudMatrix384超节点:官方撰文深度解读

来源:半导体行业观察

2025-06-18 09:32:01

(原标题:华为CloudMatrix384超节点:官方撰文深度解读)

公众号记得加星标⭐️,第一时间看推送不会错过。

在今年四月举办的的华为云生态大会2025上,华为宣布推出CloudMatrix 384超节点。据华为介绍,面向AI时代的海量算力需求,华为云基于“一切可池化、一切皆对等、一切可组合”的新型高速互联总线推出CloudMatrix 384超节点,实现从服务器级到矩阵级的资源供给模式转变。

CloudMatrix 384具备“高密”“高速”“高效”的特点,通过全面的架构创新,在算力、互联带宽、内存带宽等方面实现全面领先。

近日,华为团队和硅基流动合著了一篇题为《Serving Large Language Models on Huawei CloudMatrix384》的文章。介绍了华为 CloudMatrix。(原文链接:https://arxiv.org/pdf/2506.12708)


按照他们在文章中所说,这是新一代 AI 数据中心架构,体现了华为重塑 AI 基础设施基础架构的愿景。华为 CloudMatrix384 代表了这一愿景的首个生产级实现。它将 384 个昇腾 910C NPU、192 个鲲鹏 CPU 以及其他硬件组件集成到一个统一的超级节点中,并通过超高带宽、低延迟的统一总线 (UB) 网络互连。

与传统的分层设计不同,该架构通过 UB 实现了直接的全节点通信,从而允许计算、内存和网络资源动态池化、统一访问和独立扩展。这些架构特性尤其有利于通信密集型操作,例如大规模 MoE 专家并行和分布式键值 (KV) 缓存访问,从而使 CloudMatrix384 成为下一代 LLM 服务的可扩展高性能基础。

下面,我们节选文章的关键内容翻译,以供大家参考。

华为CloudMatrix介绍

为了应对 AI 工作负载中这些新兴挑战,华为提出了 CloudMatrix,这是新一代 AI 数据中心架构,旨在重塑 AI 基础设施的基础。该架构愿景的核心在于构建一个统一、紧耦合的计算结构,以高效支持现代 AI 应用的规模化、异构性和通信需求。CloudMatrix384 代表了该愿景的首个生产级实现,提供了一个专为大规模 AI 工作负载优化的专用平台。

CloudMatrix的愿景

为应对现代大规模AI工作负载日益增长的需求,华为推出了CloudMatrix——一种开创性的下一代AI数据中心架构。该架构精心设计,秉承完全点对点高带宽互联和细粒度资源分解的原则。如图1所示,CloudMatrix突破了传统的以CPU为中心的层级设计,支持所有异构系统组件(包括NPU、CPU、DRAM、SSD、NIC和特定领域加速器)之间的直接高性能通信,尤其无需CPU中介。

该架构的核心是超高带宽、低延迟的统一总线 (UB) 网络,它促进了高效的全系统数据传输和协调。基于此基础,CloudMatrix提供了四项基础功能,共同定义了AI原生基础设施的新范式:

(1) 面向TP/EP的可扩展通信。 UB 互连支持跨 NPU 的直接高吞吐量点对点通信,使 TP 和 EP 组能够超越单个节点的边界进行扩展。这消除了节点间的瓶颈,并允许大型模型在超级节点之间高效分布。

(2) 灵活的异构工作负载资源组合。CloudMatrix 将 CPU、NPU 和内存分解为独立的池化资源,从而实现细粒度的、工作负载驱动的资源组合。这种灵活性允许根据工作负载需求(例如,内存丰富的缓存节点、CPU 密集型的预处理节点)进行细粒度的资源分配,从而将部署从固定节点配置或基于 PCIe 的主机设备耦合中解放出来。

(3) 统一的融合工作负载基础架构。高带宽 UB 网络在单一可扩展的基础架构中同时支持 AI 和数据密集型应用。这使得LLM推理、训练、仿真和分析工作负载的融合执行成为可能,而这正是混合AI流水线日益普遍的需求。

(4) 通过分解式内存池实现内存级存储。CloudMatrix将集群中连接到CPU的DRAM聚合到一个可通过UB访问的共享高性能内存池中。该底层支持弹性内存服务 (EMS) 等服务,该服务通过消除传统的I/O瓶颈,加速了诸如键值缓存重用、参数加载和模型检查点等延迟关键型操作。


CloudMatrix384 概述:完全点对点硬件架构

CloudMatrix384 被设计为一个 AI 超级节点,集成了 384 个昇腾 910C 神经网络处理单元 (NPU) 和 192 个鲲鹏中央处理器 (CPU),如图 2 所示。CloudMatrix384 的一个显著特点是其点对点、完全互联的超高带宽网络,该网络通过 UB 协议连接所有 NPU 和 CPU。CloudMatrix384 的 UB 设计是UB-Mesh 的递归。384 个 NPU 和 192 个 CPU 均通过 UB 交换机连接,使节点间通信性能接近节点内通信性能。如表 1 所示,节点间带宽衰减低于 3%,节点间延迟增加低于 1 µs。鉴于现代 AI 工作负载主要依赖带宽而非延迟,这种边际延迟开销对 AI 任务的端到端性能的影响微乎其微。总体而言,这种设计使 CloudMatrix384 能够充当一个紧密耦合的大规模逻辑节点,拥有全局可寻址的计算和内存能力,从而促进统一的资源池化和高效的工作负载编排。


为了支持多样化的流量模式并保持与传统数据中心网络的兼容性,CloudMatrix384 集成了三个独特但互补的网络平面:

(1)UB 平面:UB 平面构成超级节点内主要的超高带宽纵向扩展架构。它以无阻塞的全对全拓扑结构直接连接所有 384 个 NPU 和 192 个 CPU。每台 Ascend 910C 提供超过 392GB/s 的单向带宽。UB 能够:


  • 高效实现细粒度并行策略,例如 TP 和 EP,不受节点边界的限制;

  • 快速点对点访问池化内存(跨越 CPU 和 NPU 内存),这对于高效缓存模型权重和键值缓存至关重要。


(2)RDMA 平面:RDMA 平面支持跨 CloudMatrix384 个超级节点和外部 RDMA 兼容系统的横向扩展通信。它目前采用融合以太网 RDMA (RoCE) 技术,以确保与标准 RDMA 堆栈兼容。每个 NPU 贡献高达 400Gbps 的单向 RDMA 带宽。NPU 是该平面的唯一参与者,将 RDMA 流量与控制和存储操作隔离。关键功能包括:

  • 在推理过程中,预填充和解码 NPU 之间高速传输活动键值缓存数据;

  • 支持使用符合 RDMA 标准的框架进行分布式训练和推理;

  • 在多集群部署中实现跨超级节点的低延迟互连


(3)VPC 平面:虚拟私有云 (VPC:virtual private cloud) 平面通过高速网卡(华为擎天卡)将 CloudMatrix384 超级节点连接到更广泛的数据中心网络,每个节点可提供高达 400Gbps 的单向带宽。它基于标准以太网和 IP 协议运行,并可选配 UB-over-Ethernet (UBoE) 协议。VPC 平面负责处理:


  • 管理和控制平面操作,例如部署、监控和调度;

  • 访问持久化存储,包括对象存储服务 (OBS)、弹性卷服务 (EVS) 和可扩展文件系统服务 (SFS);

  • 来自 CPU 驻留工作负载(例如数据库和用户界面)的外部服务通信。

尽管 CloudMatrix 的长期愿景是将 RDMA 和 VPC 平面融合为一个统一的平面(如图 1 所示),但当前的 CloudMatrix384 将它们分开,以确保与传统数据中心基础设施的向后兼容性。

硬件组件

一、Ascend 910C 芯片

CloudMatrix 384 的核心是海思 Ascend 910C NPU,这是华为面2024 年推出的旗舰 AI 加速器,它将接替原版 Ascend 910B。910C 采用双芯片封装:两个相同的计算芯片共封装,共享八个封装内存储器堆栈,并通过高带宽跨芯片结构连接,如图 3 所示。

计算:每个芯片可维持约 376 TFLOPS 的密集 BF16/FP16 吞吐量,每个封装总吞吐量可达 752 TFLOPS。每个芯片包含 24 个针对矩阵和卷积工作负载优化的 AI 立方体 (AIC:AI cube) 核心,以及 48 个用于元素级运算的 AI 矢量 (AIV:AI vector) 核心。所有计算引擎均支持 FP16/BF16 和 INT8 数据类型。 8 位量化可以以 INT8 精度实现,从而实现与原生 FP8 硬件相当的计算效率,而无需专用 FP8 支持。两个芯片通过封装内互连进行通信,总带宽高达 540 GB/s,单向带宽 270 GB/s。

内存:Ascend 910C 封装集成了八个内存堆栈(每个 16 GB),共提供 128GB 封装内内存(每个芯片 64GB)。该封装可提供高达 3.2 TB/s 的总内存带宽,每个芯片可用带宽为 1.6 TB/s。

网络接口:每个 Ascend 910C 芯片与两个不同的网络平面接口。

  • UB 平面:该芯片集成七个高速收发器,每个收发器的工作速率为 224Gbps,为横向扩展的 UB 平面提供总计 196GB/s 单向(或 392GB/s 双向)带宽。

  • RDMA 平面:每个芯片都包含一个专用接口,为横向扩展的 RDMA 平面提供高达 200Gbps 的单向带宽。


二、Ascend 910C 节点

CloudMatrix384 中的每个计算节点都集成了 8 个 Ascend 910C NPU、4 个鲲鹏 CPU 和 7 个板载 UB 交换芯片,如图 4 所示。12 个处理器(8 个 NPU 和 4 个 CPU)通过 UB 链路连接到这些板载交换机,在节点内创建单层 UB 平面。每个 NPU 都配置了高达 392GB/s 的单向 UB 带宽,而每个鲲鹏 CPU 插槽则获得约 160GB/s 的单向 UB 带宽。单个板载 UB 交换芯片为超级节点结构中的下一层交换层提供 448GB/s 的上行链路容量。

只有 NPU 参与辅助 RDMA 平面。每个 NPU 设备额外贡献一条 400Gbps 单向链路,用于横向扩展 RDMA 流量,使每个节点的 RDMA 带宽总计达到 3.2 Tbps。

在 CPU 集群内,四个鲲鹏 CPU 插槽通过全网状 NUMA 拓扑互连,从而实现所有连接 CPU 的 DRAM 的统一内存访问。其中一个 CPU 承载着节点的擎天卡,这是一个专用的数据处理单元 (DPU),不仅集成了高速网络接口,还执行重要的节点级资源管理功能。该擎天卡作为节点的主要南北向出口点,与第三个不同的网络平面(数据中心的 VPC 平面)连接。

三、UB 交换机系统

CloudMatrix384 超级节点横跨 16 个机架:12 个计算机架,共承载 48 个 Ascend 910C 节点(共 384 个 NPU),以及 4 个通信机架。这些通信机架容纳第二层 (L2) UB 交换机,用于连接超级节点内的所有节点。


图 5 展示了板载第一层 (L1) UB 交换机(位于每个 Ascend 910C 节点内部)和机架级 L2 UB 交换机之间的拓扑结构。该网络设计为无阻塞,这意味着 L2 交换层不存在带宽超额认购。L2 交换机被划分为 7 个独立的子平面。每个子平面包含 16 个 L2 UB 交换芯片,每个 L2 交换芯片提供 48 个 28 GB/s 端口。

在每个节点内部,7 个板载 L1 UB 交换芯片与这 7 个 L2 子平面一一对应。每个 L1 交换芯片扇出 16 条链路(每个链路与其对应子平面中的每个 L2 交换芯片相连)。此配置可确保节点到 L2 交换矩阵的聚合上行链路带宽与其内部 UB 容量精确匹配,从而在整个超级节点中保持无阻塞特性。

软件栈

一、用于昇腾NPU的CANN

华为为昇腾NPU开发了全面的软件生态系统,称为神经网络计算架构(CANN:compute architecture for neural networks)。CANN充当中间软件层,实现高级AI框架(如PyTorch 和TensorFlow )与昇腾NPU的低级硬件接口之间的高效集成。通过将这些框架生成的抽象计算图转换为优化的硬件可执行指令,CANN简化了开发人员与昇腾硬件的交互,促进了软硬件协同设计,并旨在最大限度地提高昇腾架构上应用程序的性能。

CANN架构。CANN软件堆栈(图6)由三个主要层组成:驱动程序、运行时和库,其架构类似于NVIDIA的CUDA生态系统。

(1)驱动层:Ascend NPU 驱动程序位于底层,由内核模块和固件组成,充当操作系统与 Ascend NPU 之间的低级接口。它管理必要的硬件交互,包括设备初始化、资源分配(内存、数据流)、命令调度以及 NPU 间通信设置。

(2)运行时层:CANN Runtime 是 Ascend NPU 上应用程序的核心执行引擎。它负责监督应用程序的生命周期,协调模型计算,并为模型和算子提供全面的设备控制、内存管理和执行管理。这些功能主要通过 Ascend 计算语言 (ACL) API 访问。


(3)库层:该层提供一套高度优化的软件组件,用于加速各种 AI 工作负载。关键要素包括领域特定加速库 (AOL)、用于分布式任务的华为集体通信库 (HCCL)、包含预优化内核的扩展算子包 (OPP),以及用于神经网络加速 (NNAE) 和离线推理 (NNRT) 的引擎。支持自定义算子开发(例如通过 Ascend C 语言开发)以及与第三方库集成,以进一步增强其功能。

除了核心层之外,图引擎 (GE) 还能编译和优化来自 PyTorch、TensorFlow 和 MindSpore 28 等框架的计算图。它通过应用算子融合、内存规划、动态形状处理和调度等全图优化,连接高级模型和低级执行。这些优化降低了开销,并提高了 Ascend NPU 的执行效率。

框架集成:CANN 广泛支持主流 AI 框架,显著降低了现有和新 AI 项目采用昇腾 NPU 的门槛:

  • PyTorch:通过 PyTorch 昇腾 NPU 适配器 (torch_npu) ,开发者可以在现有的 PyTorch 工作流程中无缝利用昇腾 NPU 加速。华为提供预构建的 Python Wheel 包,安装简便,API 兼容性和最佳实践详尽文档,以及简化的 CUDA 代码迁移到 CANN 的工具或指南。

  • TensorFlow:CANN 的 TF_Adapter将昇腾 NPU 加速功能直接集成到 TensorFlow 框架中,使基于 TensorFlow 的 AI 项目能够以极少的代码修改即可获得高性能和便捷的部署。

  • ONNX:华为为 ONNX 运行时提供专用的 CANN 执行提供程序。这使得以开放神经网络交换 (ONNX) 格式 42 导出的模型能够高效执行,从而促进广泛的模型兼容性,并简化了在包含昇腾 NPU 的异构硬件环境中的部署。

  • MindSpore:MindSpore 由华为内部开发,提供与昇腾硬件的原生且高度优化的集成。该框架旨在在华为的 AI 生态系统中提供潜在的卓越性能和易用性,提供紧密耦合的软硬件解决方案。

总而言之,CANN 提供了一个垂直集成的软件堆栈,包括驱动程序、运行时和库,可与 NVIDIA 的 CUDA 相媲美,同时针对昇腾 NPU 进行了定制。其 GE 将全图表示编译为高度优化的执行计划,丰富的框架适配器使现有工作负载的移植几乎无阻力。这些组件共同使开发人员能够以最少的代码更改利用昇腾硬件,同时在广泛的 AI 应用中实现接近峰值的设备性能。


二、云部署基础设施软件

为了支持 CloudMatrix384 在云环境中的部署,华为云提供了一套完善的基础设施软件,包括 MatrixResource、MatrixLink、MatrixCompute 和 MatrixContainer,旨在抽象硬件复杂性,并通过标准云 API 实现无缝的资源编排,如图 7 所示。

MatrixResource 管理超级节点内的物理资源配置,包括基于拓扑感知调度的计算实例分配。实例配置任务由 CloudMatrix384 每个计算节点的擎天卡上运行的 MatrixResource 代理执行。

MatrixLink 为 UB 和 RDMA 网络提供面向服务的网络,支持 QoS 保证和动态路由。它管理链路级配置,并支持网络感知的工作负载分配,以实现最佳通信效率。这些任务也由每个计算节点的擎天卡上的 MatrixLink 代理执行。

MatrixCompute 协调 CloudMatrix 实例的生命周期,从裸机配置到自动扩缩容和故障恢复。它协调跨多个物理节点的资源组合,以创建紧密耦合的逻辑超级节点实例。

MatrixContainer 提供基于 Kubernetes 的容器服务,并通过拓扑感知调度进行增强,以充分利用 CloudMatrix 的高性能互连。它使用户能够使用熟悉的容器化工作流部署分布式 AI 工作负载。

ModelArts 位于基础设施堆栈的顶层,提供端到端 AI 平台服务。它包含:ModelArts Lite,可通过裸机和容器化环境直接访问 Ascend 硬件;ModelArts Standard,支持完整的 AI 开发和 MLOps 流水线;

ModelArts Studio,提供模型即服务 (MaaS) 功能,可快速部署和定制 LLM 及其他模型。

这些组件共同支持用户在 CloudMatrix 384 上高效构建和部署大规模 AI 应用程序,在保持性能的同时抽象底层复杂性

未来方向讨论

人工智能模型的快速演进及其广泛应用持续对人工智能基础设施提出日益严格的要求。尽管 CloudMatrix384 代表了紧耦合人工智能计算扩展领域的一个重要架构里程碑,但为了满足新兴工作负载的需求,仍需进一步发展。在本节中,我们将讨论 CloudMatrix 架构及其构建的 LLM 服务系统的潜在未来发展方向,旨在进一步提升可扩展性、灵活性、效率和性能。

CloudMatrix 的未来演进

CloudMatrix384 所体现的超级节点概念可以沿多个维度进行扩展,以适应未来的 AI 工作负载。

一、统一 VPC 和 RDMA 平面

如前文所述,CloudMatrix384 目前采用单独的网络平面来处理横向扩展 (RDMA) 和 VPC 流量。然而,CloudMatrix 可以将横向扩展通信集成到 VPC 网络中。在典型的 AI 训练和推理工作负载中,诸如张量、专家和序列并行 (TP/EP/SP) 等带宽密集型通信阶段主要集中在超级节点内。相比之下,跨超级节点通信(主要源于数据和流水线并行 (DP/PP))通常对带宽的需求要低得多。借助分层 DP 通信和通信隐藏技术,VPC 网络可以充分满足大多数 AI 工作负载的超级节点间通信需求。

基于此,基于 VPC 平面的统一网络架构可以构建可用区 (AZ) 规模的大规模 AI 集群。它能够兼容异构多代AI硬件,以超节点为基本单元实现灵活、模块化的扩展,并通过数据中心网络(DCN)技术支持跨地域的无缝互联。


二、更大规模的超级节点

尽管 CloudMatrix384 拥有 384 个 NPU,规模可观,但下一代 AI 模型和应用场景预计将需要更大规模的超级节点。以下几个关键因素推动了这一规模增长轨迹:

(1)扩展以适应模型演进:随着 LLM 在参数规模和架构复杂度方面的不断扩展,为其提供服务所需的基础设施也必须随之发展。

未来的模型预计将具有显著更大的参数数量、更长的输入序列以及越来越多的稀疏激活专家(sparsely activated experts),尤其是在 MoE 设计中。这些趋势对每个推理会话中的计算、内存和互连带宽提出了越来越高的要求。

此外,新兴的架构模式,例如用于专门推理的模块化子网络、检索增强生成或混合密集/稀疏计算,要求模型组件之间更紧密的耦合,从而增加模型内部的通信和同步。高效支持这些工作负载需要将计算和内存共置在一个紧密集成的超级节点内,以最大限度地减少通信延迟并保持高吞吐量。

因此,扩展超级节点容量至关重要,这不仅是为了满足原始资源需求,也是为了维持下一代LLM所需的细粒度局部性和性能特性。

(2)提升资源分配效率:扩展超级节点规模还可以提高实际异构工作负载条件下系统范围的资源利用率。基于实际生产跟踪,我们将每个AI任务建模为一组紧密耦合的块,模拟未来的NPU请求模式。每个块都是一组连续的NPU,必须在单个超级节点内进行配置,以满足作业内部的带宽和延迟限制。如图24所示,更大的超级节点在各种平均块大小范围内始终能够实现更高的NPU分配率。例如,当平均块大小为 10.08 时,384 个 NPU 超级节点的分配率超过 94%,而 224 个 NPU 超级节点的分配率则降至 91% 以下。这一改进源于碎片化的减少和更好的统计复用——更大的资源池可以为非均匀大小的作业提供更大的部署灵活性。

相反,对于固定的超级节点大小,增加块大小会导致分配效率降低,因为打包(Packing)难度较大。当平均块大小达到 11.28 时,224 个 NPU 超级节点的分配率降至 85% 以下。这些结果表明,在实际工作负载分布下,扩展超级节点规模可显著提高系统吞吐量和效率。

(3)几乎恒定的摊销网络成本:扩大超级节点规模并不会必然导致每个 NPU 的网络成本增加。假设网络架构相同,例如双层 Clos 类交换拓扑,只要配置实现了交换机端口的充分利用,每个 NPU 的网络基础设施摊销成本在不同规模的超级节点之间几乎保持不变。

如表 11 所示,192、288 或 384 个 NPU 的配置均可实现 100% 的交换机利用率,且每个 NPU 的摊销交换机成本相同。中等配置(例如 256 或 352 个 NPU)的交换机利用率较低,会略微增加每个节点的成本。这些结果表明,将超级节点规模扩展到给定交换层的上限不会带来额外的成本开销,因此从网络角度来看,这是一种经济高效的策略。


(4)适应日益增长的资源异构性:未来的人工智能工作负载将需要在同一执行环境中获得日益多样化的硬件支持。除了 NPU 和 CPU 之外,下一代超级节点还可能集成专用加速器,用于执行物理模拟、实时视频处理、无损数据压缩和加密计算等任务。这些单元正在成为端到端人工智能流水线的重要组成部分,尤其适用于多模态或特定领域的应用。

为了高效利用这些异构资源,它们必须共享相同的高带宽、低延迟互连结构,并能够作为超级节点内的一流计算对等体进行访问。要大规模地支持这种多样性,需要扩展超级节点的规模和更灵活的互连架构,这进一步强化了向更大、更异构的计算域发展的趋势,这些计算域可以处理紧密耦合、跨功能的人工智能工作负载。

三、CPU 的物理分解和池化

虽然当前的 CloudMatrix384 超级节点已经通过从其计算节点(每个节点集成 4 个鲲鹏 CPU 和 8 个昇腾 NPU)池化 CPU 和 NPU 实现了一定程度的资源灵活性,但 CloudMatrix 架构未来的一个关键方向是更根本的 CPU 和 NPU 资源的物理分解,如图 1 所示。这设想了一个由不同的专用节点类型构成的超级节点:以 NPU 为中心的节点,密集部署 AI 加速器;以及以 CPU 为中心的节点,提供强大的通用计算、内存容量和 I/O 功能。这些异构节点类型将通过高带宽、低延迟的 UB 网络平面互连,从而在超级节点级别实现细粒度、灵活且可扩展的资源池化。

物理分解的动机源于固定节点配置中传统 CPU-NPU 配对的僵化性,其中静态的 NPU 与 CPU 比率限制了系统匹配工作负载需求的能力。例如,某些推理工作负载需要密集的 CPU 预处理/后处理或大量内存支持的缓存,导致即使 NPU 空闲,也会出现 CPU 瓶颈。相反,训练工作负载可能会使 NPU 饱和,而 CPU 资源却未得到充分利用。在这种情况下,紧密耦合的 CPU-NPU 配置会导致硬件利用率不理想,并且扩展不灵活。

尽管 CloudMatrix384 的点对点 UB 拓扑已经将逻辑资源与分配解耦,从而实现了跨超级节点的灵活 CPU-NPU 匹配,但将 CPU 和 NPU 资源物理地分离到专用资源池中可以释放更多优势:

(1)独立且优化的扩展:可以开发物理上独立的以 NPU 为中心的节点(例如,使用最小的本地 CPU 进行基本管理,但最大化 NPU 密度)和以 CPU 为中心的节点(例如,拥有多个 CPU 核心、大容量 DRAM 和丰富的 I/O 选项,作为超级节点的主要 CPU 和内存资源池)。这使得 NPU 计算能力和超级节点的通用 CPU/内存容量能够独立且更经济地扩展。数据中心运营商可以构建具有高度可变的 NPU、CPU 和内存比例的超级节点,并根据主要工作负载进行精确定制(例如,NPU 密集型用于训练,CPU/内存密集型用于数据密集型预处理或大规模 EMS 缓存)

(2)增强的资源利用率和专业化:专业化的节点设计允许针对主要资源类型进行硬件优化。 NPU 节点可以专注于加速器的供电和冷却,而 CPU/内存节点可以针对内存密度、I/O 带宽或特定的 CPU 指令集进行优化。这可以提高整体效率。

未来服务系统增强

随着底层超级节点架构的不断发展,LLM 服务系统必须协同演进,才能充分利用这些功能。一个关键方向是超越粗粒度分解(例如预填充-解码分离),转向更细粒度的组件级分解和智能自适应部署策略。这些方法旨在提高资源利用率、提升吞吐量,并支持日益异构的工作负载和硬件配置。

一、组件级分解

CloudMatrix384 采用的预填充-解码-缓存分解的点对点服务架构已被证明能够有效地分离 LLM 推理的主要阶段。然而,通过将模型执行分解为更细粒度的组件,可以实现进一步的改进,这些组件可以独立管理、部署和扩展。我们重点介绍两个新兴方向:

(1)解码-注意力机制分解与卸载:虽然预填充实例受计算限制,而解码实例通常受内存限制,但 Adrenaline 系统 表明,通过将内存密集型注意力计算从解码路径中分解出来并将其卸载到未充分利用的预填充实例,可以实现额外的性能提升。这种方法提高了整体内存带宽利用率,并支持更大的解码实例批处理大小,从而提高了计算效率。它依赖于低延迟同步、精心安排的卸载任务共置以及服务等级目标 (SLO) 感知的卸载策略。其结果是在不影响延迟的情况下提高了吞吐量,这体现了注意力分解如何释放现有服务部署中的潜在容量。

(2)注意力机制和 MoE 分解:大规模 MoE 模型由于稀疏的专家激活和极端的内存需求,面临着独特的挑战。MegaScale-Infer 建议将注意力机制和专家组件分解为独立的执行服务,从而支持不同的并行策略和硬件映射。处理每个 token 的注意力层使用数据并行部署在内存优化的节点上,而专家 FFN 则通过专家并行分布在专用资源池中。这种分解执行减少了争用,提高了吞吐量,并允许注意力机制和专家资源的独立扩展,这对于高效地服务于万亿参数的 MoE 模型至关重要。

总而言之,这些分解技术代表着一种转变,即将 LLM 视为松耦合微服务的集合,每个微服务都有不同的性能配置文件。这种粒度可以更好地映射到异构硬件,并提高超级节点的负载平衡和可扩展性。

二、混合自适应部署

一旦将LLM推理分解为可视为细粒度微服务的组件,例如注意力执行、FFN计算、KV缓存管理或MoE专家门控,服务系统将获得显著的灵活性,从而采用更复杂的部署策略。这些混合自适应部署模型使系统能够根据每个组件独特的计算和内存需求定制资源分配,从而提高整体利用率和可扩展性。

1) 硬件感知的微服务布局:每个微服务都可以根据其性能状况映射到最合适的硬件类型。例如,通常受内存带宽限制的注意力层应优先在具有高内存吞吐量的NPU上运行;计算密集型的FFN模块则受益于在具有强大计算能力的NPU上分配;而轻量级或延迟容忍操作(例如KV缓存索引)可以卸载到池化CPU或低成本的通用加速器上。这种细粒度的匹配能够更高效地利用异构硬件,并在不影响性能的情况下降低成本。

2) 混合微服务共置:分解后的微服务也可以动态地共置,以提高整个超级节点的资源利用率。例如,可以将解码阶段中受内存限制的注意力操作卸载到内存利用率较低的预填充实例。

这种混合共置策略有助于缓解资源瓶颈,提高跨阶段的利用率,并增加有效的系统吞吐量,尤其是在多变或突发性工作负载下。

3) 微服务的自适应和独立扩展:微服务分解的一个关键优势是能够根据实时工作负载特性独立地扩展每个组件。例如,在处理长上下文输入期间,注意力微服务可能会承受更高的负载,并相应地进行扩展,而无需额外的 FFN 或专家资源。这种粒度可防止系统过度配置,并允许系统弹性地适应工作负载的动态变化。

为了充分利用这些功能,服务基础设施必须包含一个复杂的编排层,该层能够持续分析系统负载、预测性能瓶颈,并做出实时的、基于服务等级目标 (SLO) 的调度和扩展决策。该编排器充当混合部署模型的控制平面,确保即使工作负载和资源可用性发生波动,也能满足性能保证。

总而言之,由组件级分解支持的混合和自适应部署策略代表了 LLM 服务系统设计中一个充满希望的前沿领域。它们能够实现更精确的资源利用、跨异构硬件的无缝负载平衡,并能够满足日益复杂和多样化的模型架构所带来的未来需求。

结论

本文介绍了华为 CloudMatrix,这是新一代 AI 数据中心架构,体现了华为对先进 AI 基础设施的愿景。我们特别推荐华为 CloudMatrix384,它是这一创新架构理念的首个量产级实现。

CloudMatrix384 是一个 AI 超级节点,旨在高效支持大规模 AI 工作负载,采用完全对等互联的硬件设计。它集成了 384 个昇腾 910C NPU 和 192 个鲲鹏 CPU,并通过超高带宽、低延迟的统一总线 (UB) 网络互连。这种独特的架构支持动态资源池化、简化的内存管理和卓越的节点间通信,有效解决了传统数据中心架构中常见的可扩展性和效率挑战。

利用 CloudMatrix384,我们提出了 CloudMatrix-Infer,这是一个全面的服务解决方案,它采用点对点服务架构,将推理工作流分解为不同的预填充、解码和缓存子系统。该架构通过在所有 NPU 之间实现对共享的分解式内存池的统一访问,显著简化了调度,增强了负载均衡,并优化了资源利用率。我们进一步设计并实现了先进的硬件感知技术,包括大规模专家并行 (LEP)、优化的通信和 MLA 算子、基于微批的流水线和 INT8 量化。这些技术共同提升了 MoE 和 MLA 的计算吞吐量,提高了缓存效率,并显著提升了整体推理性能。

我们对 DeepSeek-R1 模型进行了广泛的评估,结果表明 CloudMatrix-Infer 实现了卓越的吞吐量,在预填充阶段每个 NPU 每秒处理 6,688 个tokens,在解码阶段每个 NPU 每秒处理 1,943 个tokens,同时始终保持每个输出tokens低于 50 毫秒的低延迟。这些结果对应的计算效率为预填充阶段 4.45 个tokens/秒/TFLOPS,解码阶段 1.29 个tokens/秒/TFLOPS,均超过了 NVIDIA H100 上的 SGLang 和 H800 上的 DeepSeek 等领先框架的已公布效率。

此外,CloudMatrix Infer 有效地平衡了吞吐量和延迟,即使在更严格的 15 毫秒以下 TPOT 限制下也能保持 538 个tokens/秒的吞吐量。INT8 量化策略在各种基准测试中进一步保持了与 DeepSeek 官方 API 相当的准确率。

展望未来,CloudMatrix384 的进一步增强呈现出几个令人振奋的方向。未来的工作包括集成和统一 VPC 和 RDMA 网络平面,以实现更精简的互联互通,扩展到更大的超级节点配置,以及追求更深层次的 CPU 资源分解和池化。此外,更细粒度的组件级分解和自适应部署策略,为在 AI 数据中心基础设施中实现更高的灵活性、效率和可扩展性提供了有希望的途径。

总而言之,我们的研究结果表明,华为 CloudMatrix 是一个高效、可扩展且性能优化的平台,可用于部署大规模 AI 工作负载,为未来 AI 数据中心基础设施树立了标杆。

*免责声明:本文由作者原创。文章内容系作者个人观点,半导体行业观察转载仅为了传达一种不同的观点,不代表半导体行业观察对该观点赞同或支持,如果有任何异议,欢迎联系半导体行业观察。

今天是《半导体行业观察》为您分享的第4068期内容,欢迎关注。

加星标⭐️第一时间看推送,小号防走丢



求推荐


半导体行业观察

2025-06-18

半导体行业观察

2025-06-18

半导体行业观察

2025-06-18

证券之星资讯

2025-06-18

首页 股票 财经 基金 导航