来源:半导体行业观察
2025-05-23 09:28:02
(原标题:什么是Scale Up和Scale Out?)
如果您希望可以时常见面,欢迎标星收藏哦~
来源:内容来自半导体行业观察综合 。
在本文中,我们来谈一下GPU集群的横向和综合拓展。
让我们从“AI Pod”的概念开始。这个术语对不同的人可能意味着不同的东西,但它通常指的是一种预先配置的模块化基础设施解决方案,旨在简化和加速AI工作负载的部署。
这些“pod”将计算、存储、网络和软件组件集成为一个紧密相连的单元,从而促进高效的 AI 运行。这就是我们遇到“纵向扩展”和“横向扩展”等术语的地方。以下是可视化示例:
对于不熟悉数据中心组织结构的人来说,机架是一个标准化的物理框架或机柜,用于容纳多个机架式设备。除了服务器(例如刀片服务器)之外,机架还可能包含网络设备(例如交换机)、电源管理组件(例如电源和配电单元)、存储设备、冷却和环境控制系统等等。
在本专栏的上下文中,每个机架可以被视为一个 AI Pod。“Scale-Up”(又称“垂直扩展”)是指向单个 AI Pod 或节点添加更多资源,例如处理器和内存。相比之下,“Scale-Out”(又称“水平扩展”)是指向系统添加更多 AI Pod 或节点并将它们连接在一起。
同时,XPU 是一个通用术语,指任何类型的处理单元(“X”代表通配符,表示“任意”或“所有”处理器)。XPU 示例如下:
CPU(中央处理器)
GPU(图形处理单元
NPU(神经处理单元)
TPU(张量处理单元)
DPU(数据处理单元)
FPGA(现场可编程门阵列)
ASIC(专用集成电路)
为了进行这些讨论,我们假设术语“ASIC”包含片上系统(SoC)设备。
每个 XPU 刀片通常包含 2 到 8 个 XPU 设备。每个设备可以形成为单片芯片(即由单个半导体切片制成),也可以形成由一组称为“芯片集”的芯片组成的多芯片系统。
我们这里讨论的计算处理能力令人难以置信,XPU 设备本身也同样如此。例如,NVIDIA 的 B200 GPU 拥有超过 2000 亿个晶体管(当然,我可没亲自数过)。
但人工智能不仅仅是“简单”地处理数据——我们还需要传输海量数据。从更高的层面来看,我们可以将其视为两个主要方面:pod 内部和 pod 之间。
Pod 间通信是指不同 AI Pod 之间的通信,通常跨机架或物理基础设施单元。Pod 内通信是指单个 AI Pod 内服务器之间的信息交换,通常位于同一机架或刀片服务器内,需要极低的延迟和极高的带宽。
上图展示了一个应用程序 pod 从三个扩展到五个的示例:
横向扩展的优势
它提供了长期的可扩展性。横向扩展的增量特性使您能够根据预期的长期增长来扩展应用程序。
缩减规模很容易。当负载较低时,您可以通过减少 Pod 数量来轻松缩减应用程序规模。这可以释放计算资源,供其他应用程序使用。
您可以使用商用服务器。通常,您不需要大型服务器来运行容器化应用程序。由于应用程序 Pod 可以水平扩展,因此可以根据需要添加服务器。
横向扩展的缺点:
可能需要重新架构。如果您的应用程序使用的是单片架构,则需要重新架构您的应用程序。
网络复杂性增加。随着节点数量的增加,组件之间的网络连接复杂性也会增加,需要强大的服务发现和通信协议。
数据一致性可能具有挑战性。对于分布式系统,确保跨多个节点的数据一致性需要精心设计,尤其是对于AI模型训练和其他数据密集型工作负载。
在跨pod和数据中心架构领域,主要的竞争者是InfiniBand和超级以太网。InfiniBand于2000年首次发布,最初由包括IBM、英特尔和Mellanox(现为NVIDIA旗下公司)在内的联盟开发。如今,InfiniBand由InfiniBand贸易协会(IBTA)管理。虽然相关规范已经发布,但NVIDIA和Mellanox主要负责推动实施。相比之下,超级以太网联盟(UEC)成立于2023年,由包括AMD、英特尔、HPE、博通、思科、Arista、微软和Meta等在内的组织组成。超级以太网是一个开放标准,旨在实现广泛的行业协作和互操作性。
简而言之,InfiniBand 长期以来一直是低延迟、高带宽通信的标准,但超级以太网正在迅速成为下一代人工智能基础设施的开放、可扩展、以太网兼容的替代方案。
纵向扩展(或称垂直扩展)是指添加更多资源(例如 CPU、内存和磁盘)来提升计算能力和存储容量。这种方法适用于部署在物理服务器或虚拟机上的传统应用程序,也适用于容器化应用程序。
上图展示了一个应用程序 Pod,它最初是一个小型配置,包含 1 个 CPU、2 GB 内存和 100 GB 磁盘空间,然后垂直扩展到包含 4 个 CPU、8 GB 内存和 500 GB 磁盘空间的大型配置。现在,凭借更多的计算资源和存储空间,该应用程序可以处理和响应来自客户端的更多请求。
垂直扩展适合需要扩展到合理规模的应用程序,特别是具有密集内存或处理要求的数据库服务。
垂直扩展的优势
它简单直接。对于具有更传统和单片架构的应用程序,只需添加更多计算资源即可扩展。
您可以充分利用强大的服务器硬件。如今的服务器比以往任何时候都更加强大,拥有更高效的 CPU、专用的 AI 加速器、更快的 NVMe 存储和高速网络。利用这些充足的计算资源,您可以扩展到非常大的应用程序容器。
垂直扩展的缺点
扩展是有限制的。即使拥有当今强大的服务器,随着您不断向应用程序 pod 添加计算资源,迟早还是会遇到物理硬件的限制。
计算资源瓶颈的出现。当您向物理服务器添加计算资源时,很难线性提升和平衡所有组件的性能,并且很可能会在某个地方遇到瓶颈。例如,某台服务器可能存在内存瓶颈,内存使用率为 100%,CPU 使用率为 70%。将 DIMM 数量翻倍后,CPU 使用率为 100%,而内存使用率为 80%。
托管应用程序的成本可能会更高。通常,计算能力更强的大型服务器成本更高。如果您的应用程序需要大量计算资源,那么使用这些高成本的大型服务器可能是唯一的选择。
由于物理硬件的限制,如果您的应用程序需要继续增长,垂直扩展是一种相当短期的解决方案。
在 pod 内部通信方面,NVLink(由 NVIDIA 开发并于 2016 年首次推出)一直是历史标准,尤其是在基于 NVIDIA GPU 的系统中,但超级加速器链接 (UALink) 正在成为跨 XPU 的高速、与供应商无关的互连的未来。
不过,英伟达黄仁勋对后者不看好,你又怎么看呢?
半导体精品公众号推荐
专注半导体领域更多原创内容
关注全球半导体产业动向与趋势
*免责声明:本文由作者原创。文章内容系作者个人观点,半导体行业观察转载仅为了传达一种不同的观点,不代表半导体行业观察对该观点赞同或支持,如果有任何异议,欢迎联系半导体行业观察。
今天是《半导体行业观察》为您分享的第4043期内容,欢迎关注。
『半导体第一垂直媒体』
实时 专业 原创 深度
公众号ID:icbank
喜欢我们的内容就点“在看”分享给小伙伴哦
黑鹰光伏
2025-05-23
AI蓝媒汇
2025-05-23
半导体行业观察
2025-05-23
半导体行业观察
2025-05-23
半导体行业观察
2025-05-23
半导体行业观察
2025-05-23
证券之星资讯
2025-05-23
证券之星资讯
2025-05-23
证券之星资讯
2025-05-23