|

财经

复盘HBM的崛起

来源:半导体行业观察

2025-08-13 08:39:48

(原标题:复盘HBM的崛起)

公众号记得加星标,第一时间看推送不会错过。

来源:内容 编译自 semianalysis 。

随着 AI 模型日益复杂,AI 系统需要容量更大、延迟更低、带宽更高、能效更高的内存。不同类型的内存各有优缺点。SRAM 速度极快,但密度较低。DDR DRAM 密度高且价格低廉,但带宽不足。目前最流行的内存是片上 HBM,它在容量和带宽之间取得了平衡。


HBM 将垂直堆叠的 DRAM 芯片与超宽数据路径相结合,在带宽、密度和能耗之间实现了最佳平衡,适用于 AI 工作负载。HBM 的生产成本远高于 DDR5,且价格确实存在溢价,但市场对 HBM 的需求依然强劲。所有用于 GenAI 训练和推理的领先 AI 加速器都使用 HBM。加速器路线图的共同趋势是通过增加更多堆栈、增加层数以及更快的 HBM 迭代来扩展每个芯片的内存容量和带宽。正如我们所证明的那样,依赖其他形式内存的架构性能往往不尽如人意。

在本问中,我们将探讨 HBM 的现状、供应链动态以及未来将发生的突破性变革。我们将探讨 HBM 在 AI 加速器架构中的关键作用、HBM 对 DRAM 市场的影响,以及它为何颠覆了内存市场分析的方式。

首先,我们来简单介绍一下 HBM——它的特殊之处以及制造过程中面临的挑战。虽然 HBM 通常指的是堆叠在 3DIC 组件中的多个 DRAM 芯片,但 HBM 的另一个关键特性是其更宽的数据总线,即使在信号传输速度一般的情况下也能提升带宽。这种显著加宽的总线使得 HBM 的单位封装带宽远超其他任何形式的内存。


I/O 数量大幅增加意味着布线密度和复杂性的增加。每个 I/O 都需要单独的线路/走线,电源和控制方面也需要额外的布线。对于 HBM3E 堆栈,相邻 XPU 和 HBM 之间有超过 1,000 条线路。这种布线密度在 PCB 或封装基板上无法实现;因此,需要在像 CoWoS 这样的 2.5D 封装组件中使用中介层(硅或有机)。

为了降低数据传输的延迟和能耗,HBM 需要直接放置在计算引擎的海岸线 (shoreline) 附近。这使得海岸线(SOC 的边缘)更加宝贵,因为 HBM 只能位于 SOC 的两个边缘,另外两个边缘则保留用于封装外的 I/O。这限制了 HBM 的放置区域,并且需要垂直堆叠内存芯片才能提供足够的容量。

为了实现 3DIC 外形尺寸,堆栈的每一层(不包括堆栈顶部)都需要有 TSV,以便为上一层传输电源和信号。安装这些 TSV 所需的额外面积使得 HBM 芯片尺寸大于其 DDR 等效尺寸:Sk Hynix D1z DDR4 的位密度为 0.296 Gb/mm² ,比其 HBM3 的 0.16 Gb/ mm²高出 85% 。这种 TSV 工艺是标准 DRAM 之间的关键区别之一,而用于该工艺的工具是将常规 DDR DRAM 晶圆容量转换为 HBM 容量的主要瓶颈。

另一个区别在于后端,HBM 总共需要堆叠 9 层或 13 层(8/12 层 DRAM 层位于底层逻辑基片之上)。随着 CoWoS 的出现,HBM 已将封装技术推向主流。MR-MUF 等利基封装技术如今已成为业内人士的常识。

我们可以看到,随着 AI 加速器需求的增加,HBM 比特需求也大幅增长。尽管定制 ASIC 迅速崛起,但 Nvidia 仍将在 2027 年占据 HBM 需求的最大份额,这得益于其积极的路线图,其中 Rubin Ultra 独自将每个 GPU 的容量推向 1 TB。随着 TPU 和 MTIA 数量的激增,Broadcom 紧随其后,而增量的 OpenAI 和 SoftBank 项目也带来了较小但明显的提升。亚马逊也成为 HBM 的最大客户之一。对于亚马逊来说,它的策略是直接采购 HBM 而不是通过设计合作伙伴,这有助于他们降低成本。


当常规 DDR DRAM 容量“转换”为 HBM 容量时,主要的变化是增加了用于形成 TSV 的工具,以及由于 HBM 晶圆的两面都带有凸块,从而增加了凸块容量。这两个步骤都是为了实现 3D 堆叠。不过,这不包括用于顶部芯片的晶圆,因为这些晶圆只需要单面凸块,不需要 TSV。

TSV 需要蚀刻机来制作通孔,并使用沉积和电镀工具来填充通孔。为了露出 TSV,需要研磨机、另一个蚀刻步骤以及临时键合机来连接此工艺中使用的载体晶圆。这就是为什么 HBM 容量现在以 TSV 容量来表示,因为这是将 DDR 晶圆转化为 HBM 晶圆的主要增量工艺。

对于凸块工艺,主要包括沉积、电镀和剥离。此外,Camtek 和 Onto 的光学检测工具可用于检查凸块是否存在缺陷以及形状是否正确。


另一部分是后端封装,海力士继续推进MR-MUF技术。简而言之,MR-MUF技术能够提供更高的生产率和更佳的散热性能。海力士专有的(与NAMICS联合开发的)模塑底部填充材料比美光和三星使用的非导电薄膜具有更好的散热性能。海力士之所以能够避开热压键合(TCB),是因为他们找到了其他方法来控制翘曲。TCB的优势之一是利用力来稳定键合材料。

另一方面,使用强力会增加凸块损坏的风险。通过对凸块施加压力,SK 还可以添加更多虚拟凸块,这也有助于散热。



该工艺的生产效率也更高。相比于TC-NCF工艺,TC-NCF采用完整的TCB工艺步骤来形成每一层的焊点,而前者只需批量回流焊和单次包覆成型即可。


与其他 DRAM 尺寸相比,HBM 的技术更为复杂,尤其是在其高 3DIC 堆栈的情况下。因此,其封装良率将无法与制造商习惯的传统产品相比。然而,前端的良率也极具挑战性,我们认为前端的良率问题更为突出。如上所述,HBM 对速度分档的要求并不高,那么为什么会这样呢?

原因在于3DIC组装和TSV。挑战之一是电源分配网络(PDN),因为TSV需要能够将电源向上传输到堆叠层。TSV的布局和设计是专有的,也是不同制造商之间主要差异化之处之一。


HBM 面临的关键挑战之一是通过电源 TSV 将电源向上传输至堆栈。刷新操作尤其耗电,因此电源分配网络的设计至关重要。海力士的 HBM3E 减少了外围面积,并在芯片上引入了全方位电源 TSV,而非采用两排电源 TSV,从而将 TSV 数量增加了近 6 倍。因此,SKH 实现了更低的电压降,VPP 电压降最高可降低 75%。


同样,美光公司在HBM技术方面出人意料的跨越式发展(美光公司甚至没有提供标准的HBM3),也归功于其对TSV和电源传输网络的专注。TSV网络似乎是一个差异化优势,使得美光公司宣称其功耗降低了30%,尽管这一说法尚未得到证实。


另一件事是在功耗和散热范围内实现承诺的速度。与任何 3DIC 组件一样,散热也是一个问题,而 DRAM 尤其不耐热。超大规模计算平台的数据表明,HBM 故障是 GPU 故障的首要原因,GPU 故障的发生频率高于数据中心中的其他芯片。

所有制造商的绝对良率都远低于其传统内存晶圆的水平,因此问题在于相对良率和最终经济效益。对于 SK 和美光来说,良率损失可以通过高定价弥补,因此 HBM 可以提高利润率。对于三星来说,良率甚至更糟。讽刺的是,他们的低良率反而加剧了 DRAM 晶圆的总供应紧张,导致价格上涨。

这引出了层数的问题。更高的层数更难实现。简单来说,如果单层的堆叠良率是 x%,那么每层的良率将累积为 x% 的 n 次方(也就是总层数减 1)。以 8 层堆叠为例,每层的堆叠良率均为 99%,则总良率将为 92%。对于 12 层堆叠,则为 87%。当然,这过于简化了。由于非关键堆叠缺陷会累积,层数越高,良率就越低。例如,少数层中存在少量但可接受的非共面性,可能会导致更高层级出现不可接受的共面性。

键合或芯片贴装步骤是影响良率的关键因素,因此需要精密的设备。由于硅通孔 (TSV) 间距约为 40 µm,键合机必须能够达到个位数甚至亚微米的对准精度。均匀的压力分布也至关重要,以避免翘曲在多层结构上叠加。当然,产量也很重要,因为它会影响成本。

Hanmi 早期专注于 HBM 热压 (TC) 键合机,而当时市场领导者 Besi 和 ASMPT 忽视了这一领域。这最终带来了回报,使其在当前 HBM 工艺中几乎占据了垄断地位。在 SK 海力士,Hanmi 的市场份额一直保持 100%,直到去年秋天,Hynix 向 Hanwha 下达了一笔大额订单,订购了与其竞争的工具。据称,Hanmi为这些工具支付了更高的价格。

这在 Hanmi 内部引起了轩然大波,可以理解的是,他们对于竞争对手以更高的价格取胜感到不满,尽管他们不具备海力士向最大、最重要的 HBM 客户 Nvidia 供应 HBM 的工艺资格。


4月初,韩美将其现场服务团队撤出SK海力士晶圆厂,争端达到白热化。如果没有服务,海力士需要数月甚至数周的时间才能出货其主打产品。长远来看,这将威胁到整个加速器供应链,因为美光和三星无法迅速填补产能缺口。韩华的工具尚未交付,去年秋天订购的一批ASMPT键合机也无法支持海力士的HBM3E 12层高。这让晶圆厂别无选择,只能向韩美请求谅解。

在巨大的压力下,SK海力士最近几周向韩美下了一份小额订单。这似乎更多是为了安抚韩美,而非大批量订单,但这足以恢复设备现场服务。由于ASMPT、Besi和其他公司都在争相改进其HBM专用TC键合机,韩美或许已无法再从其垄断地位中榨取更多利润。

HBM 堆栈的层数越多,意味着内存容量越大。每一代技术,层数都在不断增加。迄今为止,这种堆栈高度一直被限制在一个高度为 720 微米的立方体内(当前的 JEDEC 标准)。为了容纳更多层,每个芯片(不包括顶层芯片,顶层芯片需要更厚才能承受后续封装步骤中的处理)都变得更薄,芯片之间的凸块间隙也变得更薄,以腾出更多空间容纳更多层。更薄的芯片处理起来越来越困难,因此更容易发生翘曲和破损,从而影响良率。

混合键合 (HB) 对 HBM 的主要优势在于其无凸块设计。通过消除凸块间隙,可以释放更多空间来容纳更多 DRAM 核心层。但这会带来一系列新的良率和成本挑战,这些挑战可能并不值得,尤其是在 HBM 不需要混合键合提供的互连密度的情况下。制造商正在探索在混合键合中可以放宽多少焊盘密度,以降低键合精度要求,从而使该技术更适用于 HBM。HB也具有一次性的功耗和散热优势,但主要优势在于堆叠高度。

HBM 的 HB 应用一直是“下一代”技术,其目标也在不断变化。对于 D2W 混合键合而言,要使 2 层工艺达到可接受的良率极其困难且成本高昂。想象一下,这个问题扩展到 16 层及更高层会是怎样。存储器厂商的混合键合技术开发仍处于非常早期的阶段。根据台积电的经验,HB 的采用需要很长时间才能实现量产,即使在先进逻辑电路中性能优势更加明显,采用也需要很长时间。

HBM3 和 HBM3E 的堆叠高度将达到 12 层,而采用基于凸块的互连技术,12 层堆叠已接近当前 720 微米立方体厚度的极限。实现更高堆叠高度的两种解决方案是:要么采用无凸块技术,要么增加堆叠高度/厚度。后者已被 JEDEC 确认将堆叠高度放宽至 775 微米,这对混合键合的采用是一个打击。

高度放宽还可以进一步放宽。775微米是硅晶圆的标准厚度。HBM的高度需要与其共同封装的逻辑芯片相同。为了实现高于775微米的堆叠,逻辑晶圆也需要更厚,而目前的设备设计无法接受更厚的晶圆。一个潜在的解决方案是抬高逻辑芯片下方中介层(interposer)的模塑,使其升高并确保与相邻HBM共面,但这会延长走线,并且实现用于互连的硅桥并非易事。


虽然最初关于 HBM4 的 HB 实现的讨论更多,但现在已经转移到 4E 上。最近,海力士和美光在 HB 的采用方面都沉默寡言,而三星则最为活跃。这对三星来说很常见,它经常大力推广最激进的技术实现,试图迎头赶上,但最终却在执行上失败了。这导致他们进一步落后。

虽然16层的问题可以通过增加堆叠高度来解决,但要达到20层及以上,可能需要进一步缩小凸块间隙,并进一步减薄晶圆,或者干脆将堆叠高度限制在16层。堆叠高度越高,密度也就越高,而堆叠数量越多,带宽和密度也就越高。

AI 加速器的关键定义特征是它们高度并行化,并针对吞吐量进行了优化。加速器的设计目标是通过牺牲运算的复杂性来最大化其每秒可执行的运算总数。大多数加速器专注于通用矩阵乘法 (GEMM) 的乘法和加法运算,而这些运算在 AI 训练和推理工作负载中占据主导地位。相比之下,CPU 也专注于每秒可执行的指令数,但 CPU 内核“更智能”,需要更大的电路和更大的面积。因此,它们被设计用于执行各种更复杂的任务,但吞吐量却要低得多。

这意味着 AI 加速器需要大量的片外带宽来承载内存以及纵向扩展和横向扩展架构。带宽不仅需要将处理后的数据迁移到片外,还需要为加速器单元提供更多数据进行处理。如果没有足够的带宽,XPU 的计算单元将无法得到充分利用,从而违背了提供所有这些并行计算能力的初衷。让我们先从内存需求开始。

为了提供更高性能,增加内存容量和带宽以及 FLOP 至关重要,这在加速器路线图中很容易观察到。容量和带宽的扩展主要体现在三个维度上:

  • 新一代 HBM 通过更快的信号传输速度和更密集的核心芯片提供更高的带宽

  • 增加每个堆栈的层数可以提高容量。我们正处于 12 层 HBM 成为主流配置的风口浪尖。

  • 每个封装添加更多 HBM 堆栈可增加更多带宽和容量

我们可以从英伟达的路线图中看到这一点。HBM 容量从 A100 的 80 GB HBM2E 激增至 Rubin Ultra 的 1024 GB HBM4E。每芯片的内存带宽也大幅提升。从 Ampere 到 Blackwell Ultra,物料清单中最大的绝对和相对增长来自于额外的 HBM 内容,这让内存供应商(主要是 SK Hynix)受益。


这也与非内存 I/O 的需求相关。在单个内存一致性域中扩展更多 GPU 可提供更大的总内存容量和带宽。这允许扩展更大参数模型的推理,并支持在推理模型和复杂工作负载中日益流行的更长上下文长度。

正如帕金森定律所言,工作量会不断扩大,以填满分配的时间,现代人工智能遵循“内存帕金森”动态,神经网络架构不断增长,以占据任何可用的 HBM。HBM 容量和吞吐量的每一代提升,无论是 H100 上 3 TB/s 的 80 GB 还是 GB200 上 8 TB/s 的 192 GB,都会迅速促使设计人员增加参数数量、上下文长度和 KVCache 占用空间,从而抵消几个月前看似充足的空间。曾经用于将模型压缩到紧张预算范围内的技术(激活检查点、优化器卸载、权重量化)在新的 HBM 空间出现后就会变得松散,直到再次遇到内存瓶颈,不得不重新发现效率技巧。

实际上,仅仅存在更大、更快的 HBM 并不会带来持续的空闲时间;相反,它会重置“合理”模型大小的基准,确保尽管硅片技术不断进步,容量和带宽仍然是限制因素。本质上,随着 AI 芯片获得更大的 HBM,开发人员会立即构建更大的模型来填充它,因此内存始终是下一个瓶颈。让我们来看看 HBM 是如何使用的,以及压力在哪里。

在 LLM 推理中,所有模型权重都永久驻留在封装的 HBM 内存中,以便 GPU 可以立即获取它们。除了权重之外,HBM 还包含KV 缓存(KV Cache)。每次要求模型生成下一个 token 时,GPU 首先从 HBM 读取权重,同时检索整个 KV 缓存,以便在自注意力阶段将新 token 与对话历史记录进行比较。计算完成后,GPU 将新生成的 token 的全新键和值附加回 HBM,从而扩大缓存。这对带宽要求很高,因为每个 token 解码步骤都会重复读取静态权重和不断增长的 KV 缓存。如果内存带宽无法以每秒数百 GB 的速度移动这些数据,那么 GPU 等待内存的时间就会比执行计算的时间更长。实际情况就是这样,因为带宽远远超过了 token 解码的计算强度,导致大多数 LLM 推理工作负载受内存带宽限制,而不是计算限制。

随着模型的改进,它们的思维范围也随之扩大。这意味着模型能够思考、规划和行动更长时间。这种增长速度呈指数级增长,并已在卓越的产品中得到体现。例如,OpenAI 的 Deep Research 可以一次思考数十分钟,而 GPT-4 只能思考数十秒。

由于模型现在可以进行长时间的思考和推理,当上下文长度经常超过数十万个 token 时,内存容量的压力就会激增。尽管最近的进展已经减少了每个 token 生成的 KVCache 数量,但内存限制仍然快速增长。解决这个问题的一种方法是以较低的批量大小为推理模型提供服务,但这不利于经济效益。

人工智能进步的主要驱动力是强化学习 (RL),而推理是 RL 范式的重要组成部分。例如,RL 通常需要满足严格要求的合成数据,这意味着需要进行大量 GPU 小时的推理才能生成数据,之后再由另一个模型进行筛选。另一个推理负载繁重的例子是用于难以验证的任务(例如创意写作)的 RL。与可以轻松检查和验证的代码不同,创意写作、法律工作和教学等事物无法轻易验证。解决这个问题的方法,从而获得信号来强化和改进模型,是让另一个模型来评判答案。然后,这个作为评判者的 LLM 会收到一个评分标准,该标准目前是手写的,但很快将由 LLM 自动化编写,它会根据该标准对答案进行评分。

有各种算法或设置改进旨在减轻稀缺 HBM 的压力。其中一种技术是将 KVCache 迁移到更便宜、更可用的内存层,例如传统的 DDR 或存储设备。

如今,KVCache 卸载已得到广泛应用。Nvidia 为此构建了一个名为 Dynamo 分布式 KVCache 管理器的框架。从概念上讲,这与通用 CPU 中可用的多层内存并无太大区别:速度极快但密度低的 L1/2/3 缓存,以及速度较慢但密度高的 DRAM。在 AI 系统中,键值的存储位置是根据使用频率进行管理的。一个经过良好优化的系统会将所有当前使用的键值存储在 HBM 中,将不常用的键值存储在 DDR 中,并将极少使用的键值存储在 NVMe 中。

正如 DRAM 不会蚕食 CPU 的 L1/L2/L3 缓存需求一样,HBM 和 DDR/SSD 卸载并不直接相互竞争。事实上,对于大多数现代 LLM 工作负载,预填充速度(即 KVCache 的生成速率)通常比传输到 DDR 或 NVMe SSD 的速率慢,这意味着 KV 很少会完整地“驻留在 HBM 中”。它们会被生成、驱逐或发送到解码节点,用于生成下一个令牌。大多数情况下,每个用户使用的系统提示符以及其他热门 KV(例如活动序列窗口和一些预取缓冲区)都会保留在 HBM 中。

至于使用 DDR 还是 NVMe,则取决于工作负载需求和工作负载规模。此外,这还取决于工作负载的循环频率,因为频繁循环的键值对 NAND 有限的写入/重写容错能力来说并不理想。如今,使用工具调用以极低延迟和高循环速率提取文档和数据的代理用例,进一步推动了缓存从 NVMe 转向 DDR。这些是架构和用户体验之间的权衡,而非直接相互替代。

随着用例的发展,可能会出现用于不同推理需求的不同硬件配置。例如,查询固定代码库或文档将受益于每个用户每个 GPU 访问更大的键值缓存 (KVCache),因为与普通聊天相比,这些用户行为的内存需求极高。

对于传统的预训练,GPU 进行前向和后向训练所需的一切都会通过 HBM 进行。首先,模型的权重存储在 HBM 中,以便每一层都能在对一批数据进行前向传播计算时快速读取它们。当每一层处理这批数据时,它会将中间激活值写入 HBM,以便后续使用。前向传播完成并计算出损失后,后向传播就开始了:GPU 会重新访问这些存储的激活值和权重,并从 HBM 读取它们来计算梯度。得到的权重梯度,以及任何辅助优化器统计信息(例如 Adam 中的动量或方差项),也会写入 HBM。

最后,优化器从 HBM 读取这些梯度和统计信息,更新权重,为下一次迭代做好准备。然而,训练操作相对于数据传输需要更多的计算能力,这意味着训练通常受计算能力限制。但正如上文所述,强化学习 (RL) 现在是提升模型能力的关键——因此,传统上通过预训练实现的功能,正变得更像强化学习形式的推理。

https://semianalysis.com/2025/08/12/scaling-the-memory-wall-the-rise-and-roadmap-of-hbm/

*免责声明:本文由作者原创。文章内容系作者个人观点,半导体行业观察转载仅为了传达一种不同的观点,不代表半导体行业观察对该观点赞同或支持,如果有任何异议,欢迎联系半导体行业观察。

今天是《半导体行业观察》为您分享的第4124期内容,欢迎关注。

加星标第一时间看推送,小号防走丢



求推荐


AI蓝媒汇

2025-08-14

半导体行业观察

2025-08-14

半导体行业观察

2025-08-14

半导体行业观察

2025-08-14

证券之星资讯

2025-08-14

首页 股票 财经 基金 导航