|

财经

万字拆解371页HBM路线图

来源:半导体行业观察

2025-12-17 09:42:09

(原标题:万字拆解371页HBM路线图)

当你用ChatGPT花10分钟生成一份完整的市场分析报告,用MidJourney30秒画出一幅超写实的“赛博朋克扬州”插画,或是坐进搭载L4级自动驾驶的汽车里,看着屏幕实时渲染出周围300米内的路况——这些看似“轻松”的AI体验背后,藏着一个很少被提及的“隐形功臣”:它像一条看不见的“数据高速公路”,每秒能输送数百GB的信息,让AI的“大脑”(GPU)不用再等数据“慢吞吞”送达。它就是高带宽内存(High Bandwidth Memory, HBM),一款专为AI而生的“超级内存”。

最近,韩国KAIST大学TERALAB实验室(韩国科学技术院tera字节互联与封装实验室)发布了一份371页的《HBM Roadmap Ver 1.7》,这份报告堪称HBM领域的“圣经”——不仅详细拆解了当前HBM3/3E的技术细节,更画出了从2026年HBM4到2038年HBM8的完整发展蓝图。报告里的每一个参数、每一张架构图都在告诉我们:未来10年,AI能跑多快、算多准,很大程度上要看HBM能“送”多快。

今天,我们就用最通俗的语言,把这份专业报告“翻译”成你能轻松看懂的内容——从HBM的“出身”讲起,看看它如何从“小众技术”变成AI的“必需品”,又将如何支撑起未来的算力世界。

先搞懂:

HBM到底是个啥?

为什么AI离了它就“跑不动”?

要理解HBM的价值,我们得先回到AI的“日常工作场景”:AI大模型(比如GPT-4)训练时,需要不断把“模型权重”(相当于AI的“知识储备”)和“输入数据”(比如你输入的提问)传到GPU里计算,计算完的“中间结果”又要存回内存——这个“存-传-算”的循环,每秒钟要重复上百万次。

如果把GPU比作AI的“大脑”,那内存就是“食材仓库”:大脑要做饭,得从仓库拿食材;要是仓库离得远、送得慢,大脑再厉害也只能“等米下锅”。

传统内存(如电脑里的DDR5、手机里的LPDDR5)就是“慢仓库”:

  1. “平面布局”缺陷——一片芯片铺在电路板上,数据要沿着金属导线“走平路”传输,就像用自行车送快递,一次带不了多少,遇到“堵车”(多任务调用)还会变慢;

  2. 带宽有限——如DDR5的最高带宽约50GB/s(相当于每秒能传12部高清电影),而GPU的计算速度早已突破1000 TFLOPS(每秒万亿次运算),数据根本供不上;

  3. 延迟高——数据从内存传到GPU要经过好几层“中转站”,延迟通常在100纳秒以上,对需要“实时响应”的AI推理(比如自动驾驶识别障碍物)来说,这点延迟可能酿成事故。




而HBM,就是为解决这个“供需矛盾”而生的“超级仓库”——它把传统内存的“平面布局”改成“3D堆叠”,相当于把“自行车快递”换成“无人机编队”,效率直接翻了10倍。

1.HBM的核心设计:“三明治式” 3D 内存堆叠技术

可以把HBM想象成一个“多层蛋糕”:最底层为“底座蛋糕”(Base Die,基础芯片),上面堆叠着8-24层“夹心蛋糕”(Core Die,核心芯片),每一层之间用“微型吸管”(硅通孔TSV)连接——这些“吸管”能让数据直接在层间穿梭,不用绕路。

具体而言,这一 “堆叠蛋糕” 式架构中,每一层均有明确分工,共同支撑高带宽传输:

Core Die(核心芯片):负责“存数据”,相当于仓库的“货架”。层数越多,“货架”越多,容量越大——比如HBM4支持12-16层堆叠,单模块容量能到48GB,而HBM8能堆24层,容量突破240GB;

Base Die(基础芯片):相当于仓库的“分拣中心”,负责把数据“分类打包”后传给GPU。早年的Base Die是“通用款”,所有厂商都用一样的设计;但从HBM4开始,它变成了“定制款”——能直接连接LPDDR内存(低成本大容量的“备用仓库”),还能集成简单的“计算单元”,甚至跳过CPU直接和GPU通信,相当于“分拣中心”自己就能处理部分订单,不用再麻烦“总公司”(CPU)。

举个直观的例子:同样是存48GB数据,传统DDR5需要4条内存条,占满主板上的内存插槽;而HBM只需要一个指甲盖大小的模块,体积缩小了60%,还能贴在GPU旁边——这样一来,数据传输距离从“10厘米”缩短到“1毫米”,延迟自然大幅降低。

HBM的“三大优势”:

AI为什么非它不可?

如果你问AI厂商“为什么一定要用HBM”,他们会给你三个无法拒绝的理由:

带宽“碾压”传统内存

带宽就是“每秒能传多少数据”,对AI来说,带宽直接决定了“训练速度”。比如训练GPT-3(1750亿参数),用DDR5内存需要20天,而用HBM3只需要5天——这就是“自行车”和“高铁”的差距。

根据KAIST的报告,HBM的带宽还在飞速提升:HBM3是819GB/s,HBM4翻倍到2TB/s,HBM8更是飙升到64TB/s——相当于每秒能传16万部高清电影,这样的速度才能喂饱未来万亿参数的AGI(通用人工智能)。

功耗“减半”,更适合数据中心

数据中心的电费是笔“天文数字”——一个容纳1000台AI服务器的机房,每年电费能超过1000万元。而HBM的垂直传输设计,让数据不用“绕路”,自然更省电:同样传输1TB数据,HBM3的功耗是DDR5的60%,HBM4能降到50%,对数据中心来说,这意味着每年能省几十万电费。

体积“迷你”,适配高密度AI服务器

现在的AI服务器讲究“高密度”——一台服务器里塞8块、16块GPU很常见。如果用传统DDR5,每块GPU要配4条内存条,16块GPU就要64条,主板根本装不下;而HBM直接集成在GPU封装里,一块GPU带一个HBM模块,16块GPU也只占16个“指甲盖”大小的空间,服务器的“算力密度”直接翻了3倍。

简单说:没有HBM,AI大模型的训练会“慢得离谱”,数据中心的电费会“高得吓人”,高密度服务器也“装不下”——这就是为什么2025年之后,几乎所有中高端AI服务器都明确要求“必须搭载HBM”。

HBM的“进化时间线”:

从2026到2038,五代产品各有“神技能”

KAIST报告的核心要义,在于明确绘制出HBM4至HBM8的“技术代际升级路线图”,为行业指明迭代方向。


每一代产品都对应着AI的阶段性需求:HBM4解决中端AI服务器的容量问题,HBM5攻克大模型的计算延迟难题,HBM8则为AGI的发展铺路。下面,我们按时间顺序,细数各代HBM的核心“黑科技”。

1. 2026年:HBM4——“定制化”首秀,让内存“按需改造”


发布背景:

2026年,中端AI服务器会成为市场主流——比如企业用的AI客服系统、小公司的AI设计工具,这些场景不需要HBM5的极致性能,但需要“性价比高、容量够大”的内存。HBM4就是为这些场景而生的。


“HBM3架构”和“HBM4架构”的内存通信差异,核心是HBM4让GPU能绕开CPU直接用LPDDR:

HBM3架构:

CPU 通过“低带宽”的 PCle总线连 GPU,HBM只和GPU直连;

LPDDR归CPU管,GPU要用LPDDR数据,得先经CPU中转,PCle总线成了“带宽瓶颈”。

HBM4架构:

GPU直接和HBM、LPDDR连,CPU甚至“闲置”了;

关键是HBM4的定制基底裸片(HBM Base Die)集成了内存控制器(MC),能同时管HBM和LPDDR,让它们直接和GPU通信,不用CPU当“中间商”,既解决了带宽瓶颈,还扩容了内存。

HBM4核心参数(对比HBM3):

  • 带宽:从819GB/s提升到2TB/s(快2.4倍);

  • 容量:单模块36-48GB(是HBM3的2倍);

  • 功耗:75W(比HBM3的25W高?别慌,这是“高性能模式”,节能模式下能降到43W);

  • I/O数量:从1024个增加到2048个(相当于“数据通道”多了一倍)。

最大创新:定制化Base Die,内存也能“私人订制”

早年的HBM是“一刀切”的——不管你是做AI训练还是游戏显卡,Base Die的设计都一样。但HBM4的Base Die能“按需改造”,最实用的功能就是“直接连接LPDDR”:


比如一家做AI客服的公司,平时要存大量的“历史对话数据”(低频使用,但容量要大),如果全存在HBM里,成本太高;现在HBM4的Base Die能直接连LPDDR(每GB成本只有HBM的1/3),高频用的数据存在HBM,低频用的存在LPDDR,不用通过CPU“中转”——这样一来,成本降了40%,延迟降30%。

散热方案:直触液冷(D2C)—— 为高功耗内存量身打造 “贴身空调

HBM4功率攀升至75W后,传统风冷(风扇+散热片)已难以满足散热需求。基于此,其搭载 Direct-to-Chip(D2C)直触液冷方案:通过在HBM模块上贴合“水冷头”,使冷却液直触芯片表面,散热效率达风冷的3倍,能将温度稳定在 75℃以下(85℃为内存降频临界值)。


适合场景:中端AI服务器、高端游戏显卡、边缘计算设备(比如智慧城市的摄像头分析单元)。

2. 2029 年:HBM5——“会计算的内存” 崛起,GPU 不再是唯一算力核心

发布背景:

2029年,LLM大模型会进入“千亿到万亿参数”时代(比如GPT-5可能有1万亿参数),此时的瓶颈不再是“数据传得慢”,而是“数据传得太频繁”——GPU要花30%的时间等待数据,计算时间反而被压缩。HBM5的核心目标就是“让内存自己算数据”,减少GPU的等待时间。

核心参数:

  • 带宽:4TB/s(比HBM4快2倍);

  • 容量:单模块40GB(能装下GPT-4的完整模型权重);

  • 功率:100W(高性能模式);

  • I/O数量:4096个(数据通道再翻倍)。

最大创新:近内存计算(NMC),内存变“迷你GPU”


HBM5最颠覆的设计,是在“Core Die堆叠”上面加了两层“计算芯片”:一层是“NMC处理器”(近内存计算单元),一层是“L2缓存”——简单说,就是给内存装了个“迷你GPU”,能处理简单的计算任务。

比如LLM推理时要做“矩阵乘法”,以前要把“矩阵数据”传到GPU里算,现在HBM5的NMC处理器直接在内存里算,算完再把“结果”传给GPU——这样一来,GPU的工作量少了40%,推理速度提升1.5倍。KAIST的实验显示,用HBM5跑LLaMA3-70B模型,生成1000个tokens的时间从0.8秒缩短到0.3秒。

其他升级:集成专用 “去耦电容芯片”,精准抑制电源噪声,保障供电稳定性

HBM5的功率到了100W,电源波动会更明显——就像家里同时开空调、微波炉,灯泡会闪烁一样,电源波动会导致数据传输出错。所以HBM5专门加了“去耦电容芯片”,堆叠在Core Die和Base Die之间,相当于给内存装了“稳压器”,电源噪声降低60%,数据传输的错误率从10⁻⁹降到10⁻¹²(相当于1万亿次传输只错1次)。

散热方案:浸没式冷却,把内存“泡在水里”

100W的功率,直触液冷也有点吃力了,所以HBM5采用“浸没式冷却”——把整个GPU+HBM模块泡在绝缘冷却液里(这种液体不导电、不挥发),热量通过液体传导到外部的散热器,散热效率比直触液冷高2倍,即使在100W满负荷下,温度也能控制在80℃以内。


适合场景:超算中心、大模型训练集群、高端自动驾驶中央计算单元。

3. 2032年:HBM6——“多塔结构”,LLM推理快到“飞起来”

发布背景:

2032年,LLM的“推理场景”会爆发——比如AI客服要同时服务10万用户,AI翻译要实时处理跨国会议的语音,这些场景需要“高吞吐量”(每秒处理更多请求),而不是单纯的“高速度”。HBM6就是为“高吞吐量”优化的。

核心参数:

  • 数据速率:从8Gbps提升到16Gbps(数据传输的“单车道速度”翻倍);

  • 带宽:8TB/s(比HBM5快2倍);

  • 容量:单模块96-120GB;

  • 功率:120W。


最大创新:多塔架构,一个内存模块顶2个

HBM6最亮眼的设计是“Quad-Tower(四塔)结构”——简单说,就是在一个Base Die上放2个独立的“Core Die堆叠”(像2座独立的“数据塔”),每座“塔”都有自己的I/O通道,然后通过2048个I/O和GPU连接。


这样设计的好处是“吞吐量翻倍”:比如处理AI客服请求时,2座“塔”可以同时给2个用户的请求传数据,不用排队。KAIST的测试显示,用HBM6跑LLaMA3-70B推理,吞吐量比HBM5提升126%——以前每秒能处理200个请求,现在能处理452个,而且延迟还降低了28%。

其他升级:硅 - 玻璃混合中介层 — 攻克成本与集成的双重瓶颈

HBM的“底座”(中介层)以前用纯硅材料,优点是“传输稳定”,缺点是“面积小、成本高”——一块硅中介层最多装4个HBM模块。HBM6改用“硅+玻璃混合中介层”:玻璃负责“扩大面积”(能装8个HBM模块),硅负责“精细布线”(保证数据传输稳定),成本降了20%,还能支持更大的AI服务器集群。


特色功能:集成L3缓存,专门存KV缓存

LLM推理时,会产生大量“KV缓存”(相当于“对话上下文”,比如你和AI聊了5句,这5句的信息都存在KV缓存里),这些数据要频繁调用,但容量不大。HBM6专门集成了L3缓存(L3E-HBM6),把KV缓存存在这里,不用再频繁访问Core Die——这样一来,HBM的访问次数减少73%,寿命延长,延迟也降低了40%。

散热方案:升级浸没式冷却,加“热通孔”

HBM6的功率到了120W,普通的浸没式冷却不够了,所以它在Core Die里加了“Thermal TSV(热通孔)”——这些通孔不传输数据,专门传导热量,能把芯片内部的热量快速传到冷却液里,温度控制精度达±3℃。

适合场景:LLM推理集群、实时AI翻译、AI客服系统、元宇宙实时渲染。

4. 2035 年:HBM7“内存+闪存”融合,装下“整个AI知识库”的超级存储

发布背景:

2035年,AI将进入“多模态时代”——比如AI医生要同时分析CT影像、病历文本、基因数据,这些数据不仅量大(CT影像单份就有10GB),而且“冷热分离”明显(病历文本低频使用,CT影像高频使用)。HBM7的核心是“内存+闪存协同”,解决“大容量存储+高速访问”的矛盾。

核心参数:

  • 数据速率:24Gbps(又快50%);

  • 带宽:24TB/s(比HBM6快3倍);

  • 容量:单模块160-192GB;

  • 功率:160W。

最大创新:整合HBF(高带宽闪存),加个“大容量仓库”


HBM7最关键的升级是“集成HBF(High Bandwidth Flash,高带宽闪存)”——HBF是128层的NAND闪存,相当于“大容量仓库”,单模块容量2TB(是HBM的10倍以上),每GB成本只有HBM的1/5。


HBM和HBF的分工很明确:HBM存“高频数据”(比如CT影像的关键帧、计算中间结果),HBF存“低频数据”(比如历史病历、基因数据库),两者通过“128GB/s的H2F链路”连接——这样一来,整个系统的总内存容量达17.6TB,能装下完整的“AI医生知识库”,而且成本比全用HBM降了60%。

其他升级:3D堆叠LPDDR,拓展边缘场景

除了HBF,HBM7还支持“3D堆叠LPDDR”——把LPDDR芯片也垂直堆叠起来,单模块容量480GB,专门用于边缘设备(比如自动驾驶汽车的本地计算单元)。这些设备不需要HBF的超大容量,但需要“低成本+低功耗”,3D堆叠LPDDR正好满足需求。


散热方案:嵌入式冷却,给内存装“微型水道”

160W的功率,传统的浸没式冷却以应对集中化的高热量,无法满足稳定运行需求,HBM7采用“嵌入式冷却”——在Base Die和Core Die里直接刻出“微型水道”(直径50微米,比头发丝还细),让冷却液直接在芯片内部循环,热量能快速被带走(热传输线(TTL)和流体热沉(F-TSV)可以通过将冷却液从GPU循环到中介层和HBM,从而高效地冷却HBM模块。TTL可将HBM芯片内部的热量传递给流经F-TSV的流体)。


KAIST的实验显示,这种冷却方式能让HBM7在160W满负荷下,温度稳定在78℃,比浸没式冷却低7℃。

适合场景:多模态AI系统、自动驾驶中央计算单元、AI医生工作站、边缘AI服务器。

5. 2038 年:HBM8—— 全 3D 集成终极形态,内存与 GPU “无缝共生”

发布背景:

2038年,AGI(通用人工智能)会进入“原型机阶段”——这种AI需要“实时处理海量多模态数据”(比如同时分析视频、语音、文本、传感器数据),对延迟和带宽的要求达到“天花板级别”。HBM8就是为AGI设计的“终极内存方案”。

核心参数:

  • 数据速率:32Gbps(是HBM4的4倍);

  • 带宽:64TB/s(是HBM3的78倍,相当于每秒传16万部高清电影);

  • 容量:单模块200-240GB;

  • 功率:180W。

最大创新:全3D集成,GPU直接“站”在内存上

HBM8以全3D集成技术打破2.5D封装的物理局限:传统方案中,GPU与HBM通过硅中介层的微凸块与再布线层实现互连,数据传输存在固有延迟(约10纳秒);而HBM8采用铜 - 铜直接键合工艺,将GPU 裸片垂直堆叠于HBM堆栈之上,通过直径 5-50 微米的垂直 TSV 阵列构建高密度直达通道,使互连长度压缩至芯片厚度级(50-100微米)。这一革新让数据传输延迟突破1 秒阈值,同时使 I/O 功耗降低 70%,总线位宽突破万位级,为 AGI 提供“算力无瓶颈、数据零等待”的存储计算底座,标志着计算架构从“平面异构”迈入“立体共生”时代。


这种设计还能节省空间:以前一块GPU+一个HBM模块占200mm²的面积,现在只占120mm²,服务器里能装更多GPU,算力密度翻了1.7倍。

其他升级:双面中介层,容量再翻50%

HBM8采用“双面中介层”——在PCB板的正面和反面都装HBM模块,正面的HBM存“计算数据”,反面的HBM存“结果数据”,不用再“翻来覆去传数据”。这样一来,单块GPU能搭配的HBM容量从192GB提升到288GB,比HBM7多50%,而且带宽还是64TB/s,不会因为容量增加而变慢。

散热方案:双面嵌入式冷却,精准控温

180W的功率需要“极致散热”,所以HBM8用“双面嵌入式冷却”——中介层的正面和反面都有“微型水道”,冷却液同时在GPU、正面HBM、反面HBM里循环,温度控制精度达±2℃,即使局部有“热点”(比如GPU的计算核心),也能快速降温。


适合场景:AGI原型机、超大规模多模态AI系统、未来超算中心。

HBM的“黑科技密码”:

支撑性能的3个关键技术

五代 HBM 的升级堪称“步步颠覆”,但这些亮眼参数绝非空中楼阁—核心支撑只有三项关键技术:硅通孔(TSV)、混合键合(Cu-Cu Bonding)、AI辅助设计。不用被专业名词劝退,我们用最直观的“生活场景类比”,一分钟读懂这些技术到底在做什么。

1. 硅通孔(TSV):数据的“垂直高速电梯”,告别“绕路楼梯”的低效时代

传统内存的多层芯片是 “平铺堆叠” 的,层与层之间没有直接通道,数据要从一层传到另一层,得沿着芯片边缘的导线 “绕远路”,就像走没有电梯的楼梯,既耗时(延迟高)又容易受干扰;而 TSV(Through Silicon Via,硅通孔)技术,就是在芯片上精准打出微米级的 “垂直孔洞”,填充导电金属后形成 “专属电梯”,数据能直接穿透芯片上下层,不用再绕边缘线路,传输路径一下缩短了 90% 以上。


TSV 的制造过程堪称“给芯片精准打针”:

1. 打孔:用激光或等离子体在硅片上打直径5-10微米的孔(比头发丝细5-10倍);

2. 清洗:用等离子体把孔里的杂质清理干净,避免影响导电;

3. 镀膜:在孔壁上镀一层绝缘层和金属层(通常是钛和铜),防止短路;

4. 填充:用电化学沉积的方式,把铜填充到孔里,形成“导电柱”;

5. 抛光:把芯片表面磨平,让“导电柱”和芯片表面齐平,方便后续堆叠。

TSV的升级:从“对称”到“不对称”,再到“同轴”


HBM4的TSV是“对称布局”——信号、电源、接地的孔混在一起,容易互相干扰;HBM5开始用“不对称布局”,把不同功能的孔分开,干扰减少40%;HBM8则用“同轴TSV”——像同轴电缆一样,中间是信号柱,外面套一层接地层,干扰再降30%,即使在32Gbps的高速下,信号也能稳定传输。

简单说:没有TSV,HBM的3D堆叠就是“空中楼阁”——正是这些“微型电梯”,让数据在层间传输的速度提升了10倍,延迟降低了90%。

2. 混合键合(Cu-Cu Bonding):芯片的“无缝胶水”,比“纽扣”牢固10倍

早期HBM的芯片之间用“微凸点(Microbump)”连接——就像用“纽扣”把两片衣服扣在一起,中间有间隙,电阻高,还容易松动;而混合键合(Cu-Cu Bonding,铜-铜直接键合)就是“把两片芯片的铜层直接焊在一起”,没有间隙,电阻低,还特别牢固。


混合键合vs微凸点,差别像“纽扣”和“拉链”:

  • 微凸点:直径30微米,间距50微米,像“大纽扣”,一片芯片上最多放1万个;电阻约50毫欧,数据传输时会有损耗;

  • 混合键合:铜层厚度只有1-2微米,间距10-15微米,像“细拉链”,一片芯片上能放10万个;电阻只有5毫欧,是微凸点的1/10,损耗几乎可以忽略。

混合键合的难点:“精准对齐”比“绣花”还难

要实现铜-铜直接键合,两片芯片的铜层必须“精准对齐”,误差不能超过1微米(相当于一根头发丝的1/50)——这就像在两张A4纸上绣花,然后把两张纸叠在一起,让图案完全重合,难度极高。

现在厂商用“高精度对准系统”(精度达0.1微米)和“低温键合技术”(250℃以下,避免芯片变形),终于实现了量产——SK海力士的混合键合良率已达95%,为HBM5的量产打下基础。

正是混合键合技术,让HBM的堆叠层数从16层突破到24层,I/O数量从2048个增加到16384个——没有它,HBM8的64TB/s带宽就是“空谈”。

3. AI辅助设计:设计师的“超级助理”,算得又快又准

HBM的结构太复杂了:要考虑信号完整性(数据传不丢)、电源完整性(电压稳定)、热完整性(温度不高),三个“完整性”互相影响,传统设计工具要算几天才能出结果,而且还不一定准。现在KAIST团队用AI当“设计助理”,效率直接翻了1000倍。


AI辅助设计的3个“超能力”:

1. PDNFormer:1毫秒算出电源阻抗

PDN(电源分配网络)是HBM的“血管”,阻抗太高会导致电压波动。以前用Ansys HFSS(传统电磁仿真工具)算一次阻抗要10000秒(约2.8小时),现在用PDNFormer(基于Transformer的AI模型),1毫秒就能出结果,误差只有3.44dBΩ——相当于设计师喝杯咖啡的时间,就能知道电源网络好不好。


2. Mamba-RL:自动优化电容摆放

HBM里要放很多“去耦电容”来稳定电压,电容的位置和数量直接影响电源噪声。以前设计师要手动调整,试100次才能找到最优方案;现在用Mamba-RL(基于Mamba模型的强化学习算法),自动尝试不同的摆放方式,20分钟就能找到最优解,电源噪声降低29%,设计时间省了99.6%。


3. LLM辅助:用自然语言改设计

最方便的是“LLM辅助设计”——设计师不用写复杂的代码,直接用自然语言说需求,比如“降低HBM7的PSIJ抖动(电源噪声导致的信号延迟)”,LLM会自动把需求转成算法指令,调整TSV的布局和电容的参数,整个过程不到5分钟。KAIST的测试显示,这种方式比手动调整快3倍,还能减少70%的设计错误。


简单说:AI辅助设计让HBM的“设计周期”从“半年”缩短到“两周”,还能解决很多人类设计师想不到的问题——没有AI,HBM的代际升级根本不可能这么快。

HBM 产业格局重塑:

全球产能博弈

HBM不仅是技术产品,更是“战略资源”——2025年全球HBM市场规模已达300亿美元,2030年将突破980亿美元,占整个DRAM市场的50%。现在全球的半导体巨头都在“抢产能”,中国企业也在奋力追赶。

1. 国际三巨头:垄断90%产能,订单排至2026年

全球 HBM 市场呈现“三巨头独霸”格局:SK海力士、三星、美光凭借技术积累与产能优势,垄断了90%以上的全球产能,形成难以逾越的竞争壁垒。其订单已经排到2026年。

SK海力士:行业龙头,产能占比超50%

SK海力士是HBM的“老大”,16层HBM3E的良率已达90%,2025年Q2占全球HBM3E出货量的55%。它的客户包括英伟达、AMD、OpenAI——仅OpenAI就锁定了它未来三年每月24万片的产能,相当于SK海力士HBM3E总产能的30%。2025年下半年,SK海力士的M15X新工厂投产后,月产能将从10万片提升到17.8万片,进一步巩固龙头地位。


三星:锚定头部大客户,订单排期直达 2026

三星的HBM3E产能已被谷歌、博通、亚马逊“包圆”——谷歌的TPU“Ironwood”、博通的AI芯片、亚马逊的Trainium 3,都指定用三星的12层HBM3E。2025年三星还和OpenAI签了713亿美元的四年大单,专门供应HBM4和HBM5。为了扩产,三星正在建设平泽第五工厂(P5),2026年投产后月产能将达15万片。

美光:增速最快,瞄准英伟达订单

美光以前在HBM领域“落后一步”,但2025年凭借12层HBM3E实现“弯道超车”——它的HBM3E通过了英伟达B300 GPU的认证,2025年Q3开始批量交付,客户还包括AWS、谷歌。美光计划2026年量产HBM4,目标是把市场份额从7%提升到24%,挑战SK海力士和三星的地位。

封装企业:搭建后端支持体系

HBM的“封装”(把芯片和中介层组装起来)也是关键环节。国内的长电科技、通富微电已经建成2.5D/3D封装生产线,能支持HBM3的封装;太极实业通过合资公司海太半导体,为SK海力士做DRAM封装,间接积累了HBM封装经验——这些企业为国产HBM的量产提供了后端保障。

然而需要客观看待差距:国内企业目前还集中在HBM3及以下版本,HBM4的研发进度比国际巨头慢1-2年,且高端设备(如TSV刻蚀机、混合键合对准系统)仍受外部限制,全面替代还需要时间。但随着国内产业链的完善,未来3-5年,国产HBM有望突破20%的市场份额。

HBM的“未来挑战”:

成本、散热、生态的三重突围

HBM作为AI与高性能计算领域的核心存储方案,其技术迭代与规模落地并非坦途。未来要实现从“高端小众”到“规模化普及”的跨越,必须攻克成本、散热、生态三大关键难题,三者环环相扣,缺一不可:

1.成本:从“贵族内存”到“普惠方案”的降本攻坚

当前HBM的高成本仍是制约其大规模应用的核心瓶颈—HBM3的每GB成本约为DDR5的5倍,而即将量产的HBM4因工艺复杂度提升,成本预计再增30%。要打破“价高量少”的恶性循环,需构建“良率+产能+技术”的三维降本体系:

良率极致提升:国际巨头HBM3E良率已达 90%,未来需向95%以上的目标突破,通过优化 3D 堆叠对齐精度、TSV孔道蚀刻工艺等关键环节,大幅降低废品率,从源头减少成本损耗;

产能规模扩张:加速新建HBM专用生产线,同时推动成熟晶圆厂产能向HBM倾斜,通过规模化生产摊薄设备折旧、研发分摊等固定成本,形成“产能提升-成本下降-需求增长”的正向循环;

技术创新降本:探索材料与工艺的替代方案,例如用玻璃中介层部分替代高成本硅中介层,在保证性能的前提下降低核心材料成本;同时简化封装流程,减少堆叠层数与键合步骤的冗余环节,提升生产效率。

2.散热攻坚:应对200W+功率的“冷静之道”

未来HBM8有望突破200W,散热会成为更大的挑战:

新型散热材料突破:研发石墨烯基、碳纳米管基等高热导率冷却液,其散热效率较传统方案提升50%以上,可快速带走高密度堆叠芯片产生的集中热量;同时优化封装散热层材料,提升热量从芯片到冷却系统的传导效率;

芯片级冷却:在HBM裸片与封装之间集成微型散热鳍片,通过增大散热表面积强化热交换;采用“液冷直触”封装设计,减少热量传导中间环节,缩短散热路径;

智能温控:搭载基于负载的自适应温控系统,实时监测HBM的运行功率与温度,动态调整冷却液流量、散热风扇转速等参数,既避免高负载时过热,又减少空载状态下的能源浪费,实现散热效率与能耗的平衡。

3. 生态协同:构建“硬软联动”的产业共生体系

HBM的价值释放离不开全产业链的协同支撑,并非单一组件的“孤军奋战”。只有实现GPU/CPU、软件算法、行业标准的深度协同,才能最大化其性能优势,降低应用门槛:

硬件端适配升级:英伟达、AMD、华为等主流GPU厂商需优化芯片接口设计,针对性支持更高带宽、更高速率的HBM产品,同时提升内存控制器与HBM的兼容性,减少数据传输延迟;CPU厂商也需同步优化内存访问架构,实现与HBM的高效联动;

软件端算法优化:TensorFlow、PyTorch等主流AI框架需针对HBM的“近内存计算”特性重构算法逻辑,推动数据处理向内存侧迁移,减少数据在HBM与GPU之间的反复传输,充分发挥HBM高带宽、低延迟的优势;同时开发专用优化工具,帮助开发者快速适配HBM硬件;

行业标准统一规范:推动全球产业链共同制定HBM接口、功耗、散热等统一标准,避免厂商各自为战导致的适配碎片化问题,降低硬件兼容成本与软件迁移难度,加速HBM在AI训练、超算、数据中心等场景的规模化落地。

结语:

HBM,AI时代的“基础设施”

从2026年的HBM4到2038年的HBM8,从“定制化”到“全3D集成”,HBM的每一次升级,都在突破AI的“算力天花板”。它不仅是一款内存产品,更是AI时代的“基础设施”——就像100年前的电网支撑了工业革命,HBM正在支撑AI革命。

对行业来说,HBM是“必争之地”——谁掌握了HBM的核心技术,谁就能在AI竞赛中占据主动;对我们普通人来说,HBM会让AI体验更流畅、更智能,让“AI医生”“自动驾驶”“智能家电”从“概念”变成“日常”。

KAIST的报告结尾有一句话:“HBM的带宽,就是AI的速度极限。”未来10年,我们会见证HBM如何从“隐形功臣”变成“明星技术”,也会见证AI如何在HBM的支撑下,走进生活的每一个角落。

关注我们,回复关键词“HBM路线图”,即可领取完整的PDF~


*免责声明:本文由作者原创。文章内容系作者个人观点,半导体行业观察转载仅为了传达一种不同的观点,不代表半导体行业观察对该观点赞同或支持,如果有任何异议,欢迎联系半导体行业观察。

今天是《半导体行业观察》为您分享的第4259期内容,欢迎关注。

加星标第一时间看推送,小号防走丢

求推荐

半导体行业观察

2025-12-17

半导体行业观察

2025-12-17

半导体行业观察

2025-12-17

半导体行业观察

2025-12-17

半导体行业观察

2025-12-17

半导体行业观察

2025-12-17

证券之星资讯

2025-12-17

证券之星资讯

2025-12-17

首页 股票 财经 基金 导航