|

财经

他们抛弃了HBM!

来源:半导体行业观察

2025-11-01 09:10:13

(原标题:他们抛弃了HBM!)

公众号记得加星标,第一时间看推送不会错过。

AI浪潮的汹涌席卷,让原本以周期波动著称的存储市场,进入前所未有的“超级繁荣周期”。在AI大模型训练和推理的双重驱动下,算力需求暴增,HBM成为AI服务器的关键组件。它通过堆叠多层DRAM,与GPU紧密结合,为AI计算提供更快的数据通道,成为AI时代最炙手可热的“黄金存储”。

而HBM的火热也带动了整个存储产业链的升温。三星电子、SK海力士和美光科技等全球三大存储巨头,纷纷迎来业绩爆发。三星第三季度净利润同比增长21%,SK海力士创下公司史上最高季度利润,美光则实现净利同比增长三倍。SK海力士也表示,其2025年前的HBM产能已被客户预订一空。

与此同时,传统DRAM和NAND芯片也正意外走俏。

由于存储厂集中扩产HBM,常规内存产能趋紧,市场供需出现再平衡。亚马逊、谷歌、Meta等数据中心巨头,为了扩充AI推理与云服务能力,正大规模采购传统DRAM。事实上,在AI推理阶段,普通内存依然发挥着不可替代的作用——这让整个存储市场呈现“全线紧俏”的局面。

LPDDR5的爆火

先一步爆火的,是所有智能手机几乎都会用到的LPDDR。

近日,高通发布了全新的AI200和AI250数据中心加速器,预计将于2026年和2027年上市。据称,这两款新加速器将在运行大规模生成式AI工作负载时,凭借更高的效率和更低的运营成本,与AMD和英伟达的机架级解决方案展开竞争。此次发布也重申了高通每年发布更新产品的计划。

Qualcomm AI200 和 AI250 加速器均基于专为数据中心 AI 工作负载定制的 Qualcomm Hexagon 神经处理单元 (NPU)。近年来,该公司一直在逐步改进其 Hexagon NPU,因此这些处理器的最新版本已经配备了标量、矢量和张量加速器(采用 12+8+1 配置),支持 INT2、INT4、INT8、INT16、FP8、FP16 等数据格式,以及用于减少内存流量的微块推理、64 位内存寻址、虚拟化和用于额外安全性的 Gen AI 模型加密。对于 Qualcomm 来说,将 Hexagon 扩展到数据中心工作负载是一个自然的选择,尽管该公司将为其 AI200 和 AI250 单元设定什么样的性能目标还有待观察。


高通的 AI200 机架级解决方案将是该公司首款由 AI200 加速器驱动的数据中心级推理系统,该系统配备 768 GB LPDDR 内存(对于推理加速器而言,这已是相当可观的内存容量),并将使用 PCIe 互连实现纵向扩展,并使用以太网实现横向扩展。该系统将采用直接液冷,每机架功率高达 160 kW,这对于推理解决方案而言也是前所未有的功耗。此外,该系统还将支持企业部署的机密计算,该解决方案将于 2026 年上市。

一年后推出的 AI250 保留了这一架构,但增加了近内存计算架构,有效内存带宽提升了 10 倍以上。此外,该系统将支持分解推理功能,使计算和内存资源能够在不同卡之间动态共享。高通将其定位为一款更高效、高带宽的解决方案,针对大型 Transformer 模型进行了优化,同时保留了与 AI200 相同的散热、散热、安全性和可扩展性特性。

但不少人关注的并不是又一家芯片制造商试图挑战英伟达的老故事,而是高通在这场AI军备竞赛中选择的一条截然不同的技术路线——每张加速卡配备高达768GB的LPDDR显存,约为英伟达H100配置HBM容量的10倍。

高通没有采用业界主流的昂贵HBM,而是将其在智能手机领域发展完善的低功耗LPDDR技术直接搬上了数据中心,看似“降维”的选择背后,昭示了目前AI存储的另一种可能性。

有意思的是,高通并非孤军奋战。几乎同一时间,其他巨头也纷纷展示了类似的技术路线。

在2025年GTC大会上,GPU霸主英伟达展示了其下一代Vera Rubin超级芯片。这款定于2026年底量产的产品首次在其88核Vera CPU周围采用了SOCAMM2模块搭载的LPDDR内存。尽管两颗Rubin GPU仍然配备了八个HBM4内存堆栈,但LPDDR的出现本身就是一个意味深长的信号——即便是最坚定的HBM拥趸,也开始在系统架构中为LPDDR留出位置。

值得注意的是,英伟达还推出了新的Rubin CPX AI芯片,这是一款专门针对推理优化的"分解式"架构产品,进一步印证了其在推理端的战略调整。

而在2025年OCP全球峰会上,英特尔发布了代号"Crescent Island"的数据中心GPU,这款专为AI推理工作负载设计的产品配备了160GB LPDDR5X内存。英特尔首席技术官Sachin Katti直言:"AI正在从静态训练转向实时、无处不在的推理——由智能体AI驱动。扩展这些复杂工作负载需要异构系统,将正确的硅片匹配到正确的任务上。"

这款基于Xe3P微架构、针对风冷企业服务器优化的GPU预计将于2026年下半年开始客户采样,英特尔明确强调其"功耗和成本优化"的定位,以及"针对推理工作流程优化的大容量内存和带宽"。

技术路线的分野

可以说,三大芯片巨头不约而同地转向LPDDR,并不是什么偶然事件,而是整个产业的一次调整,有机构指出,到2030年,推理工作负载的数量将是训练工作负载的100倍。

业内人士开始将AI目前的瓶颈称为“马提尼吸管问题”:计算引擎是酒杯,而数据却通过吸管流动。无论芯片多么强大,其性能都受限于数据流入和流出的速度。现代AI推理工作负载越来越受内存限制而非计算限制——随着模型规模扩大和上下文窗口扩展,挑战不在于芯片计算速度,而在于如何快速将数据输送给处理器。


存储的瓶颈,正是LPDDR方案的价值所在。根据高通引用的研究,LPDDR内存的性价比比HBM高出13倍,使得大型语言模型推理工作负载可以直接在内存中运行,而无需频繁数据混洗。实际效果是:更快的响应速度、更低的延迟和更低的能耗。高通声称其Cloud AI 100 Ultra架构在某些推理工作负载下比同类英伟达配置的功耗低20到35倍。

当然,LPDDR方案并非没有代价。相比HBM,它存在内存带宽较低、由于较窄接口导致的更高延迟,以及在24/7高温服务器环境中尚未充分验证的可靠性等问题。但关键在于应用场景的差异。

在训练场景中,需要极致的内存带宽来处理海量数据的反向传播,HBM不可替代,而在推理场景中,模型参数已固定,重点是大容量存储和高效读取,LPDDR的容量和成本优势远超其带宽劣势。

值得关注的是,高通的AI250方案更进一步,引入了基于”近内存计算“的创新内存架构,声称可提供超过10倍的有效内存带宽和更低的功耗,实现了分解式AI推理以高效利用硬件。两款方案均采用直接液冷,机架级功耗仅160千瓦——在数据中心能源消耗每三年翻一番的当下,这个数字极具吸引力。

当数据中心开始攫取手机内存

而AI存储技术路线的转变,也在酝酿一场可能波及全球消费电子市场的供应链危机。

首先可以明确是,一个AI推理机架配备的LPDDR内存量级是惊人的。以高通AI200为例,单个机架可能包含数十张加速卡,每张768GB,总内存容量可达数十TB。这相当于数十万甚至上百万部智能手机的内存用量。

而这仅仅是一家公司的一款产品。当高通、英特尔、英伟达以及其他潜在进入者(如AMD、博通)都在2026-2027年大规模量产LPDDR方案时,对LPDDR的需求将呈现指数级增长。

目前来看,LPDDR产能并非无限,主要由三星、SK海力士和美光三家供应商控制。数据中心客户的特点是采购量巨大、利润率高、订单稳定且长期。相比之下,智能手机市场虽然体量庞大,但单机用量小、价格敏感、季节性波动明显。

从供应商的角度,优先级显而易见。这不仅可能导致数据中心订单挤占消费电子份额,类似2017-2018年加密货币挖矿导致GPU短缺,2020-2021年芯片荒让汽车制造商停产等,还让手机厂商面临LPDDR采购成本上升、交货周期延长,最终导致中高端手机可能不得不在内存配置上妥协,或者大幅提高售价。

但对其他手机厂商而言,这可能意味着2026-2027年将面临一个艰难的选择:要么接受更高的内存成本,要么在旗舰机型上降低内存配置,要么寻找替代方案。

LPDDR6的到来

所谓的替代方案,可能就包括了更昂贵的LPDDR6

近日,全球半导体标准制定组织 JEDEC(固态技术协会) 正式发布了最新标准文档 JESD209-6,标志着下一代低功耗内存——LPDDR6 正式登上舞台。这不仅是LPDDR系列的重大进化,也是首个在官方规范中提及 DDR6 的标准。距DDR5标准发布已过去五年,随着AI算力、移动设备与边缘智能的迅猛发展,业界亟需一种兼具高带宽、低功耗与高可靠性的全新内存架构,LPDDR6的诞生正当其时。

JEDEC表示,LPDDR6在性能、能效、安全性和稳定性方面均实现了系统性升级。其核心架构由传统的双通道(DDR4的单64位通道在DDR5时代被拆分为两个独立的32位子通道)演进为 四个24位子通道,实现更高的并行度与更低的访问延迟。此外,LPDDR6在功耗管理上进行了深度优化,不仅进一步降低了工作电压,还引入了 DVFSL(低功耗动态电压频率调节) 等新机制,可根据运行负载动态调节功耗,以延长电池续航。


在性能指标上,LPDDR6的数据速率可达 10,667至14,400 MT/s,有效带宽约为 28.5至38.4 GB/s。这一速度已经超越目前DDR5-12054的超频纪录,为AI手机、轻薄笔电与车载智能系统提供了更充裕的带宽与响应能力。

作为全球半导体标准的制定核心,JEDEC成员涵盖了从芯片设计到制造测试的整个产业链。此次LPDDR6标准发布后,Cadence、Synopsys、Advantest、Keysight、MediaTek、Qualcomm、三星、美光、SK海力士 等企业已率先表态支持。这意味着新一代LPDDR6有望在短时间内被行业广泛采用。虽然目前JEDEC尚未公布面向桌面平台的DDR6最终规范,但官方表示相关标准也将在年内发布。

从时间节奏来看,DDR5在2020年发布后约一年便进入量产市场,LPDDR6预计也将遵循类似路径。尤其在主要厂商计划于2025年起逐步停产DDR4的背景下,LPDDR6的到来正是新旧标准更迭的关键节点。

值得一提的是,Synopsys 已率先完成基于 台积电N2P工艺节点 的 LPDDR6 IP“硅验证(silicon bring-up)”。所谓“硅验证”是芯片设计中首次上电测试的重要阶段,标志着其核心设计已具备可量产的技术成熟度。该IP包含控制器(Controller)与物理层接口(PHY)两大部分,前者负责JEDEC协议解析与低功耗管理,后者则基于N2P的金属堆叠与I/O库构建,实现更高信号完整性与密度。

得益于N2P在性能、功耗与面积(PPA)上的领先表现,Synopsys的LPDDR6 IP带宽可达 86 GB/s,并具备更高的能效与更紧凑的物理尺寸,为AI终端与高能效计算平台提供强力支撑。JEDEC标准的理论峰值甚至可达 115 GB/s,这意味着与LPDDR5相比,新一代标准在速率与能耗表现上均实现了跨代式飞跃。

随着LPDDR6预计在明年正式进入量产阶段,在未来可能会取代LPDDR5,成为智能手机的标配,只不过其售价也可能愈发水涨船高。

LPDDR 5,贵到买不起?

这场从HBM到LPDDR的转向,本质上是AI产业从不计成本的技术竞赛走向精打细算的商业化部署的标志。

英伟达的CUDA软件栈在AI训练领域仍然无可匹敌,开发者锁定效应极强。但推理领域的情况完全不同:模型已经训练完成,只需要高效运行,开发者锁定远没有那么强大,而且对价格极为敏感。

这为高通、英特尔等公司以全新方式竞争打开了大门。它们并非试图制造更大的GPU来正面挑战英伟达,而是着眼于一个现实:大多数AI模型无需每天重新训练,只需要高效运行且能在任何地方运行。

高通的优势正在于此,其将移动领域的基因与数据中心级可扩展性相结合。英特尔也在强调其从AI PC到数据中心和工业边缘的端到端能力,以及与开放计算项目(OCP)等社区的协作。

未来的AI硬件市场可能呈现明显的分层结构,训练市场中HBM依然不可替代,英伟达/AMD继续主导,但在推理市场中LPDDR有望异军突起异军突起,成为新一代AI芯片的选择。

但LPDDR的崛起,可能需要全球数十亿智能手机用户来承担背后的代价。当数据中心开始攫取本属于消费电子的LPDDR供应,我们或许将见证一个讽刺的场景:训练AI的超级计算机装备着最尖端的HBM,运行AI服务的推理集群使用着”手机内存“,而真正的手机用户却可能在2026-2027年面临内存短缺、价格上涨或配置缩水。

这就是技术进步的吊诡之处:AI推理的效率革命,可能正在以牺牲消费者利益为代价。当芯片巨头们为数据中心的TCO优化而欢呼时,普通用户手中的智能手机,正在成为这场产业变革中最脆弱的一环。

*免责声明:本文由作者原创。文章内容系作者个人观点,半导体行业观察转载仅为了传达一种不同的观点,不代表半导体行业观察对该观点赞同或支持,如果有任何异议,欢迎联系半导体行业观察。

今天是《半导体行业观察》为您分享的第4212期内容,欢迎关注。

加星标第一时间看推送,小号防走丢



求推荐


半导体行业观察

2025-11-01

半导体行业观察

2025-11-01

半导体行业观察

2025-11-01

半导体行业观察

2025-11-01

证券之星资讯

2025-10-31

证券之星资讯

2025-10-31

首页 股票 财经 基金 导航