来源:半导体行业观察
2025-07-22 09:01:52
(原标题:芯片碰到的又一个危机)
公众号记得加星标⭐️,第一时间看推送不会错过。
来源:内容编译自semiengineering。
人工智能数据中心的能源消耗速度大约是电网新增电力速度的四倍,这为发电地点、人工智能数据中心建设地点以及更高效的系统、芯片和软件架构的根本性转变奠定了基础。
对于正在竞相建设人工智能数据中心的美国和中国来说,这些数字尤其引人注目。美国能源部委托撰写的一份2024年报告显示,去年美国数据中心消耗的电量约占美国总发电量的4.4%,约为176太瓦时。预计到2028年,这一数字将增至325至580太瓦时,分别占美国总发电量的6.7%至12%。
图 1:2014 年至 2028 年服务器存储、网络设备和基础设施的总发电量与消耗量(预估)
与此同时,预计中国明年的能源消耗量将达到400太瓦时。虽然这些数字看起来与美国的消耗量相当,但国际能源署指出,中国公民的能源消耗量远低于美国公民。在全球范围内,能源消耗率每年以30%的速度增长,这主要归因于人工智能,其中美国和中国占了约80%的增量。
图2:电力消耗地点
“电力不再是玩笑,”西门子EDA副总裁兼硬件辅助验证总经理Jean-Marie Brunet说道。“想象一下,如果2028年的数据中心用电量占美国总用电量的12%,那简直太疯狂了。我们得重建整个电网。”
其他人也对此表示赞同。NVIDIA 总裁兼首席执行官黄仁勋在最近与Cadence首席执行官 Anirudh Devgan 的 CDNLive 讨论中指出:“发电将会成为一件大事。原因在于电网不足以支撑这个行业的增长。我们希望在陆地上发展这个行业,如果真这么做,我们将会看到大量柴油发电机和各种各样的设备。”
那么,我们能做些什么呢?主要有四个目标领域,每个领域都直接涉及半导体行业:
减少输电距离和降压次数;
尽可能限制数据移动;
更高效的处理,以及
靠近处理元件或封装内部的冷却效果更佳。
距离和降压损耗
与数据一样,电力输送也需要成本。根据美国能源信息署的数据,平均有5%的电力在输配过程中损耗。然而,违反直觉的是,长达数百英里的高压线路的损耗(约2%)比短距离低压线路的损耗(约4%)更低。这些数字还会因电源的不同而叠加,因为不同的电源转换率不同(见下图3)。
图3:美国电力消耗量
(单位:千万亿英热单位)
Saras Micro Devices 首席商务官 Eelco Bergman 表示:“理想情况下,电压要尽可能高,这意味着电流要尽可能低。损耗是电流的平方乘以电阻。所以一路上都在损耗电能。无论高压线是什么,你都要不断降低电压。例如,数据中心的电压可能是 400 伏,然后被转换为 48 伏提供给机架,最终降压到 12 伏到达负载点。但在整个过程中,你都希望在数据中心附近发电,以缩短距离,并尽可能保持高电压,并使电压接近终端。”
这里需要权衡的是电压与电流。电流越大,发热量越大。而且没有哪个器件的效率是100%,所以随着电源靠近封装,会产生一些热量。反过来,封装内部发生的所有事情,包括数据处理、数据在内存中的来回传输,以及互连中的电阻/电容,都会使发热量进一步加剧。此外,AI数据中心需要处理的数据更多,因此这些工作负载需要更高的利用率,这使得满足散热需求变得更加困难。
因此,从高压线到低压线,再到PCB、封装,最终到单个芯片,每一步都会产生功率损耗,Bergman说道。“如何缩短距离?电压能尽可能接近多少?效率如何?散热能力如何?这些都是业界正在关注的问题。”
芯片行业在此扮演着重要角色。“由于现有基础设施的限制,我们的步骤太多,中间电压等级太多,”弗劳恩霍夫IIS自适应系统工程部高效电子部门负责人安迪·海尼格 (Andy Heinig) 表示。“当然,我们可以在这方面节省大量能源。我们还看到,处理器和电源调节器需要协同工作。目前,电源调节器并不智能。它们只能跟踪来自处理器的电流。但处理器知道它们在下一个周期要做什么,并且可以通知电源转换器即将发生大幅跳变或某些设备被关闭。因此,在某些方面,我们可以共同优化处理器和电压调节器,减少中间电压等级的数量将有所帮助。”
移动数据
另一个挑战是构建系统,使数据处理更靠近源头。这可以减少需要移动的数据量。但与此同时,数据传输的距离也需要缩短。这是 3D-IC 封装背后的关键驱动因素之一。无需在 SoC 上布线,而是可以策略性地垂直放置组件,以缩短这些距离。这不仅提高了性能,还降低了驱动信号所需的功率。
Arteris产品管理和营销副总裁 Andy Nightingale 表示:“目前,我们的客户面临的最大挑战之一是设计中的线长。多裸片是一个单独的挑战,但在每个单片裸片变成多裸片之前,缩短线长对于功耗来说至关重要。我们关注的一个方面是拥塞。我们在设计分析中也使用了热图来查看拥塞,因为那是多条线在开关处汇合的关键点。我们也在平面图内工作,在其中我们将物理设计可视化,以便我们可以将开关移出拥塞点,同时仍然在平面图内工作,以减少某个区域的散热和电源拥塞。”
这也需要思维模式的转变,因为在人工智能数据中心,电力仍然排在性能之后。但如果电力供应不足,或者电价飙升,那么人工智能公司将别无选择,只能认真考虑电力问题。
Ansys(现为 Synopsys 旗下公司)产品营销总监 Marc Swinnen 表示:“如今,AI 设计的重点仍然放在性能上,这意味着虽然功耗确实非常重要,但相比于如何发挥芯片的最佳速度和性能,功耗仍然是次要考虑因素。功耗和性能之间总是存在权衡,这是根本。因此,如果真的想降低功耗,就必须降低性能。遵循摩尔定律会有所帮助,这会降低功耗。另一方面,大部分功耗用于 GPU 与不同元件之间的通信,甚至用于数据中心的背板。NVIDIA 推出了共封装光学网络,就是为了降低机架内和机架之间的通信功耗。”
解决这些问题需要整个芯片行业的变革。“一切都从芯片开始。如果芯片非常耗电,而你想构建一个LLM,那么你就必须训练它,”西门子的Brunet说道。“你通过添加多种功能和扩展来训练它。但如果你把所有东西加起来,从一个非常耗电的元素开始,那么整个系统就会变得非常耗电。你还有一个数字孪生,你也需要大量的电力来计算这个数字孪生。但这不仅仅是EDA行业的问题。这是全世界的问题。”
更高效的处理
好消息是,有一些显而易见的低成本解决方案。Movellus 总裁兼首席执行官 Mo Faisal 表示:“仅仅是由于缺乏可见性,就存在 20% 的功耗税。例如,假设你设计了一个 2 GHz 500 瓦的芯片。当你完成系统级测试并准备部署时,你会发现所有这些电源系统都是按照不同的目标构建的。所以现在,如果你想保持在 500 瓦以内,你必须将频率降低 10% 到 20%。这基本上是一个节流阀。对于芯片组来说,情况只会变得更糟,因为现在你拥有的是同样的东西,但你要将其乘以你正在处理的芯片组数量。每个芯片组可能有不同的工艺角,或者它可能采用不同的工艺。”
这只是一部分情况。“通过从芯片到系统,再到数据中心,提高可视性,可以额外获得 20% 到 30% 的收益,”Faisal 说道。“这两者相互叠加,所以并非非此即彼。原因是芯片设计师担心风险。‘嘿,我不希望芯片出现故障。’所以他们会通过冗余来超额配置。但在部署过程中,当你设计数据中心时,你不是在为最大工作负载而设计的,而是在为峰值工作负载而设计的。原因是工作负载和软件的变化速度远快于芯片。你不可能用现场看到的所有工作负载组合来测试芯片,因为工作负载、模型、转换器和代理都在快速变化。所以你必须考虑到这一点。与最大负载相比,数据中心的容量配置超出了 30%。”
理解半导体的使用方式对于这个等式也至关重要。仅仅增加冗余度并为最坏情况设置保护带,就会增加驱动信号通过额外电路所需的功率,以及由于导线中的电阻/电容而需要耗散的热量。
摩尔定律在这里也发挥了作用。虽然每个新工艺节点上处理器性能的提升正在逐渐减弱,但预计功耗的改善将非常显著——最高可达 30%,具体取决于工艺和代工厂。与任何新工艺一样,这些数字会因架构和工作负载的不同而有很大差异。
冷却
经验法则是,数据中心的电力成本是双重的。第一次是为服务器和存储机架供电。第二次是为它们冷却,防止它们过热。而这正成为一个更大的问题,因为动态电流密度随着人工智能服务器的利用率而不断增加。训练大型(甚至小型)语言模型,以及支持生成式和代理式人工智能搜索,需要更多的处理能力。这反过来又提高了各种计算单元的利用率,使它们能够在更长的时间内全速运行。
Saras Bergman 表示:“冷却的电力开销约为 30% 到 40%,如果只采用液体冷却而不使用冷却器,就可以将这一比例降低一半。但如果添加冷却器,电力开销又会回升。这里需要进行优化。”
这个等式的关键点在于水的可用性。封闭系统中的自来水需要冷却。使用当地供水则不需要。但根据环境与能源研究所的数据,一个大型数据中心每天的耗水量高达500万加仑,这大约相当于一个拥有1万至5万人口的城镇的用水量。
两种替代方案是直接冷却单个芯片和浸入式冷却。直接冷却可以采用微流体通道,这个想法最早由IBM在20世纪80年代提出,后来由于难度过大而被放弃。但随着热密度的增加,芯片制造商可能别无选择,只能采用某种类型的微流体技术。然而,实施这种方法会增加结构和制造方面的挑战。这个想法很容易理解,因为水冷技术已经使用了半个多世纪。但在封装或芯片内部,更靠近晶体管的位置实施它仍然是一个挑战。
英特尔高级首席工程师兼公司热核心能力小组负责人 Rajiv Mongia 解释说:“如果你考察一项冷却技术,就会发现它需要考虑传热效率(这往往是从热阻的角度来看待的),以及广义上的结点到流体温度。但如果从热力学的角度来看,它关注的不是结点到流体的入口温度,而是结点到流体的出口温度。基本上,流体流出封装或封装区域时的温度越高,从传热角度来看,下游设备就越容易管理。这会影响冷却装置、冷却器以及所有相关设备的整体效率。”
这是堆叠芯片时的一个关键考虑因素。“当我们谈到3D-IC时,你可能需要在结构内部注入流体,比如芯片背面的硅微通道,”Mongia说。“这是一个效益与复杂性的比率。你可以用这种放在背面的板来冷却它。但是,一旦3D堆叠内部的体积足够大——想象一下某种立方体——你就无法再通过硅片的一侧传导热量。你必须以某种方式从硅片内部吸出热量。最终,你需要一些特殊的机制,因为你要在如此大的硅片体积内产生如此多的能量,而不仅仅是在一个表面上。”
相比之下,浸入式冷却则需要将整个服务器放入惰性液体中。其挑战与微流体相同。热量需要从机架内部排出,而将封装内的热负荷耗散到外部冷却槽中比听起来要复杂得多。这需要了解组件在封装内的位置、潜在的热界面材料,以及从数字逻辑到封装外部的热通道。
也有可能将这两种方法一起使用,以大幅降低热量,从而实现更均匀的晶体管密度和更大的电力需求。
资金和资源
芯片行业不会忽视这些。为了继续保持至少与今天一样快的增长速度,需要解决两个相关问题——可持续性和成本。这些问题最终将决定人工智能数据中心的部署速度、其能够处理的处理量,以及从传输角度和芯片/系统/封装设计角度需要进行哪些改变。
西门子数字工业软件首席执行官迈克·埃洛表示:“可持续性始终是企业关注的重点,因为几十年来,企业一直面临着更好地利用自然资源的压力。这正是我们的发展方向,以半导体为支柱,将助力众多行业发展。从数据中心的功耗来看,我们的发展方向是不可持续的。对我们来说,挑战在于如何在数据中心现有的相同功耗配置下,将四倍、五倍甚至六倍的计算能力投入其中。”
商业基础也体现在这幅图中。“归根结底,这是总拥有成本,”英特尔的 Mongia 说。“无论是你正在创建的大型语言模型,还是你试图生成的推理,都需要资本成本和运营成本。散热成本既包括资本成本,也包括运营成本。那么,平衡点在哪里?投资回报率 (ROI) 是多少?升级到液体冷却解决方案需要多少成本,因为从历史上看,液体冷却比空气冷却更昂贵。所有这些 AI 数据中心或 AI 解决方案主要都采用液体冷却。对于我们来说,要构建它,你需要从你的软件包中获得更多,这意味着在生成你的语言模型时有更多的推理或更高的性能,从而随着时间的推移降低运营成本。”
结论
为了更好地理解这一点,我们可以想象一下,内华达州胡佛大坝每年发电量约为 4 TWh,亚利桑那州帕洛弗迪核电站每年发电量为 32 TWh,而中国三峡大坝预计每年发电量为 90 TWh。但按照目前的增长速度,2028 年至 2030 年间,人工智能数据中心的电力需求将增加 350 TWh,几乎是所有这些发电设施总发电量的三倍。
任何单一的改变都无法缩小这一差距。半导体行业要想继续以目前的速度增长,就需要从电网向下,到芯片向上的变革。即便如此,目前尚不清楚这是否真的能缩小差距,还是只会让人工智能数据中心的规模进一步扩大。
https://semiengineering.com/crisis-ahead-power-consumption-in-ai-data-centers/
*免责声明:本文由作者原创。文章内容系作者个人观点,半导体行业观察转载仅为了传达一种不同的观点,不代表半导体行业观察对该观点赞同或支持,如果有任何异议,欢迎联系半导体行业观察。
今天是《半导体行业观察》为您分享的第4102期内容,欢迎关注。
加星标⭐️第一时间看推送,小号防走丢
求推荐
黑鹰光伏
2025-07-22
黑鹰光伏
2025-07-22
半导体行业观察
2025-07-22
半导体行业观察
2025-07-22
半导体行业观察
2025-07-22
半导体行业观察
2025-07-22
证券之星资讯
2025-07-22
证券之星资讯
2025-07-22
证券之星资讯
2025-07-22