来源:半导体行业观察
2025-07-15 09:09:55
(原标题:GPU,太耗电了)
公众号记得加星标⭐️,第一时间看推送不会错过。
来源:内容编译自blocksandfiles。
数据中心面临一段时间的电力供应限制,这将影响其增长及其所提供的IT服务的增长。低功耗IT设备将有所帮助,但人工智能所需的GPU耗电量远高于X86服务器。超大规模数据中心可以构建自己的数据中心发电机,但其余数据中心则依赖于国家电网,而这些电网是发展缓慢的系统,这意味着企业和消费者IT服务的增长将面临限制,因为IT服务需求将超过电力供应的增长。
数据中心市场持续增长。Dell'Oro Group 的研究显示,数据中心物理基础设施 (DCPI) 市场在 2025 年第一季度同比增长 17%。这标志着其连续第四个季度实现两位数增长,这得益于超大规模数据中心运营商和主机托管服务提供商的持续投资,他们正在扩建数据中心容量,以满足人工智能 (AI) 工作负载的需求。研究指出,液冷技术的采用率激增(DLC 收入翻了一番),高密度电源机架接近 600 千瓦,以及母线槽等配电系统的增长率超过 40%。
虽然所有地区都实现了增长,但北美地区以23%的同比增长率领跑其他地区。美国能源部的一份报告发现,2023年数据中心消耗的电力约占美国总电力的4.4%,预计到2028年将占美国总电力的6.7%至12%。报告指出,数据中心的总用电量从2014年的58太瓦时攀升至2023年的176太瓦时,预计到2028年将增长至325太瓦时至580太瓦时。
劳伦斯伯克利国家实验室发布的《美国能源部 2024 年 12 月美国数据中心能源使用情况报告》
Dell'Oro 集团研究总监 Alex Cordovil Araujo 表示:“向加速计算的转变正在重塑数据中心格局。人工智能不仅仅是顺风,更是推动新基础设施范式需求的结构性力量。液体冷却技术正在快速发展,高密度电源架构也在快速演变,预计机架功率将很快达到 600 kW,而 1 MW 配置已在考虑之中。”
其《2025 年 1 月数据中心 IT 资本支出 5 年预测报告》称,预计到 2029 年全球数据中心资本支出的复合年增长率将达到 21%。到 2029 年,用于 AI 训练和特定领域工作负载的加速服务器可能占数据中心基础设施支出的近一半。
Dell'Oro Group 预测,到 2029 年,全球数据中心资本支出预计将超过 1 万亿美元。尽管持续推进可持续发展,但 AI 基础设施支出仍将保持强劲增长势头。该公司认为:“为支持 AI 和 ML 工作负载而兴起的加速计算已成为 DCPI 市场的主要驱动力,这显著提高了数据中心的电源和热管理需求。例如,目前平均机架功率密度约为 15 kW/机架,但 AI 工作负载需要 60 至 120 kW/机架才能支持近距离的加速服务器。虽然机架功率密度的跃升将触发配电方面的创新和产品开发,但热管理方面正在发生更大的变革——从风冷到液冷的转变。”
这些新建的数据中心需要电力供应,而国家电网系统正成为电力供应的瓶颈。目前,数据中心的用电量约占全球电力消耗的3%,到2030年,这一比例可能会翻一番,这将带来严重的发电和供电问题,以及环境影响问题。
从某种意义上说,我们不受能源生产的制约,因为我们拥有石油、天然气和燃煤发电站,还有核能、水力发电、风能和太阳能发电。然而,煤炭、石油和天然气发电(这三种化石燃料)会危害环境,而煤炭在这方面最为严重。发电趋势是逐步淘汰燃煤发电站,石油和天然气发电站的淘汰程度较轻,而可再生能源、风能和太阳能则将占据主导地位。它们都可以扩建,而水力发电则受到场地可用性的限制。由于辐射和核燃料污染及处置问题,核能发电受到限制,但随着小型模块化反应堆发挥作用,核能发电正显示出复苏的迹象。Pure International 首席技术官 Alex McMullan 表示,三大超大规模企业的能耗超过 60TWh,现在都拥有(或正在拥有)自己的核电站。
然而,即使能够产生足够的电力,其输送也会带来新的问题。国家电网将发电站点与耗电站点(例如数据中心)连接起来。这些电网为企业和家庭用户、大型和小型消费者供电,必须保持供需平衡。由于数百万消费者遵循昼夜活动规律,总体需求在白天上升,在夜间下降。由于风速可能增强或减弱,可再生能源可能会出现供不应求的情况,而太阳能发电只能在白天供应。
在此背景下,电网运营商必须平衡供需,开启或关闭发电,并控制发电机与电网的连接。这并非一项简单的操作,2025年西班牙电网故障就证明了这一点。
他们还必须升级电网布线和交换/变电基础设施,以应对一年来的需求变化,包括新建电缆、建造和部署新的核心和边缘(变电站)单元。McMullan 表示,随着越来越多的计算由高耗能 GPU 而非相对节能的 x86 CPU 执行,数据中心的电力需求正在增长。人工智能正在推动用电量的上升。
他估计,一块 GPU 相当于一个“标准”四人家庭每日约 30 千瓦时的能耗。NVIDIA 每季度出货数十万块 GPU。一块 GPU 相当于一个“标准”四人家庭每日约 30 千瓦时的能耗。NVIDIA 每季度出货数十万块 GPU。现在,一机架 GPU 的耗电量超过 100 千瓦,相当于约 200 块太阳能电池板的输出功率,或约 0.01% 的核反应堆输出功率。
数据中心一直以来都以电源使用效率 (PUE) 来衡量。PUE 值的计算方法是将数据中心的总能耗除以其 IT 设备所消耗的能耗。PUE 值越低,能源效率越高。该指标由绿色网格组织 (TGG) 于 2007 年推出,并得到了业界和各国政府的广泛认可。然而,PUE 值并不能反映当地的气候差异;寒冷气候下的数据中心所需的制冷量较少。
绿色考虑
数据中心电力供应问题通常被视为更广泛的关注点,即碳排放。与我们大多数人一样,数据中心运营商也希望减少碳排放,以缓解全球变暖。他们或许还希望实现更可持续的运营,这意味着降低设备冷却的耗水量。
转向可再生能源供应可以减少碳排放。改用风冷而非水冷可以降低用水量,从而降低用电量,因为风扇和散热器的功耗低于泵、散热器风扇和水箱。但水冷可以承受更高的热负荷,因此 GPU 服务器可能需要采用水冷。此外,赤道地区的数据中心会发现风冷效率不如温带和寒冷地区的数据中心。
我们不能仅仅为了提高冷却效率而选择数据中心的位置,因为它们可能距离用户数千英里,由于网络传输时间较长,数据访问时间过长。此外,它们还需要距离发电源不太远,因为电网传输和升降压变压器的运行会导致一定比例的电力损失。
优化数据中心成本、IT 设备性能、用户数据访问时间、数据中心电力供应和需求以及水消耗是一项复杂的工作
数据中心用电量
数据中心的电力预算是固定的;其电网电源和边缘连接设备都是硬件,因此存在无法逾越的上限。如果其内部基础设施的某一部分耗电较多,例如从 CPU 切换到 GPU,那么其他部分可用的电力就会减少。电力效率正成为一个关键考虑因素。
据估计,数据中心26%的电力供应用于服务器(20%)和存储(6%),其余电力则用于冷却和UPS(50%)、电源转换(11%)、网络硬件(10%)和照明(3%)。这些只是大概的数字,因为数据中心的规模和冷却需求显然存在差异;寒冷气候下的数据中心需要的冷却量较少。
运营商可以考虑针对特定设备类别来降低功耗,其中冷却和UPS的能效是关键考虑因素,因为它们占数据中心平均用电量的一半。服务器、存储和网络设备也可以进行优化,以降低功耗。例如,与现成的SSD相比,Pure Storage的DirectFlash技术可以降低NAND存储的用电量。
问题不仅仅在于数据中心。为了实现经济脱碳,各国需要将制造业、食品生产和工业活动从化石燃料发电中转移出来。它们需要采用电动汽车,而仅此一项就可能需要将发电量提高100倍。
整个电力供应链,从开采电缆所需的铜矿、用于发电和输电设备的铝和钢材,到发电本身,再到建设端到端的电网基础设施、改进运营管理、增强电网韧性以及更有效地为大用户供电,都需要更新。这将是一个耗资数十亿美元甚至数万亿美元的项目。
各国政府需要意识到这个问题,并使其发电和供电机构能够应对。IT供应商可以通过游说国家和州的政策制定者来发挥自己的作用,但从根本上来说,一个国家的整个商业部门都需要参与到这项工作中来。
https://blocksandfiles.com/2025/07/14/power-consumption-and-data-centers/
*免责声明:本文由作者原创。文章内容系作者个人观点,半导体行业观察转载仅为了传达一种不同的观点,不代表半导体行业观察对该观点赞同或支持,如果有任何异议,欢迎联系半导体行业观察。
今天是《半导体行业观察》为您分享的第4095期内容,欢迎关注。
加星标⭐️第一时间看推送,小号防走丢
求推荐
半导体行业观察
2025-07-15
半导体行业观察
2025-07-15
半导体行业观察
2025-07-15
半导体行业观察
2025-07-15
半导体行业观察
2025-07-15
半导体行业观察
2025-07-15
证券之星资讯
2025-07-15
证券之星资讯
2025-07-15
证券之星资讯
2025-07-15