|

财经

AI芯片功耗走向5000W,液冷势在必行

来源:半导体行业观察

2025-10-14 09:07:54

(原标题:AI芯片功耗走向5000W,液冷势在必行)

公众号记得加星标,第一时间看推送不会错过。

来源 :内容 编译自 IEEE 。

走进一个典型的数据中心,首先映入眼帘的便是噪音——成千上万个风扇发出的低沉嗡嗡声:有单个计算机芯片旁的风扇,有服务器机架后面板上的风扇,还有网络交换机上的风扇。所有这些风扇都在将热空气从对温度敏感的计算机芯片中吹出,吹向空调机组。

但那些风扇,尽管嗡嗡作响,却已不再能满足需求。过去十年,最先进的计算机芯片的功率密度呈爆炸式增长。2017年,英伟达推出了V100 GPU,功耗为300瓦。大部分功耗都以热量的形式散发出去。三年后,也就是2020年,英伟达的A100问世,功耗高达400瓦。如今备受欢迎的H100于2022年上市,功耗高达700瓦。最新的Blackwell GPU于2024年发布,功耗高达1200瓦。

液冷公司Mikros Technologies总裁兼首席执行官Drew Matter表示:“根据路线图,未来一两年内每颗芯片的功耗将超过 2,000 瓦。事实上,业界正在为可预见的未来 5 千瓦及以上的芯片做准备。”

这场能源爆炸的罪魁祸首显而易见——人工智能。所有额外的计算消耗了先进芯片带来的额外电力,并产生了难以控制的热量。

“机架的平均功率密度约为 8 千瓦,”初创公司Accelsius的首席执行官Josh Claman表示。“对于人工智能来说,每个机架的功率密度将增长到 100 千瓦。这是一个数量级。人工智能的应用真正带来了这种紧迫性”,需要找到更好的数据中心冷却方法。

具体来说,当务之急是放弃风扇,转而采用某种液体冷却技术。例如,水的比热大约是空气的四倍,密度大约是空气的800倍,这意味着它吸收的热量大约是同等体积空气的3200倍。此外,水的导热系数是空气的23.5倍,这意味着热量更容易传递到水中。

“你可以把手伸进热烤箱里,但不会被烫伤。但如果把手伸进一锅沸水中,你就会立刻被烫伤,” Airedale by Modine浸入式冷却总经理Seamus Egan说道。“这是因为液体传热速度非常非常快。”

数据中心行业普遍认为,至少对于专注于人工智能的数据中心而言,液体冷却芯片是未来的发展方向。Nortek数据中心冷却公司总裁Karin Overstreet通过电子邮件表示: “随着人工智能使机架密度更高、温度更高,液体冷却已成为事实上的解决方案。”

但是液体冷却的方法有很多种,有简单直接的,也有复杂甚至有点奇怪的。

最简单的方法是,让冷却水在连接最热芯片的冷板中循环流动。第二种方法不是循环水,而是循环一种特殊的介电流体,它在冷板内部沸腾以带走热量。第三种方法是将整个服务器浸入一种保持其冷却的液体中。最后,也是最引人注目的,是将服务器浸入沸腾的液体桶中。

哪种方法最终会成为未来高端人工智能工厂的行业标准?目前,谁也说不准。以下是这四种方法的工作原理,以及它们可能最常用于哪些领域。

1

单相直接芯片冷却

技术上最成熟的方法是使用水。许多人工智能数据中心已经在为其最热的芯片采用这种直接芯片液冷技术。

在这个方案中,金属块(称为冷板)内部设有冷却液循环通道,直接放置在芯片上方。冷板的尺寸与芯片尺寸匹配,并放置在服务器内部。冷却液通常是水,并添加一些乙二醇,用于防止细菌滋生、稳定温度、防止冻结和腐蚀,以及增加液体的粘度。乙二醇和水的混合物被强制通过冷板,将热量从源头带走。


Mikros Technologies 等公司正在研发单相直接芯片液冷技术。在这项技术中,将一块冷却板放置在最热的芯片上方。液体在冷却板中循环流动,带走热量

乙二醇水通常保持在一个封闭的循环中,从冷板循环到热交换器,热交换器将液体冷却下来,然后返回到冷板。在热交换器,一个单独的“设施用水”回路用于冷却乙二醇水。设施用水又由冷却器(一种电动制冷装置)或干式冷却器(一种室外装置)冷却,当水流经管道时,干式冷却器利用风扇将环境空气吹向水面。干式冷却器比冷却器更简单,也更节能,但它仅适用于较冷的气候——它无法将水冷却到环境温度以下。

这种方法的一个难点在于,在服务器中每个产热组件上都安装冷却板是不可行的。只有在能耗最高的组件(例如 GPU 和部分 CPU)上安装冷却板才有意义,而像电源和内存单元这样的小组件则只能采用传统的风扇冷却方式。

“趋势正在转向混合冷却解决方案,”Overstreet 说。“因此,液体冷却占服务器机房或数据大厅冷却量的 80% 左右,而现有的空气冷却解决方案则占 20% 左右。”

2

两相直接芯片冷却

随着 GPU 功率密度持续下降,直接芯片水冷技术已达到极限。当然,你可以增加水流量,但这会消耗更多能源。或者,你可能会让芯片在更高的温度下运行,但这会降低其性能,并最终导致芯片性能下降。幸运的是,还有第三种选择:充分利用热交换的物理原理。

物理提供的额外冷却能力来自潜热——也就是相变所需的能量,在本例中是从液态变为气态。当液体从GPU蒸发时,它会在转化为气态的过程中吸收额外的潜热,而不会升高温度。


Accelsius 等公司正在提出两相直接芯片液冷技术。在这种技术中,最热的芯片顶部也放置了一块冷却板,流经冷却板的液体直接在芯片顶部沸腾

这基本上就是两相直接芯片冷却的工作原理。在该方案中,一种特殊配方的介电液体在位于高能芯片顶部的冷板中循环,并沸腾成蒸汽。然后,蒸汽被送回热交换器,热交换器利用设施用水冷却液体。

“这真的需要通过沸腾来冷却,”制造两相直接芯片冷却系统的初创公司ZutaCore的首席技术官My Truong说道。

水的沸点为 100°C(在大气压下),这对于芯片的正常工作来说太高了。因此,您需要一种沸点较低的特殊配方液体。ZutaCore 的首席推广人Shahar Belkin解释说,他们使用的液体来自Honeywell和 Chemours 等化学品供应商,沸点低至 18°C,可以通过调整回路中的压力来调高或调低。此外,这种液体是电介质——除非被外部电场极化,否则它不会带电。因此,与水不同,如果一些液体溅到电子设备上,也不会损坏昂贵的设备。

当水流过热的芯片时,温度会急剧升高。这意味着流入的水需要保持低温,因此在大多数气候条件下,设施用水需要使用冷水机组进行冷却。

然而,在沸腾的介电流体中,流体的温度大致保持不变,只是简单地转变为蒸汽。这意味着液体和设施用水都可以保持在更高的温度,从而显著节省能源。

Accelsius的产品营销总监Lucas Beran表示:“由于在冷板上发生的沸腾过程非常高效,我们可以接受比单相温度高 6 到 8 度的设施水。” Accelsius是另一家致力于双相直接芯片液体冷却的初创公司。

与传统的单相水冷却方法相比,两相冷却装置所需的液体流速也更低,因此能耗更低,设备损坏风险也更低。贝尔金公司表示,两相冷却的流速约为单相冷却的五分之一。

他说,对于功率高达 2,000 瓦的最先进的芯片来说,采用单相水冷“你必须每分钟向冷却板注入一加仑水”。“这意味着非常非常高的压力和非常非常高的流量。这意味着泵送成本高昂,而且高流量实际上会损害[冷却系统]自身。”

3

单相浸入式冷却

直接芯片液体冷却比单纯吹风提供更多的冷却能力,但它仍然依赖冷板作为中介来进行冷却。

如果可以完全绕过冷却板,直接将整个计算机服务器浸入冷却液中,会怎么样?一些公司正在这样做。

在这种方法中,数据中心围绕着浸没式冷却槽而非机架进行布置,每个冷却槽大约相当于一台冰箱的大小。巴尔的摩空气盘管公司浸没式冷却全球销售经理Rachel Bielstein表示,浸没式冷却槽中充满了介电流体,通常是油,这种流体必须不导电且具有很强的导热性能。这种流体还要求具有长期稳定性以及较低的环境和火灾风险。


采用浸入式冷却,所有部件都由同一种液体冷却。油带走热量后,有多种方法可以冷却浸入式液体。Bielstein 解释说,Baltimore Aircoil 设计了一种热交换器,使设施用水在水箱内的线圈和板片之间循环。“然后,加热后的水被泵送到外部冷却器,冷却器将热量释放到空气中,冷却水,然后再送回热交换器,从水箱中吸收更多热量。与传统设计相比,此过程可节省高达 51% 的能耗。”

总部位于新加坡的可持续金属云(SMC) 公司致力于为数据中心打造浸入式冷却系统,其团队已确定需要对服务器进行哪些改造,才能使其与这种冷却方法兼容。除了移除内置风扇外,该公司还更换了连接芯片和散热器的热界面材料,因为其中一些材料会在油中降解。SMC 及其姊妹公司 Firmus 的联合首席执行官 Oliver Curtis 告诉IEEE Spectrum,他们所做的改造虽然细微,但对 SMC 系统的正常运行至关重要。

“我们为计算机创造了完美的运行环境,”柯蒂斯说。“这里没有灰尘,没有移动,没有振动,因为没有风扇。而且工作温度也非常理想。”

有些芯片的功率密度仍然过高,无法完全通过缓慢流动的油冷却。在这种情况下,需要添加冷却板来增加油流。“单相浸没式冷却已经达到了极限”,无法冷却这些先进的芯片,Modine旗下Airedale公司的Egan说道。他表示,在浸没式冷却中添加冷却板“肯定能支持更先进的芯片架构,并降低单相介电流体的热负荷。新的挑战是,我现在需要两个独立的冷却回路系统。”

4

两相浸入式冷却

如果任何一种冷却方法都不足以解决问题,那么如何将所有方法结合起来,并将您的数据中心浸入一桶沸腾的油中呢?

一些公司已经这么做了。

Accelsius 公司的 Beran 表示:“就数据中心液体冷却而言,两相浸没式技术可能是最不可思议的技术。”

但科慕公司数据中心液体冷却全球营销经理布兰登·马歇尔 (Brandon Marshall)表示,这正是行业的发展方向。“根据我们所做的研究,我们相信两相浸没式冷却技术将会以相当合理的方式发展。”


在位于特拉华州纽瓦克的实验室里,科慕团队正在研发一种特殊配方的液体,用于两相浸入式冷却。在这种方法中,服务器被浸入一桶液体中,液体在高温组件上方沸腾,从而冷却系统

马歇尔认为,由于潜热的存在,双相液体(也称为沸腾液体)的冷却能力是单相液体的10到100倍。虽然双相直接芯片冷却可能适用于当今的芯片,但仍有许多组件(例如内存模块和电源)需要风冷。随着CPU和GPU的性能越来越强大,这些内存模块和电源也将需要液冷。

“这一系列问题不会消失,”马歇尔说。“我认为,随着我们不断推进,浸入式冷却技术将越来越受到人们的关注。人们会越来越习惯在机架内使用双相流体,就像他们过去通过单相直接芯片技术将水注入机架一样。”

在位于特拉华州纽瓦克的实验室中,科慕团队将几台高功率服务器放置在装有特制液体的储液罐中。这种液体具有介电性,不会造成短路,而且无腐蚀性,其沸点会与芯片所需的温度精确匹配。液体直接在高温芯片上方沸腾。然后,蒸汽会在储液罐顶部或后面板的冷却表面上凝结。

该冷凝器采用循环设施水进行冷却。“我们只需要将温度比沸点低约6度(约43摄氏度)的水直接送入水箱,”Marshall说道。“液体会在水箱内部冷凝(变回液体)。冷凝液体所需的温度在大多数情况下可以消除对冷却器和其他复杂机械基础设施的需求。”

根据科慕研究人员最近的一项案例研究,在大多数气候条件下,两相浸入式冷却比单相浸入式或单相直接芯片冷却更具成本效益。例如,在弗吉尼亚州阿什本,单相直接芯片冷却装置的10年总拥有成本估计为4.36亿美元,单相浸入式冷却装置为4.91亿美元,而两相浸入式冷却装置的10年总拥有成本估计为4.33亿美元,这主要是由于其功率要求较低且机械系统简化。

批评人士认为,两相浸泡法会使设备维护困难,尤其是因为油品非常专业、价格昂贵且容易蒸发。“当你身处浸泡槽中,而钱又从中蒸发时,维护起来会有点困难,”贝兰说。

然而,莫丁旗下Airedale公司的Egan表示,他的公司已经开发出一种方法,可以最大程度地避免其浸入式水箱(用于边缘应用)出现的问题。“我们的EdgeBox经过专门设计,可以将蒸汽层保持在水箱的下部,并在其上方形成一层空气层,并靠近水箱盖。当水箱打开(进行短暂的维护)时,蒸汽层不会‘流出’水箱,”Egan在电子邮件中写道。“蒸汽比空气重得多,因此会停留在水箱的下部。系统内的一个缓冲罐可以抵消少量的蒸汽损失。”

在可预见的未来,业内人士一致认为,人工智能的电力需求将持续上升,冷却需求也将随之上升。

马歇尔说:“除非人工智能的底线被打破,每个人都停止构建这些人工智能集群,并停止构建用于对大型语言模型进行训练的硬件,否则我们将需要继续推进冷却技术,我们将需要解决热量问题。”

哪种冷却技术将在未来人工智能工厂中占据主导地位?现在下结论还为时过早。但数据中心的快速变化特性正为该领域带来大量的创造力和创新。

Mikros Technologies 的 Drew Matter 表示:“液体冷却不仅有巨大的市场,而且它还是一个有趣的工程问题。”

https://spectrum.ieee.org/data-center-liquid-cooling?utm_source=homepage&utm_medium=hero&utm_campaign=hero-2025-10-13&utm_content=hero1

*免责声明:本文由作者原创。文章内容系作者个人观点,半导体行业观察转载仅为了传达一种不同的观点,不代表半导体行业观察对该观点赞同或支持,如果有任何异议,欢迎联系半导体行业观察。

今天是《半导体行业观察》为您分享的第4194期内容,欢迎关注。

加星标第一时间看推送,小号防走丢

求推荐

半导体行业观察

2025-10-16

半导体行业观察

2025-10-16

半导体行业观察

2025-10-16

半导体行业观察

2025-10-16

半导体行业观察

2025-10-16

半导体行业观察

2025-10-16

首页 股票 财经 基金 导航