|

财经

谁拥有最多的AI芯片?

来源:半导体行业观察

2025-05-04 09:35:50

(原标题:谁拥有最多的AI芯片?)

如果您希望可以时常见面,欢迎标星收藏哦~

人工智能的进步依赖于指数级增长的人工智能超级计算机。自2010年以来,用于训练最著名人工智能模型的计算量每年增长4.1倍,从而实现了先进聊天机器人、图像生成和蛋白质结构预测等突破。这种训练计算量的增长主要依赖于更大规模的人工智能超级计算机,这些计算机现在包含超过10万个AI芯片,硬件成本达数十亿美元,并且消耗相当于一个中等城市用电量的电力。

我们通过系统地收集2019年至2025年的公开数据,汇编了一个包含全球500多台人工智能超级计算机的数据集。我们将人工智能超级计算机定义为使用AI芯片的系统,该系统在其首次投入运营时达到了领先人工智能超级计算机至少1%的计算性能。通过将总性能与公开的AI芯片生产和销售估算进行比较,我们估计我们的数据集涵盖了现有AI超级计算机总容量的10-20%。

领先人工智能超级计算机的计算性能每9个月翻一番,这得益于更多和更好的AI芯片的部署(图1)。两个关键因素推动了这一增长:芯片数量每年增加1.6倍,以及每个芯片的性能每年提高1.6倍。虽然在2019年拥有超过1万个芯片的系统很少见,但到2024年,各公司部署的人工智能超级计算机的规模是当时的十倍以上,例如xAI拥有20万个AI芯片的Colossus。


图1:领先人工智能超级计算机的性能(以16位精度的FLOP/s计)每9个月翻一番(年增长率为2.5倍)

领先人工智能超级计算机的电力需求和硬件成本每年翻一番。人工智能超级计算机的硬件成本每年增长1.9倍,而电力需求每年增长2.0倍。因此,截至2025年3月,性能最强的人工智能超级计算机,即xAI的Colossus,其估计硬件成本为70亿美元(图2),电力需求约为300兆瓦——相当于25万户家庭的用电量。在电力需求大幅增长的同时,人工智能超级计算机的能源效率也更高了:每瓦计算性能每年提高1.34倍,这几乎完全归功于更节能芯片的采用。

如果观察到的趋势持续下去,到2030年6月,领先的人工智能超级计算机将需要200万个AI芯片,硬件成本将达到2000亿美元,电力需求将达到9GW。历史AI芯片生产的增长以及像5000亿美元的“星际之门计划”(Project Stargate)这样的重大资本投入表明,前两个要求很可能能够满足。然而,9GW的电力相当于9个核反应堆的发电量,这超出了任何现有工业设施的规模。为了克服电力限制,各公司可能会越来越多地采用分布式训练方法,这将使他们能够将训练任务分布在多个地点的人工智能超级计算机上进行。


图2:领先人工智能超级计算机的成本(以2025年美元计)大约每年翻一番

公司现在主导着人工智能超级计算机。随着人工智能发展吸引了数十亿美元的投资,各公司迅速扩大其人工智能超级计算机的规模,以进行更大规模的训练。这导致领先的行业系统性能每年增长2.7倍,远高于公共部门系统每年1.9倍的增长率。除了更快的性能增长外,各公司还迅速增加了他们部署的人工智能超级计算机的总数,以服务于快速增长的用户群。因此,工业界在人工智能总计算力中的份额从2019年的40%飙升至2025年的80%,而公共部门的份额则降至20%以下(图3)。


图3:公共部门与私营部门人工智能超级计算机总性能份额随时间的变化

美国拥有75%的人工智能超级计算机,其次是中国。美国约占人工智能超级计算机总性能的四分之三,中国以15%位居第二(图4)。与此同时,英国、德国和日本等传统的超级计算强国在人工智能超级计算机领域的作用已变得微不足道。这种转变反映了总部位于美国的的大型公司在人工智能开发和计算领域的主导地位。然而,鉴于我们数据库中的许多系统都可以远程使用,例如通过云服务,人工智能超级计算机的地理位置并不一定决定谁在使用计算资源。


图4:按国家划分的AI超级计算机计算性能份额随时间的变化。我们展示了在任何时间点份额超过3%的所有国家

我们将在本次发布后不久发布我们的数据集以及相关文档。我们的数据将成为Epoch AI的AI数据中心的一部分,并将定期更新维护。

引言

自2010年深度学习时代开始以来,用于训练著名AI模型的计算资源(算力)以每年4-5倍的速度增长(Sevilla & Roldan, 2024)。这种指数级的增长一直是许多领域(如大型语言模型或图像生成(Erdil & Besiroglu, 2022; Ho et al., 2024))人工智能能力提升的主要驱动力。这种算力增长的大部分是由更大、更高性能的AI超级计算机推动的(Hobbhahn et al., 2023; Frymire, 2024)。

鉴于人工智能超级计算机对人工智能发展的重要性,系统地收集相关数据能够帮助我们更好地理解其硬件成本、电力需求和全球分布等趋势。这种分析对政策制定者具有重要意义,因为算力既是人工智能进步的推动力,也是潜在的治理工具(Sastry et al., 2024; Khan & Mann, 2020)。例如,关于人工智能超级计算机在各国分布的信息能够帮助政府评估其在人工智能领域的国家竞争力,而电力需求增长的数据则有助于电网规划。

然而,尽管人工智能算力非常重要,但目前尚不存在关于特定于人工智能的超级计算机的全面数据集。诸如Top500榜单或MLPerf基准测试等资源依赖于自愿提交,因此缺乏足够的数据来可靠地分析趋势(Top500,)。与此同时,用于商业智能的数据库(如SemiAnalysis的数据中心模型)不公开用于分析,并且侧重于当前的系统而非历史趋势(SemiAnalysis, 2024)。

我们试图通过收集各种公共来源的数据,建立一个包含2019年至2025年间500台人工智能超级计算机的数据集来弥补这一差距。我们利用这个数据集来研究几个关键趋势:人工智能超级计算机性能的增长、硬件成本、功耗以及人工智能超级计算能力在国家和部门之间的分布。

方法

人工智能超级计算机的定义

我们将人工智能超级计算机定义为可以支持训练大规模人工智能模型,并部署在同一园区内的计算机系统。我们使用两个标准来评估给定的系统是否可以支持训练大规模人工智能模型:

1. 该系统包含可以加速人工智能工作负载的芯片,例如英伟达的V100、A100、H100和GB200,谷歌的TPU,以及其他常用于训练前沿人工智能模型的芯片。为了评估给定的芯片是否适用于大规模人工智能训练,我们使用了Hobbhahn等人(2023)创建的机器学习硬件数据集。如果某个芯片不在该数据集中,如果它具有以下特征,我们将其视为人工智能芯片:

  • 支持人工智能训练中常用的精度,例如FP16或INT8。

  • 具有专用于矩阵乘法的计算单元,例如英伟达GPU中的张量核心。

  • 具有高带宽内存(HBM)或其他能够实现高内存带宽的内存类型。

  • 曾用于训练Epoch AI(2025)的著名人工智能模型数据集中的模型。

2. 该系统在人工智能相关精度上具有较高的理论计算性能。由于硬件改进速度很快,我们使用移动定义,并且只包括在当时至少具有现有性能最强人工智能超级计算机1%性能的系统。

为了平衡数据收集工作和代表性,我们将数据收集的范围限制在大约6年,从2019年初到2025年2月。我们将在https://epoch.ai/data/ai-supercomputers上维护数据集,并将其与Epoch AI的Data on AI hub集成。

数据收集

我们使用谷歌搜索API、现有(AI)超级计算机的汇编以及手动搜索来收集2019年至2025年间501台领先人工智能超级计算机的数据集。我们还涵盖了2019年之前的225个额外系统,总计726台人工智能超级计算机。我们最重要的来源是公司公告、包含大量GPU的Top500条目以及Epoch AI(2025)的著名AI模型数据集。对于每个潜在的人工智能超级计算机,我们手动搜索详细信息,例如系统使用的芯片数量和类型、首次投入运营的时间、报告的性能、所有者和位置。

我们估计我们的数据集涵盖了到2025年生产的所有AI芯片总性能的约10%,以及截至2025年初最大公司的AI芯片库存的约15%。截至2025年3月,我们的数据集涵盖了Epoch AI著名模型数据集中25个最大规模训练任务所用系统的大约一半(Epoch AI, 2025)。

分析

我们将收集到的数据与Epoch AI的机器学习硬件数据相结合,以估算我们数据库中系统的总性能、硬件成本和电力需求(Epoch AI, 2024; Hobbhahn et al., 2023)。我们筛选了数据集,得到2019年1月1日至2025年3月1日期间389个高确定性、已确认运行的系统。然后,我们对研究期间首次运行时在全球16位FLOP/s性能排名前十的57台人工智能超级计算机的关键指标进行了回归分析。我们分析的指标包括计算性能、芯片数量、电力需求、能源效率和硬件成本。我们进一步评估了数据集中所有人工智能超级计算机(包括2019年之前的系统,总计470个系统)的总性能在不同部门和国家之间的分布情况。

结果

我们首先评估了数据集中领先人工智能超级计算机在性能、电力和硬件成本方面的增长情况。然后,我们考察了数据集中人工智能超级计算机在私营部门与公共部门以及不同国家之间的分布情况。

领先人工智能超级计算机的计算性能每九个月翻一番

2019年至2025年间,领先人工智能超级计算机的计算性能每年增长2.5倍(图5)。仅考虑公司拥有的人工智能超级计算机时,性能增长速度甚至更快(3.1.3节)。性能的快速增长使得2025年3月领先的系统,即xAI的Colossus,其性能达到了2019年领先的人工智能超级计算机——橡树岭国家实验室的Summit的50多倍。

我们在2017年和2018年发现了几台大型人工智能超级计算机,其性能显著高于我们2018年之后的结果所显示的趋势。目前尚不清楚这在多大程度上反映了我们数据集的覆盖不足,或者这些是否确实是直到2021年部署的最大系统。我们在4.1节中讨论了这些早期系统主要用于科学研究,而不是用于进行大规模训练,因此可能无法与后来的系统直接比较。


图5:排名前十的领先人工智能超级计算机的性能(以16位精度FLOP/s计)每年增长2.5倍(90%置信区间(CI):2.4–2.7倍)。我们从2019年开始回归分析,但考虑了2019年之前的人工智能超级计算机,以确定哪些系统在2019年初排名前十。我们2019年之前的数据有限,无法纳入回归分析。我们突出显示了一些值得注意的系统。

性能提升依赖于使用更多和更好AI芯片的人工智能超级计算机

(1) 每年2.5倍的性能增长主要源于两个大致相等的因素:AI芯片数量的增加和每个芯片性能的提高。

首先,性能最高的人工智能超级计算机中的芯片数量每年增加1.6倍(图12)。2019年1月,橡树岭国家实验室的Summit拥有最高的芯片数量,为27,648个NVIDIA V100芯片。到2025年3月,xAI的Colossus拥有所有已知系统中最高的芯片数量,为20万个NVIDIA H100和H200芯片。将2019年之前的系统纳入回归分析可能会导致较低的增长率。然而,由于我们的数据收集只追溯到2019年,我们无法可靠地进行此项分析。

其次,性能最高的人工智能超级计算机中每个芯片的计算性能每年提高1.6倍。在我们的研究期间,有三个值得注意的芯片代系。2019年至2021年间,NVIDIA的V100是最主要的芯片,占已安装性能的90%以上。2021年,NVIDIA的A100开始变得突出,并在2023年成为最主要的芯片,而AMD的MI250X和谷歌的TPU v4仅占少数份额。2023年,NVIDIA的H100变得更加普及,到2024年7月,在我们数据集中超过了总性能的50%。

领先人工智能超级计算机每个芯片计算性能的1.6倍(90%置信区间:1.5–1.7)的提升略快于FP32精度下AI芯片性能每年提升1.28倍(90%置信区间:1.24–1.32)和FP16精度下每年提升1.38倍(90%置信区间:1.28–1.48)的总体趋势(Rahman, 2025; Hobbhahn et al., 2023)。这种差异可能源于人工智能超级计算机主要采用领先的AI芯片,而不是平均性能的芯片。


图6:领先人工智能超级计算机中的AI芯片数量每年增长1.6倍(90%置信区间:1.5–1.8倍)。我们从2019年开始回归分析,但也收集了更早的数据,以确定哪些2019年的人工智能超级计算机位列前十。我们2019年之前的数据有限,无法纳入回归分析。完整方法见第2节。

(2) 人工智能超级计算机的性能增长速度超过了传统超级计算机

Benhari等人(2024)发现,1994年至2023年间,最大的Top500超级计算机的64位性能每年增长1.45倍。这一增长率使得排名前十的人工智能超级计算机的性能增长速度显著快于Top 500顶级机器的历史趋势。两个因素可能导致了这种差异:特定于AI的芯片和更快的投资增长。

首先,AI芯片的性能已经超过了CPU的性能(Hobbhahn et al., 2023)。这是因为AI计算工作负载的特性与传统计算不同,这使得AI芯片设计者能够优化并行矩阵运算的性能,从而导致AI芯片的性能提升速度显著快于CPU的性能(Hobbhahn et al., 2023)。

其次,对人工智能超级计算机的投资增长速度快于对传统超级计算机的投资增长速度。Top 500榜单历史上主要由政府资助的项目构成,这些项目的预算增长缓慢。然而,我们的人工智能超级计算机数据集主要包含大型公司拥有的系统,这些公司在2020年代迅速增加了对人工智能超级计算机的投资(Cottier et al., 2024)。

(3) 私营行业的人工智能超级计算机已经超越了政府或学术界

2019年至2025年3月期间,公司拥有的领先人工智能超级计算机的性能每年增长2.7倍。与此同时,政府和学术机构拥有和资助的领先人工智能超级计算机的性能增长速度明显较慢,每年仅增长1.9倍(p = 0.022)。目前已知最大的公共人工智能超级计算机——劳伦斯利弗莫尔国家实验室的El Capitan,其计算性能仅为目前已知最大的工业界人工智能超级计算机——xAI的Colossus的22%。我们将在4.4节讨论这种从公共部门到私营部门的转变。


图7:私营部门(公司)与公共部门(政府和学术界)拥有的领先人工智能超级计算机的性能。领先的公共部门系统最初规模较大,但未能跟上工业界系统的发展速度,工业界系统每年增长2.7倍(90%置信区间:2.5–2.9倍),而公共部门系统每年仅增长1.9倍(90%置信区间:1.6–2.2倍)。请注意,我们排除了由公共和私营机构共同资助和拥有的人工智能超级计算机。

(4) 人工智能超级计算机的增长速度与最大规模训练任务每年4-5倍的增长速度保持一致

Sevilla & Roldan(2024)发现,2018年至2024年间,最大人工智能模型的训练算力每年增长4.2倍(90%置信区间:3.6–4.9倍)。这与我们观察到的人工智能超级计算机性能增长相符,在我们考虑了训练时长增加的情况下。

在图8中,我们展示了最大人工智能训练任务所需的计算性能,以及我们数据集中领先人工智能超级计算机的性能。我们只考虑了运行绝大多数人工智能训练任务的工业界系统(Besiroglu et al., 2024)。为了计算训练任务所需的性能,我们将训练所需的FLOP数除以训练时长(以秒为单位),并根据40%的平均性能利用率进行调整(Sevilla et al., 2022)。

2019年至2025年间,最大的工业界人工智能超级计算机始终达到最大人工智能训练任务所需计算性能的10倍(不包括最终训练运行之前实验所需的计算量)。虽然最大训练任务所需的系统增长速度略快于领先的人工智能超级计算机(3.4倍 vs 3.0倍),但我们发现这两个趋势之间没有统计学上的显著差异(p=0.18)。因此,如图9所示,人工智能超级计算机的增长与训练算力的增长保持一致。


图8:最大工业界人工智能超级计算机的计算性能以及最大已报告人工智能训练任务所需的性能(Epoch AI, 2025)。为了估算这些训练任务所需的人工智能超级计算机规模,我们假设GPU利用率为40%,并使用可用的声明训练时长,或者根据最大人工智能模型的训练时长回归估算值。我们从著名模型的发布日期减去训练时长,以更好地估计其训练开始时间。鉴于著名模型数据集未报告训练所用的数值精度,我们还报告了人工智能超级计算机的精度无关OP/s,考虑了32位、16位和8位数字格式下的最高可用性能。


图9:训练算力增长驱动因素概述。“OOM”代表数量级。人工智能超级计算机指标基于私营部门系统以及跨精度的最高计算性能。

领先人工智能超级计算机的电力需求每13个月翻一番

我们根据报告的电力需求或(如果不可用)通过估算基于AI芯片数量和类型(包括额外的IT基础设施,如CPU、网络交换机,以及数据中心支持基础设施,如冷却和电源转换)的电力需求来评估领先人工智能超级计算机的年度电力需求增长率。

我们发现,2019年至2025年间,领先人工智能超级计算机的电力需求每年增长2.0倍。2019年1月,橡树岭国家实验室的Summit拥有最高的电力需求,为13兆瓦。2024年,首批系统的电力需求开始超过100兆瓦,到2025年3月,xAI的Colossus拥有最高的电力需求,估计为300兆瓦。相比之下,这相当于25万美国家庭的用电量(美国能源信息署,2024)。

训练前沿模型所需电力快速增长的情况已有充分记录(Fist & Datta, 2024; Sevilla et al., 2024; Pilz et al., 2025)。我们将在4.2.3节讨论这种趋势是否能够持续。


图10:领先的10台人工智能超级计算机的峰值数据中心电力需求每年翻一番(90%置信区间:每年1.6–2.2倍)。我们在有报告的情况下显示报告的电力需求。否则,我们根据所用芯片的数量和类型估算容量。

(1) 领先人工智能超级计算机的能源效率每年提高1.34倍

我们计算人工智能超级计算机的能源效率,单位为每瓦FLOP/s(16位精度),包括硬件和数据中心的电力需求。为了计算效率,我们将FLOP/s的计算性能除以报告或估计的瓦特数据中心电力需求。数据中心级别的能源效率包括服务器、额外的集群组件(如网络交换机)以及支持基础设施(如冷却和电源转换)。

我们发现,2019年至2025年间,人工智能超级计算机的能源效率每年提高1.34倍(图11)。在计算性能保持不变的情况下,人工智能超级计算机每年所需的能源减少约25%。这与Benhari等人(2024)在研究期间Top500中最节能超级计算机的能源效率每年提高1.31倍的情况大致一致。


图11:2019年至2025年间,排名前十的领先人工智能超级计算机的能源效率(每瓦16位FLOP/s)每年提高1.34倍(90%置信区间:1.25–1.43倍)。新芯片的采用是能源效率提高的主要驱动因素,而数据中心基础设施效率仅发挥了次要作用。我们在有报告的情况下使用报告的电力需求,否则使用估计的电力需求。

人工智能超级计算机的能源效率提升可能来自两个方面:硬件效率的提升和数据中心基础设施(如冷却)效率的提升。硬件效率的提升主要源于AI芯片的改进,但也包括CPU、网络交换机和存储等其他硬件的改进。我们通过假设人工智能超级计算机所在数据中心的能源效率遵循Shehabi等人(2024)报告的行业范围内的电源使用效率(PUE)趋势来建模其改进。PUE是提供给硬件的电力除以提供给数据中心的电力的商。理想的PUE为1.0表示所有输送到数据中心的电力都直接用于硬件,而没有电力在电压转换中损失或用于冷却和其他操作(Pilz & Heim, 2023)。


图11显示,每次有新的AI芯片可用时,能源效率都会显著提高。与此同时,PUE的改进速度较慢,并且在我们的估计中已经接近1.0的理想值,导致每年的效率提升不到5%(Shehabi et al., 2024)。因此,能源效率的提高主要归功于人工智能超级计算机采用了更节能的硬件。

领先人工智能超级计算机的硬件成本每年翻一番

我们基于公开报告的成本数据或(如果不可用)通过根据所用芯片的数量和公开可用的价格数据估算总硬件成本来分析领先人工智能超级计算机硬件成本的年度增长情况。我们进一步包括了诸如CPU和网络交换机等额外硬件的估计成本,但不包括发电或数据中心建设成本。我们对所有数值进行通货膨胀调整,以显示2025年1月的美元成本。我们的成本估算与所有者报告的数值存在显著差异,但这可能是因为报告的数值主要来自公共项目,这些项目通常在硬件采购方面获得更高的折扣。

我们发现,2019年至2025年间,领先人工智能超级计算机的硬件成本每年增长1.9倍。我们有限的2019年之前的数据表明,在我们的研究期间之前,超过1亿美元的硬件成本并不少见,例如橡树岭国家实验室的Summit在2025年美元的成本约为2亿美元。截至2025年3月,最昂贵的人工智能超级计算机是xAI的Colossus,其估计硬件成本为70亿美元。


图12:领先人工智能超级计算机(按16位性能排序)首次投入运营时的硬件成本从2019年到2025年以每年1.9倍的速度增长(90%置信区间:每年1.8–2.1倍)。我们使用报告的成本,如果不可用,则使用改编自Cottier等人(2024)的硬件购置成本公式来建模成本。我们将所有数值调整为2025年美元以反映通货膨胀。

领先人工智能超级计算机硬件成本每年1.9倍的增长速度低于Cottier等人(2024)报告的总训练成本每年2.4倍(90%置信区间:2.0–2.9倍)的增长速度。这种差异归因于两个因素:首先,前沿模型的训练时长每年延长1.4倍(Frymire, 2024),这意味着训练任务使用同一台人工智能超级计算机的时间更长,即使人工智能超级计算机的成本保持不变,也会增加摊销成本。其次,研究人员成本是人工智能开发中占比很大且不断增长的部分,但不会影响人工智能超级计算机的硬件成本(Cottier et al., 2024)。

我们的数据覆盖范围的局限性

在分析人工智能超级计算机在部门和国家之间的分布之前,我们强调我们数据集的两个重要局限性:

a) 我们仅捕获了符合我们定义的所有人工智能超级计算机的10%到20%。具体来说,我们估计我们的数据集涵盖了2023年和2024年生产的所有相关AI芯片的约10%,以及截至2025年初最大公司的芯片库存的约15%。截至2025年3月,我们的数据集涵盖了Epoch AI(2025)中25个最大规模训练任务所用系统的大约一半。较低的覆盖率意味着我们的数据精度有限,单个系统的添加可能会显著改变整体分布。

b) 不同部门、芯片类型和公司的覆盖水平可能存在显著差异。例如,我们捕获了Meta公司约一半的人工智能超级计算机总性能,而没有捕获任何苹果公司的人工智能超级计算机。由于政府往往对其项目更加透明,我们可能比行业系统更好地覆盖了政府人工智能超级计算机。

鉴于这些局限性,我们侧重于人工智能超级计算机在部门和国家之间的分布,因为尽管我们的覆盖率较低,这两者都提供了可靠的见解:所有权从公共部门向私营部门的转变是我们整个数据集中的一个显著且稳健的影响。我们的国家层面数据可能比较可靠,因为我们能够与其他数据进行交叉核对(见附录C.3)。与此同时,我们不分析特定AI芯片类型或个别公司的分布情况,因为这些更容易受到我们数据集中覆盖偏差的影响。

公司现在拥有大多数人工智能超级计算机

对于我们数据集中的每台人工智能超级计算机,我们将所有者分为三类之一:

  • 私营:所有者是公司

  • 公共:所有者是政府实体或大学

  • 公私合营:人工智能超级计算机有多个属于这两个部门的所有者,或者如果一个私人项目获得了超过25%的总资金来自政府

我们发现,私营部门的计算份额从2019年不到40%迅速增加到2025年的约80%(图13),而公共人工智能超级计算机的份额从2019年的约60%迅速下降到2025年的约15%。鉴于公司不太可能像公共所有者那样公开其系统的数据,我们的数据甚至可能低估了这种转变。然而,请注意,鉴于许多人工智能超级计算机通过云服务提供,公共部门实体可能仍然能够访问私营部门的人工智能超级计算机。在4.1节中,我们讨论了人工智能开发和部署的经济重要性日益增加如何可能导致私营部门份额的快速增长。


图13:基于人工智能超级计算机所有者的公共和私营部门的相对性能份额。一台人工智能超级计算机可能拥有多个所有者(例如,如果它是一个合作项目,或者如果政府资助了一个行业项目)。

美国占全球人工智能超级计算机性能的大部分,其次是中国

在分析跨国家的分布时,我们发现在2019年初,美国约占我们数据集中计算性能的70%,而中国约占20%(图14)。2019年至2022年间,中国的份额显著增长,在2022年初达到约40%,尽管我们不确定这是否反映了真实的趋势,还是我们较低数据覆盖率造成的假象。此后,中国的份额有所下降;截至2025年3月,按性能计算,美国拥有约75%的人工智能超级计算机,而中国约占15%。


图14:我们数据集中人工智能超级计算机按国家划分的聚合16位计算能力份额随时间的变化。我们展示了在任何时间点份额超过3%的所有国家。

截至2025年3月,我们数据集中所有在美国运行的人工智能超级计算机的总性能相当于85万个H100(9.1×10²⁰ FLOP/s),其次是中国,相当于11万个H100(1.9×10²⁰ FLOP/s),欧盟相当于5万个H100(5.6×10¹⁹ FLOP/s)(图15)。因此,美国的总计算性能几乎是中国大陆的9倍,是欧盟总性能的17倍。


图15:按国家划分的人工智能超级计算机总性能(以H100当量计)。要将系统的性能转换为H100当量,我们首先取其AI芯片支持的最低精度的性能(考虑32位、16位和8位),然后除以H100的8位性能。

在本节中,我们首先讨论是什么导致了人工智能超级计算机性能和资源需求的快速增长。然后,我们将这些趋势外推到2030年,并简要讨论芯片数量、电力和硬件成本的增长是否能够持续。我们进一步讨论了人工智能超级计算机在各国分布的地缘政治影响,以及人工智能超级计算机工业界份额的增加可能如何影响人工智能研究。

人工智能算力的快速增长既依赖于人工智能产业日益增长的经济重要性,也促进了这种重要性的提升

我们观察到的人工智能超级计算机性能的快速增长主要由人工智能投资的激增驱动。虽然芯片设计和制造方面的传统改进也促进了这一增长(Roser et al., 2023; Hobbhahn et al., 2023),但人工智能超级计算机的增长速度远快于传统人工智能超级计算机(第3.1.2节)。这种加速反映了人工智能超级计算机的主要用例发生了根本性的转变,从用于科学发现的学术工具转变为运行具有经济价值的工作负载的工业机器。

2019年,最大的人工智能超级计算机主要由政府超级计算机主导,例如美国能源部的Summit和Sierra。这些系统旨在处理不同科学领域的各种工作负载并推进基础研究(橡树岭国家实验室,未注明日期)。然而,在2020年代初,各公司越来越多地使用人工智能超级计算机来训练具有商业应用的人工智能模型,例如OpenAI的GPT-3和GitHub的Copilot集成(Brown et al., 2020; Dohmke & GitHub, 2021)。这些人工智能能力的展示导致了对人工智能投资的显著增加,创造了对人工智能芯片的创纪录需求(Our World in Data, 2024; Samborska, 2024; Richter, 2025)。

随着对人工智能投资的增加,各公司能够构建性能更高、拥有更多和更好AI芯片的人工智能超级计算机。这形成了一个良性循环:增加的投资实现了更好的人工智能基础设施,从而产生了更强大的人工智能系统,吸引了更多的用户和进一步的投资。因此,人工智能超级计算机的增长既是资金增加的结果,也是人工智能超级计算机展示其经济价值后持续投资的原因。

观察到的趋势能否持续?

在第上文中,我们得出结论,人工智能超级计算机的增长速度与最大规模人工智能训练任务中算力每年4-5倍的增长速度保持一致。本节将讨论芯片、硬件成本和电力需求方面的趋势持续到2030年意味着什么。


表1:基于当前最大的人工智能超级计算机和第3节描述的历史增长率对趋势进行的历史数据和外推。仅使用工业界拥有的人工智能超级计算机的增长率将导致更高的外推值。外推值已四舍五入,以避免暗示精确性。

(1) 到2030年,最大的人工智能超级计算机可能需要两百万个芯片

如果AI芯片的数量继续以每年1.6倍的速度增长,那么到2030年,最大的人工智能超级计算机将需要大约200万个AI芯片(表1)。Sevilla等人(2024)估计,到2030年,AI芯片的产量每年可能增长1.3倍到2倍。从目前的芯片产量外推来看,这意味着2030年的年产量将达到740万到1.44亿个AI芯片。如果到2030年,最大的人工智能超级计算机使用了200万个AI芯片,那么它将需要全球年AI芯片产量的1%到27%,这表明如果AI芯片

(2) 到2030年,最大的人工智能超级计算机的硬件成本可能约为2000亿美元

如果领先人工智能超级计算机的硬件成本继续以每年1.9倍的速度增长,那么到2030年,领先系统的硬件成本将约为2000亿美元(以2025年美元计)。这还不包括数据中心设施的成本,后者可能约为每GW100亿美元,从而使购置成本再增加900亿美元(Pilz & Heim, 2023)。

当前的AI基础设施已经接近这个规模:2025年,微软宣布计划在全球范围内投资800亿美元用于AI基础设施,而亚马逊云科技(AWS)宣布计划投资超过1000亿美元(Smith, 2025; Gonsalves, 2025)。与此同时,OpenAI宣布计划在四年内为“星际之门”项目投入高达5000亿美元(OpenAI, 2025)。这些公告与到2030年单个项目2000亿美元的硬件成本是相符的,尤其是在预计AI投资将持续增长的情况下(Zoting, Shivani, 2025; IDC, 2025; Grand View Research, 2024)。

(3) 到2030年,最大的人工智能超级计算机可能需要9GW的电力

如果人工智能超级计算机的电力需求继续以每年2.0倍的速度增长,那么到2030年,领先的人工智能超级计算机将需要大约9GW的电力(表1)。这略高于Sevilla等人(2024)外推的6GW,并且与Pilz等人(2025)对2030年运行最大规模训练任务的人工智能超级计算机的估计相符。

目前最大的数据中心园区的容量为数百兆瓦,截至2025年初,尚未公开报道有超过1GW的现有园区。虽然到2028年建成一个2GW的人工智能超级计算机可能是可行的,但到2030年建成一个容量为9GW的系统将需要相当于9个核反应堆的发电量,并且可能面临严重的许可和设备供应链挑战,以及当地社区反对等其他潜在挑战(Pilz et al., 2025)。由于难以获得足够的电力,各公司可能会越来越多地使用分布式训练技术,使其能够将训练任务分布在多个地点的人工智能超级计算机上进行。据报道,一些著名的训练任务,包括谷歌DeepMind的Gemini 1.0和OpenAI的GPT-4.5,已经跨多个AI超级计算机进行训练。

(4) 结论:电力限制可能成为持续增长的主要制约因素

电力限制很可能成为人工智能超级计算机增长的主要瓶颈,推动训练向跨多个站点的分布式训练转变。这种演变可能会改变我们衡量人工智能训练能力的方式——从关注单个AI超级计算机转向评估公司的总计算能力。虽然芯片生产和硬件成本趋势在2030年之前似乎是可持续的,但所有这些趋势的持续最终取决于AI应用是否能带来足够的经济价值,以证明基础设施扩张所需的大规模投资是合理的。

美国在全球人工智能超级计算机分布中占据主导地位

本节讨论美国的主导地位很可能源于其在相关产业的领先地位,并且鉴于美国既定的政策以及对关键AI芯片生产瓶颈的控制,这种主导地位很可能会持续下去。

(1) 美国的主导地位源于在云计算和人工智能开发领域的领先地位

根据我们的数据,目前约75%的AI超级计算机性能位于美国(图14)。在曾经在公共超级计算领域发挥重要作用的国家(如英国、德国或日本)的重要性下降的同时,美国是如何在AI超级计算机领域占据如此主导地位的?

美国的主导地位很可能直接源于AI超级计算机日益商业化并由公司(而非政府或学术界)主导,而这些公司主要位于美国,这是由于其在先前技术中的主导地位所致。这种优势在云计算基础设施中显而易见,2019年,仅亚马逊云科技(AWS)、微软和谷歌这三大领先的美国云计算公司就占据了全球市场份额的68%(Gartner, 2020)。美国公司在关键AI进步方面也发挥了主导作用,包括推荐系统、AlphaFold等科学应用以及ChatGPT等LLM聊天机器人。总体而言,在Epoch AI(2025)记录的476个著名AI模型中,美国公司参与开发了338个,并训练了其中25个最大AI模型中的18个(按训练算力计算)。虽然关于AI应用全球市场份额的可靠数据有限,但创纪录的用户增长可能表明美国公司在用户总数方面也处于领先地位。

(2) 美国很可能将继续在人工智能超级计算机领域保持领先地位

美国不仅在人工智能开发和云服务提供方面占据主导地位,而且在AI芯片的设计以及半导体制造的若干关键投入方面也处于领先地位。美国政府此前已利用其在AI芯片领域的主导地位对向中国出口AI芯片和关键设备实施出口管制,并引入了一项AI扩散框架,该框架对向非美国亲密盟友国家出口AI芯片设置了条件。

与此同时,一些挑战可能会限制美国在AI超级计算机领域的主导地位:

  • 电力需求:无论是在AI超级计算机所需的电力方面,还是在主要用于推理而部署的AI芯片总数方面,AI的电力需求都在大规模增长。美国在增加足够的发电能力以维持当前AI数据中心增长速度方面正面临重大挑战。

    外国政府对主权基础设施的投资:一些政府已开始投资于本地AI基础设施,例如法国、英国、沙特阿拉伯和阿联酋。然而,与领先的美国AI超级计算机相比,这些项目大多规模较小。此外,鉴于美国对AI芯片生产的控制,如果这些项目威胁到美国在计算领域的主导地位,美国可能会阻止这些项目获得芯片。

  • 来自中国的竞争:中国政府和中国公司正在大力投资AI基础设施,但由于无法进口领先的美国AI芯片,该国依赖性能较差的美国或国产AI芯片。有限的AI芯片获取渠道使得建立大型AI超级计算机的成本更高,并限制了中国的项目总数。到目前为止,中国自主生产AI芯片的努力因无法生产或进口DUV和EUV光刻机等关键设备而受到严重阻碍,而这些设备的生产极具挑战性。

总而言之,美国在AI模型开发和云计算领域处于领先地位,并控制着半导体供应链中的关键瓶颈。再加上美国政府推进美国AI领导地位的既定政策,这使我们得出结论,至少在未来六年内,美国很可能将继续在AI超级计算机领域保持领先地位。

私营部门主导地位增强的后果

我们发现公司拥有越来越大份额的AI超级计算机,这与先前报道的一个趋势相符:AI研究越来越由大型公司而非学术或政府机构主导。Besiroglu等人发现,学术机构在大型机器学习模型中的份额急剧下降,从2012年的约65%降至2023年的仅10%。

AI超级计算机所有权从公共部门向私营部门的转变很可能是由于其经济重要性日益增加(第4.1节),这迅速增加了私人AI投资。更多的投资使得公司能够建造像xAI的Colossus这样昂贵的系统,其估计硬件成本为70亿美元。与此同时,最昂贵的政府项目,Frontier和El Capitan,每个仅耗资6亿美元。此外,政府通常只建造少量系统用于研究目的。然而,主要的科技公司通常建造数十台AI超级计算机,因为它们不仅要训练更大的模型,还要为全球数百万用户提供服务。

AI超级计算机所有权从公共部门向私营部门的这种转变对AI研究产生了两个重要后果:学术研究人员的访问受限以及AI开发和部署的可见性降低。

学术研究人员的访问受限: AI超级计算机集中在工业界减少了学术研究人员对前沿计算资源的访问,而学术研究人员历史上为AI的进步做出了贡献,并提供了独立的评估和审查。系统的所有权本身并不决定计算资源的访问权限,因为研究人员可以通过云计算公司租用AI超级计算机。然而,即使是短时间租用大量AI芯片(超过几千个)对于学术研究人员来说仍然可能过于昂贵,迫使他们依赖较小、功能较弱的模型。

缺乏可见性:随着公司现在运营着领先的AI超级计算机,它们已成为前沿AI进步的主要驱动力,将政府和学术实验室降为辅助角色。由于公司通常对其研究不太公开,政府可能越来越难以跟踪AI模型的能力提升。此外,鉴于计算资源对于AI开发和部署的重要性,一个国家顶级AI超级计算机的规模和数量越来越与其在AI领域的竞争力相关。由于公司控制着大多数系统,政府越来越缺乏关于其国家AI基础设施规模的数据,这阻碍了政策制定者制定连贯的技术竞争战略的能力。

政府增加对AI开发和部署的可见性并更好地了解国家竞争力的一种选择可能是要求公司报告其基础设施的关键数据,例如其最大AI超级计算机的性能及其基础设施的总规模。政府还可以收集其他国家AI计算能力的情报,使其能够更好地了解自身的竞争地位,并可能更容易核实未来潜在的国际AI协议。

结论

我们汇编了一个包含2019年至2025年间500台AI超级计算机的数据集,发现性能、芯片数量、电力需求和硬件成本都呈指数级增长。AI超级计算机性能的快速增长,加上训练时长的增加,使得前沿AI模型的训练算力每年增长4-5倍,这推动了AI能力的显著进步,并进一步刺激了对基础设施的投资。如果趋势持续下去,到2030年,领先的AI超级计算机的硬件成本可能超过2000亿美元,并包含超过200万个AI芯片。然而,预计9吉瓦的电力需求在单个地点难以满足,很可能迫使公司采用跨多个站点的分布式训练方法。

我们的数据还揭示了AI超级计算机所有权的关键趋势,公司在AI超级计算机总性能中的份额从2019年的40%增加到2025年的80%以上。这一发现强调了先前观察到的工业界和学术界之间日益扩大的计算鸿沟。美国拥有全球约75%的AI超级计算机性能,并且很可能通过其对AI芯片供应链的控制保持这种主导地位。

总而言之,AI超级计算机一直是AI进步的关键驱动力,并且是AI供应链的核心组成部分。我们的分析提供了关于AI超级计算机的增长模式、分布和资源需求的宝贵信息。这些信息对于政策制定者以及更广泛地理解AI的发展轨迹将变得越来越重要。

感谢本文作者:

Konstantin F.Pilz

James Sanders

Robi Rahman

Lennart Heim

半导体精品公众号推荐

专注半导体领域更多原创内容

关注全球半导体产业动向与趋势

*免责声明:本文由作者原创。文章内容系作者个人观点,半导体行业观察转载仅为了传达一种不同的观点,不代表半导体行业观察对该观点赞同或支持,如果有任何异议,欢迎联系半导体行业观察。

今天是《半导体行业观察》为您分享的第4023期内容,欢迎关注。


『半导体第一垂直媒体』

实时 专业 原创 深度

公众号ID:icbank

喜欢我们的内容就点“在看”分享给小伙伴哦

fund

半导体行业观察

2025-05-04

半导体行业观察

2025-05-04

半导体行业观察

2025-05-04

半导体行业观察

2025-05-04

半导体行业观察

2025-05-04

首页 股票 财经 基金 导航