来源:半导体行业观察
2025-11-01 09:10:05
(原标题:亚马逊部署100万自研芯片,预言下一代)
公众号记得加星标,第一时间看推送不会错过。
来 源: 内容 编译自 nextplatform 。
只需看看英伟达数据中心业务令人难以置信的收入和利润,就能明白全球最大的计算客户——超大规模数据中心运营商、云服务提供商,以及现在最大的模型提供商——需要改变性价比曲线,以提高自身的利润。
亚马逊的 Trainium AI 加速器似乎用于进行 AI 推理以及 AI 训练,这也是该公司 SageMaker 和 Bedrock AI 技术栈中该产品名称的由来。这似乎意味着 AWS 在 GenAI 时代正在搁置相关的 Inferentia 系列推理加速器。(或许他们应该直接叫它AInium?)
在与华尔街分析师讨论亚马逊及其亚马逊网络服务云的财务业绩的电话会议上,数据中心的核心主题是 Trainium2 进展非常顺利,而与模型构建者和紧密合作伙伴 Anthropic 共同开发的 Trainium3 加速器(该加速器已于去年 12 月在 re:Invent 2024 大会上进行了预览)也即将投入使用。
我们在2023年12月就对Trainium2芯片进行了预览,现在需要更新芯片的实际规格。关于Trainium3,我们了解不多,只知道它采用台积电3纳米工艺制造,性能是现有Trainium2芯片的两倍,能效提升40%(我们推测这意味着每瓦浮点运算次数更高)。
与其他云服务商一样,亚马逊也在努力寻求平衡:一方面利用自研加速器提升利润并支撑人工智能平台服务;另一方面,为那些希望在云端构建自有平台的用户提供来自英伟达(有时也包括AMD)的海量GPU算力。目前,只有谷歌的TPU和AWS的Trainium广泛部署了自主研发的AI训练加速器。微软仍在研发其Maia芯片,Meta Platforms的MTIA加速器的训练版本也尚未完成。(中国的超大规模数据中心和云服务商也在不同程度上研发自研CPU和XPU,或者与华为旗下的海思半导体等第三方厂商合作,以摆脱对英伟达GPU的依赖。)
现任亚马逊首席执行官安迪·杰西(Andy Jassy)曾担任AWS首席执行官十余年,他表示Trainium2的容量已全部预订完毕,目前代表着一项年收入达数十亿美元的业务,其收入较第二季度环比增长了2.5倍。
Jassy表示,少数大型客户正在使用其云平台上大部分的Trainium2容量,他声称,与其他方案相比,Trainium2在AI工作负载方面性价比高出30%到40%。由于客户在生产环境中部署AI应用时希望获得更高的性价比,因此AWS上的Trainium2实例需求量很大。Jassy补充道,“Amazon Bedrock中大部分的tokens使用量已经在Trainium上运行”,我们认为他的意思是,Bedrock上处理的大部分上下文tokens和生成的大部分输出tokens都是由Trainium2(有时也包括Trainium1或Inferentia2)上的计算处理和生成的。
Jassy 还表示,Anthropic 正在使用该公司于 2024 年 12 月发布的“Project Ranier”超级集群训练其最新的 4.X 代 Claude 模型。当时,AWS 和 Anthropic 表示,Project Ranier 将拥有“数十万个”Trainium2 芯片,其性能将是 Anthropic 用于训练其 Claude 3 代模型的 GPU 集群的 5 倍。
事实证明,Ranier 比人们想象的还要强大,据 Jassy 称,该公司拥有 50 万个 Tranium2 芯片,并计划在今年年底前将其扩展到 100 万个 Tranium2 芯片。
关于 Trainium3,Jassy 表示它将在年底前推出预览版(这意味着我们可以在 12 月的 re:Invent 2025 大会上看到更多相关信息),正如他所说,“更大规模的部署将在 2026 年初到来”。他还补充道,AWS 拥有许多“对 Trainium3 非常感兴趣的大中型客户”。如果 AWS 上的实例能够提供 Trainium2 UltraCluster 4 倍的总容量和 2 倍的单芯片容量,那么这种兴趣也就不难理解了。像 Anthropic 这样的公司可以像 OpenAI 一样,将规模更大的实例集群串联起来,就像 OpenAI 过去在 Microsoft Azure 上获得的集群规模远超其他客户所能租用的规模一样。
“所以我们当然得交付芯片,”杰西打趣道,他指的是Trainium3。“我们必须批量交付,而且要快速交付。我们还必须继续完善软件生态系统,它一直在不断进步。随着我们拥有更多像Project Rainier那样的成功案例,以及Anthropic在Trainium2上所做的工作,Trainium的信誉度也在不断提升。我认为客户对它非常看好。我也一样。”
杰西在与华尔街的电话会议上谈到的另一个有趣之处在于AWS正在上线的数据中心容量。杰西表示,“在过去一年里”(我们认为他指的是过去十二个月,亚马逊经常使用这一指标),AWS已经启用了3.8吉瓦的数据中心容量,并且第四季度还将新增1吉瓦。杰西没有给出AWS数据中心总装机容量的具体数字,但他表示,到2027年底,总装机容量将翻一番。而从2022年底到现在,总装机容量已经翻了一番。
“所以我们今天新增了相当多的产能,”杰西解释说。“就整个行业而言,瓶颈可能在于电力。我认为在某个时候,瓶颈可能会转移到芯片上,但我们正在大幅增加产能。而且,我们目前的产能增长速度,也让我们能够将其转化为收益。”
鉴于此,假设AWS在2022年底拥有4GW的数据中心总容量,到2025年底将达到10GW。这意味着两年后总容量可能达到20GW左右。对于AI数据中心而言,英伟达基础设施的成本约为每GW 500亿美元,而像Trainium这样的自研加速器的成本约为每GW 370亿美元。假设GPU和Trainium各占一半,那么新增的10GW容量意味着2026年和2027年数据中心支出将达到约4350亿美元。这听起来简直不可思议。
为了匹配2026年和2027年GW容量仅40%的增长,假设AWS在2025年将在IT设备上投入1067亿美元——这笔支出占其预计当年1250亿美元资本支出的绝大部分,而且几乎全部用于AI基础设施——那么到2022年底,其容量必须达到1.95 GW,到2025年底达到5.9 GW,这意味着到2027年底将达到11.8 GW,而2026年和2027年(含2026年和2027年)的IT支出将达到2567亿美元。这听起来相对合理,同时也意味着,在过去一二十年里,兆瓦级容量曾是大型数据中心的容量,但在如今的GenAI时代,兆瓦级容量已经显得微不足道了。
*免责声明:本文由作者原创。文章内容系作者个人观点,半导体行业观察转载仅为了传达一种不同的观点,不代表半导体行业观察对该观点赞同或支持,如果有任何异议,欢迎联系半导体行业观察。
今天是《半导体行业观察》为您分享的第4212期内容,欢迎关注。
加星标第一时间看推送,小号防走丢
求推荐
半导体行业观察
2025-11-01
半导体行业观察
2025-11-01
半导体行业观察
2025-11-01
半导体行业观察
2025-11-01
半导体行业观察
2025-11-01
半导体行业观察
2025-11-01
证券之星资讯
2025-10-31
证券之星资讯
2025-10-31
证券之星资讯
2025-10-31