来源:半导体行业观察
2025-09-19 09:31:38
(原标题:华为一口气发布多款芯片)
公众号记得加星标,第一时间看推送不会错过。
来源 : 内容来自半导体行业观察综合 。
在今天开幕的华为全联接大会2025上,华为徐直军做了“以开创的超节点互联技术,引领AI基础设施新范式”为题的演讲。徐直军首先重申了华为于2025年8月5日在北京专门举办的昇腾产业峰会上提出的四个观点:
一、华为坚持昇腾硬件变现;
二、CANN 编译器和虚拟指令集接口开放,其它软件全开源,CANN基于Ascend 910B/C的开源开放将于2025年12月31日前完成,未来开源开放与产品上市同步;
三、Mind系列应用使能套件及工具链全面开源,并于2025年12月31日前完成;
四、openPangu基础大模型全面开源。
“尽管DeepSeek开创的模式可以大幅减少算力需求,但要走向AGI、要走向物理AI,我们认为,算力,过去是,未来也将继续是人工智能的关键,更是中国人工智能的关键。其中,算力的基础是芯片,昇腾芯片是华为AI算力战略的基础。
自2018年发布Ascend 310芯片,2019年发布Ascend 910芯片,到2025年,Ascend 910C芯片随着Atlas 900超节点规模部署,华为昇腾的进展令人关注。为此。在今天的演讲中徐直军斩钉截铁地说:“昇腾芯片将持续演进,为中国乃至世界的AI算力构筑坚固根基。”
据介绍。未来3年,华为在开发和规划了三个系列,分别是Ascend 950系列,包括两颗芯片:Ascend 950PR和Ascend 950DT,以及Ascend 960、Ascend 970系列,更多具体芯片还在规划中。下面我分别介绍快要推出的和已规划的4颗昇腾芯片。
其中,Ascend 950系列是华为正在开发、且即将推出的芯片。与前一代昇腾芯片相比,Ascend 950 在以下几个方面实现了根本性提升:
第一,新增支持业界标准FP8/MXFP8/MXFP4等低数值精度数据格式,算力分别达到1P和2P,提升训练效率和推理吞吐。并特别支持华为自研的HiF8,在保持FP8的高效的同时,精度非常接近FP16。
第二,大幅度提升了向量算力。这主要通过三个方面实现:其一,提升向量算力占比;其二,采用创新的新同构设计,即支持 SIMD/SIMT 双编程模型,SIMD能够像流水线一样处理“大块”向量,而SIMT便于灵活处理“碎片化”数据;其三,把内存访问颗粒度从512字节减少到128字节,内存访问更精细,从而更好地支持了离散且不连续的内存访问。
第三,互联带宽相比Ascend 910C提升了2.5倍,达到2TB/s。
第四,结合推理不同阶段对于算力、内存、访存带宽及推荐、训练的需求不同。
“我们自研了两种HBM,分别是:HiBL 1.0和HiZQ 2.0。不同的自研HBM与Ascend 950 Die合封,分别构成芯片Ascend 950PR:面向Prefill和推荐场景,以及Ascend 950DT:面向Decode和训练场景。”徐直军说。
据介绍,950的第一颗芯片是Ascend 950PR,主要面向推理Prefill阶段和推荐业务场景。
谈及这颗芯片的定位,徐直军表示:随着Agent的快速发展,输入上下文越来越长,首Token输出阶段占用计算资源越来越多。其次是在电子商务、内容平台、社交媒体等业务应用中,要求推荐算法具有更高的准确度和更低的时延,对计算能力的需求也越来越大。推理Prefill阶段和推荐算法都是计算密集型,对计算并行的能力要求高,但对内存访问带宽的需求相对低。通过分级内存解决方案,推理Prefill阶段和推荐算法对本地内存容量的需求相对也不高。Ascend 950PR 采用了华为自研的低成本HBM,HiBL 1.0,相比高性能、高价格的HBM3e/4e,能够大大降低推理Prefill阶段和推荐业务的投资。
据透露,这颗芯片将在2026年一季度推出,首先支持的产品形态是标卡和超节点服务器。
至于Ascend 950DT,相比Ascend 950PR,它更注重推理Decode阶段和训练场景。由于推理Decode阶段和训练对互联带宽和访存带宽要求高,华为开发了HiZQ 2.0,使内存容量达到144GB,内存访问带宽达到4TB/s。同时把互联带宽提升到了2TB/s。其次,支持了FP8/MXFP8/MXFP4/HiF8数据格式。
Ascend 950DT 将在2026年Q4推出。
第三颗是在规划中的芯片Ascend 960。据介绍,该芯片在算力、内存访问带宽、内存容量、互联端口数等各种规格上相比Ascend 950翻倍,大幅度提升训练、推理等场景的性能;同时还支持华为自研的HiF4数据格式。是目前业界最优的4bit精度实现,能进一步提升推理吞吐,并且比业界FP4方案的推理精度更优。
Ascend 960将在2027年四季度推出。
最后一颗是还在规划中的Ascend 970。据介绍,这颗规格还在讨论的芯片的总体方向是在各项指标上大幅度升级,全面升级训练和推理性能。“目前的初步考虑是,相比Ascend 960,Ascend 970的FP4算力、FP8算力、互联带宽要全面翻倍,内存访问带宽至少增加1.5倍。Ascend 970计划在2028年四季度推出。大家届时可以期待它的惊人表现。”徐志军说表示。
徐直军总结说,在昇腾芯片方面,华为将以几乎一年一代算力翻倍的速度,同时围绕更易用,更多数据格式、更高带宽等方向持续演进,持续满足AI算力不断增长的需求。
相比Ascend 910B/910C,从Ascend 950开始的主要变化包括:
引入SIMD/SIMT新同构,提升编程易用性;
支持更加丰富的数据格式,包括FP32 /HF32 /FP16/BF16/FP8/MXFP8/HiF8/MXFP4/HiF4等;
支持更大的互联带宽,其中950系列为2TB/s,970系列提升到4TB/s;
支持更大的算力,FP8算力从950系列的1 PFLOPS提升到960的2 PFLOPS、970的4 PFLOPS;FP4算力从950的2 PFLOPS提升到960的4 PFLOPS、970的8 PFLOPS;
内存容量逐渐加倍,而内存访问带宽将翻两番。
如徐直军所说,有了昇腾芯片为基础,华为就能够打造满足客户需求的算力解决方案。从大型AI算力基础设施建设的技术方向看,超节点已经成为主导性产品形态,并正在成为AI基础设施建设的新常态。超节点事实上就是一台能学习、思考、推理的计算机,物理上由多台机器组成,但逻辑上以一台机器学习、思考、推理。随着算力需求的持续增长,超节点的规模也在持续、快速增大。
今年3月份,华为正式推出了Atlas 900超节点,满配支持384卡。因为是超节点,这384颗Ascend 910C芯片,能够像一台计算机一样工作,最大算力可达300 PFLOPS。到目前为止,Atlas 900依然是全球算力最大的超节点。大家经常听到的CloudMatrix384超节点,是华为云基于Atlas 900超节点构建的云服务实例。Atlas 900超节点自上市以来,已经累计部署超过300套,服务20多个客户,涵盖互联网、电信、制造等多个行业。可以说,Atlas 900于2025年,开启了华为AI超节点的征程。
现在,结合已经推出或正在研发中的昇腾芯片,华为将为大家带来更多超节点和集群产品。现在进入今天最激动人心的时刻,就是新产品的发布。其中,基于Ascend 950DT打造的Atlas 950超节点,就是今天发布的第一款产品。
据介绍,Atlas 950超节点支持8192张基于Ascend 950DT的昇腾卡,是Atlas 900超节点的20多倍,我们习惯称呼的昇腾卡,每张卡对应一颗Ascend 950DT芯片,8192张昇腾卡等同于8192颗Ascend 950DT芯片。
Atlas 950超节点满配包括由128个计算柜、32个互联柜,共计160个机柜组成,占地面积1000平方米左右,柜间采用全光互联。总算力大幅度提升,其中,FP8算力达到8E FLOPS,FP4算力达到16E FLOPS。互联带宽达到16PB/s,这个数字意味着,Atlas 950一个产品的总互联带宽,已经超过今天全球互联网峰值带宽的10倍有余。
Atlas 950超节点的上市时间是:2026年四季度。
“我们很自豪的看到,Atlas 950超节点,至少在未来多年都将保持是全球最强算力的超节点,并且在各项主要能力上都远超业界主要产品。其中,相比英伟达同样将在明年下半年上市的NVL144,Atlas 950超节点卡的规模是其56.8倍,总算力是其6.7倍,内存容量是其15倍,达到1152TB;互联带宽是其62倍,达到16.3PB/s。即使是与英伟达计划2027年上市的 NVL576相比,Atlas 950超节点在各方面依然是领先的。”徐直军说。
他同时指出,该节点的算力、内存容量、内存访问速度、互联带宽等能力的大幅度增强,为大模型训练性能和推理吞吐带来显著提升。相比华为已经推出的Atlas 900超节点,Atlas 950超节点的训练性能提升17倍,达到4.91M TPS。通过支持FP4数据格式,Atlas 950超节点的推理性能提升达26.5倍,达到19.6M TPS。
徐直军强调,8192卡超节点并不是公司的终点,华为还在继续努力。今天发布的第二款超节点产品Atlas 960超节点就是其中一个成果。据介绍,该节点基于Ascend 960打造,最大可支持15488卡。Atlas 960超节点 由176个计算柜,44个互联柜,共220个机柜,占地面积约2200平方米。
Atlas 960超节点的上市时间是:2027年四季度。
伴随卡的规模的再次升级,Atlas 960超节点让我们在AI超节点的优势再度增强。基于Ascend 960,其总算力、内存容量、互联带宽在Atlas 950基础上再翻倍。其中,FP8总算力将达到30E FLOPS,而FP4总算力将达到60 EFLOPS;内存容量达到4460TB,互联带宽达到34PB/s。大模型训练和推理的性能相比Atlas 950超节点,将分别提升3倍和4倍以上,达到15.9M TPS 和80.5M TPS。
“通过Atlas 950和Atlas 960,我们对于为人工智能的长期快速发展提供可持续且充裕算力,充满信心。”徐直军说。
超节点已经重新定义AI基础设施的范式,但不仅仅局限于AI。在通用计算领域,华为同样认为,超节点技术能够带来很大的价值。从需求角度考虑,金融核心业务等目前仍然有部分承载在大型机和小型机之上,相比普通服务器集群,它们对服务器的性能和可靠性有更高的诉求,通用计算超节点在这两点上正好切合需求。从技术角度考虑,超节点同样可以为通算领域注入全新活力。
因此,鲲鹏处理器主要围绕支持超节点,更多核、更高性能等方向持续演进。同时,通过自研的双线程灵犀核,使鲲鹏处理器能方便支持更多线程。
2026年Q1,华为将推出Kunpeng 950处理器,包括两个版本,分别是:96核/192线程和192核/384线程;支持通用计算超节点;安全方面新增四层隔离,成为鲲鹏首颗实现机密计算的数据中心处理器。
2028年Q1,鲲鹏处理器将在芯片微架构、先进封装技术等领域持续突破关键技术,将再次推出两个版本,分别是高性能版本,96核/192线程,单核性能提升50%+,主要面向AI host、数据库等场景。以及高密版本,不少于256核/512线程,主要面向虚拟化、容器、大数据、数仓等场景。
在大会上,徐直军还发布了第三款产品——基于Kunpeng 950打造的TaiShan 950超节点。作为全球首个通用计算超节点,TaiShan 950最大支持16节点,32个处理器,最大内存48TB,同时支持内存、SSD、DPU池化。
据介绍,这款产品不只是通用计算领域的一次技术升级,除了大幅提升通用计算场景下的业务性能,还能帮助金融系统破解核心难题。当前大型机、小型机替换的核心挑战是数据库分布式改造,而基于TaiShan 950超节点打造的 GaussDB多写架构,无需改造,但性能提升2.9 倍,最终可平滑替代大型机、小型机上的传统数据库。TaiShan 950加上分布式GaussDB将成为各类大型机、小型机的终结者,彻底取代各种应用场景的大型机和小型机以及Oracle的Exadata数据库服务器。
除了核心数据库场景,TaiShan 950超节点在更广泛的场景里,表现也很亮眼:比如虚拟化环境的内存利用率提升20%,在Spark大数据场景,实时数据处理时间缩短30%。
TaiShan 950超节点上市时间是:2026年一季度,敬请期待。
“超节点的价值不仅仅体现在智算和通算传统业务领域。互联网产业广泛应用的推荐系统,正在从传统推荐算法向生成式推荐系统演进。我们可以基于TaiShan 950和Atlas 950打造成混合超节点,为下一代生成式推荐系统打开全新架构方向。”徐直军说。
一方面,通过超大带宽、超低时延互联以及超大内存,混合超节点构成超大共享内存池,支持PB级推荐系统嵌入表,从而支撑超高维度用户特征;另一方面,混合超节点的超大AI算力,能够支持超低时延推理和特征检索。因此,混合超节点是面向下一代生成式推荐系统的解决方案的全新选择。
大规模超节点把智算和通算的能力都推向新的高度,同时也对互联技术提出了重大挑战。作为联接领域的领导者,华为不惧挑战。徐直军表示,在定义和设计Atlas 950、Atlas 960两个超节点的技术规格时,华为遭遇到了互联技术的巨大挑战,这主要在两个方面:
第一,是如何做到长距离而且高可靠。大规模超节点机柜多,柜间联接距离长,当前电互联和光互联技术都不能满足需求。其中,当前的电互联技术在高速时联接距离短,最多只能支持两柜互联,而当前的光互联技术虽然可以把长距离的多机柜联接在一起,但无法满足可靠性需求。
第二,是如何做到大带宽而且低时延。当前跨柜卡间互联带宽低,和超节点的需求差距达5倍;跨柜的卡间时延大,当前互联技术最好只能做到3微秒左右,和Atlas 950/960设计需求仍然有24%的差距,当时延已经低至2~3个微秒时,已经逼近物理极限,哪怕0.1微秒的提升,挑战都很大。
基于三十多年构筑的技术能力,华为通过系统性创新,彻底解决了当前技术存在的问题,超标达成Atlas 950/960超节点的设计需求,使万卡超节点成为可能。
首先,为了解决长距离且高可靠问题,华为在互联协议的物理层、数据链路层、网络层、传输层等每一层都引入了高可靠机制;同时在光路引入了百纳秒级故障检测和保护切换,当出现光模块闪断或故障时,让应用无感;并且,华为重新定义和设计了光器件、光模块和互联芯片。这些创新和设计让光互联的可靠性提升100倍,且互联距离超过200米,实现了电的可靠和光的距离。
其次,为了解决大带宽且低时延问题,华为突破了多端口聚合与高密封装技术,以及平等架构和统一协议,实现了TB级的超大带宽,2.1微秒的超低时延。正是因为一系列系统性、原创性的技术创新,华为才攻克了超节点互联技术,满足了高可靠、全光互联、高带宽、低时延的互联要求,让大规模超节点成为了可能。
为了达成Atlas 950/960超节点对互联的技术要求,实现万卡超节点还能是一台计算机,华为开创了超节点架构并开创了新型的互联协议,能够支撑万卡级超节点架构。基于这个互联协议的超节点架构的核心价值主张是:万卡超节点,一台计算机,也就是说,通过该互联协议,把数万规模的计算卡,联接成一个超节点,能够像一台计算机一样工作、学习、思考、推理。
“万卡级超节点架构应该具备6大特征,分别是总线级互联、平等协同、全量池化、协议归一、大规模组网、高可用性。”徐直军总结说。基于这个思考,华为推出了一个面向超节点的互联协议“灵衢”(英文名称:UB——UnifiedBus)。
所谓“灵衢”,意味着类似九省通衢,实现大规模算力的联通。基于灵衢 1.0 的Atlas 900超节点自2025年3月开始交付,至今已商用部署300多套,灵衢1.0技术得到充分验证。在灵衢1.0的基础上,我们继续丰富功能,优化性能,提升规模,进一步完善了协议,形成了灵衢2.0,前面发布的Atlas 950超节点就是基于灵衢2.0。
徐直军表示,华为将把灵衢2.0开放,以更广泛地促进互联技术发展和产业进步,华为欢迎产业界伙伴基于灵衢研发相关产品和部件,共建灵衢开放生态。
“基于中国可获得的芯片制造工艺,我们努力打造“超节点+集群”算力解决方案,来持续满足算力需求。今天已经介绍了三个超节点产品。灵衢既为超节点而生,是面向超节点的互联协议,也是构建算力集群产品最优的互联技术。”徐志军说。
在集群产品,华为今天也带来两款产品,首先是Atlas 950 SuperCluster 50万卡集群!
据介绍,Atlas 950 SuperCluster集群由64个Atlas 950超节点互联组成,把1万多机柜中的52万多片昇腾950DT组成为一个整体,FP8总算力可达524 EFLOPS。上市时间与Atlas 950超节点同步,即2026年Q4。
在集群组网上,华为这个集群同时支持UBoE与RoCE两种协议,UBoE是把UB协议承载在以太网上,让客户能够利用现有以太交换机。相比传统RoCE,UBoE组网的静态时延更低、可靠性更高,交换机和光模块数量都更节省,所以,我们推荐UBoE。
相比当前世界上最大的集群 xAI Colossus,华为Atlas 950 SuperCluster集群的规模是其2.5倍,算力是其1.3倍,是当之无愧的全世界最强算力集群!无论是当下主流的千亿稠密、稀疏大模型训练任务,还是未来的万亿、十万亿大模型训练,超节点集群都可以成为性能强悍的算力底座,高效稳定地支持人工智能持续创新。
到2027年Q4,华为还将基于Atlas 960超节点,同步推出Atlas 960 SuperCluster,集群规模进一步提升到百万卡级,FP8总算力达到2 ZFLOPS!FP4总算力达到4 ZFLOPS。并且,它同样也支持UBoE与RoCE两种协议,在UBoE协议加持下,性能与可靠性同样更优,并且,静态时延和网络无故障时间优势进一步扩大,因此继续推荐UBoE组网。
通过Atlas 960 SuperCluster,华为将持续加速客户应用创新,探索智能水平新高。
“我们希望和产业界一起,以开创的灵衢超节点互联技术,引领AI基础设施新范式;以基于灵衢的超节点和集群持续满足算力快速增长的需求,推动人工智能持续发展,创造更大的价值。”徐直军最后说。
*免责声明:本文由作者原创。文章内容系作者个人观点,半导体行业观察转载仅为了传达一种不同的观点,不代表半导体行业观察对该观点赞同或支持,如果有任何异议,欢迎联系半导体行业观察。
今天是《半导体行业观察》为您分享的第4161期内容,欢迎关注。
加星标第一时间看推送,小号防走丢
求推荐
AI蓝媒汇
2025-09-19
半导体行业观察
2025-09-19
半导体行业观察
2025-09-19
半导体行业观察
2025-09-19
半导体行业观察
2025-09-19
半导体行业观察
2025-09-19
证券之星资讯
2025-09-19
证券之星资讯
2025-09-19
证券之星资讯
2025-09-19