(以下内容从开源证券《电子行业点评报告:国产Scale-up/Scale-out硬件商业化提速,聚焦AI运力产业投资机遇》研报附件原文摘录)
算力+存力+运力三位协同推动AI硬件能力,国产运力或成为当前发展重点
AI硬件能力在于三点:(1)算力:以GPU性能和数量决定。(2)存力:Transformer涉及大量重复的KV矩阵存储和调用,使用贴近GPU的超高带宽HBM缓存是当前主流方案。(3)运力:分为Scale up、Scale out和Scale across三个场景,分别对应节点内、节点间与数据中心间的高速通信和数据传输能力。
随GPU计算能力与HBM带宽的提升,运力的瓶颈将导致AI数据中心节点空置率高,GPU性能浪费。运力的发展将会带动整体AI数据中心运行效率提升,同时也将成为推动AI数据中心运算能力提升的重点。当下国产算力厂商发展如火如荼,存力方面华为与长鑫也逐步在HBM取得进展,因此,我们认为运力的发展也将成为下一个国产化攻坚的重点。
超节点+大集群推动运力市场规模迅速提升,公有与私有协议齐舞
当下传统算力架构已难以满足高效、低耗、大规模协同的AI训练需求,超节点成为趋势,其通过提升单节点计算能力,大幅带动了Scale up相关硬件需求,据Lightcounting,Scale up交换芯片已成为数据中心主力交换需求,并且持续增长,预计到2030年全球市场规模接近180亿美元,2022-2030期间年CAGR约为28%。另一方面,超大规模AI集群的建设需要横向推动大量节点之间的互联,带动Scaleout相关硬件需求,随着更大规模的集群逐渐出现,单一地区的电力资源成为瓶颈,于是跨数据中心的Scale across方案也将在未来逐步采用。
针对Scale up、Scale out分别有不同的通信协议,我们认为大厂自研私有协议+第三方与中小厂推动公有协议将成为未来的发展趋势。具体而言,Scale up层面英伟达NVlink、AMD Infinity Fabric(Ualink)与华为UB mesh是私有协议的代表,而博通所推动的SUE与行业历史悠久的PCIe是公有协议的代表。Scale out层面,英伟达Infiniband为私有,博通则致力于推动基于公有以太网的RoCE2,此外海外众多厂商还一起推动超级以太网联盟,成为Scale out新力量。
运力硬件国产化率极低,有望成为下一个高赔率的国产替代新方向
运力硬件主要涉及交换芯片与部分改善信号质量的数模混合芯片,国产自给率极低。以交换芯片为例,博通、Marvell占据全球商用交换芯片90%以上市场份额。从国产厂商进展而言,当下众多厂商已经完成产品量产,逐步走向商业化,如数渡科技自主设计的PCIe5.0交换芯片已经可以实现量产,当前正导入客户应用;此外,盛科通信面向大规模数据中心和云服务的Arctic系列也早在2023年年底给客户送样测试,因此,我们认为运力硬件相关公司正走向从产品化至商业化的快车道,国产替代空间广阔,有望逐步受益。
投资建议:
PCIe硬件受益标的:万通发展(数渡科技)、澜起科技等;
以太网硬件受益标的:盛科通信、中兴通讯、裕太微等;
风险提示:AI数据中心建设不及预期、产品迭代研发不及预期。
