|

财经

DeepSeek效应席卷,AI芯片厂商的机会和分化

来源:21世纪经济报道

媒体

2025-02-13 21:31:31

(原标题:DeepSeek效应席卷,AI芯片厂商的机会和分化)

21世纪经济报道记者骆轶琪 广州报道 

DeepSeek极低成本的推动下,开源模型和闭源模型的差距显著缩小,也掀起一轮国产AI芯片厂商竞相适配风潮。

21世纪经济报道记者综合观察发现,大约自2月1日开始,国产头部AI芯片厂商先后宣布实现与DeepSeek旗下不同模型陆续展开适配工作。据不完全统计,目前有不少于20家国内厂商参与其中。

AI芯片市场主要包含CPU、GPU、ASIC、FPGA等不同类型芯片,在AI对大规模并行计算的需求下,GPU芯片需求快速攀升,由此带来英伟达业绩和股价的双重飙升。但DeepSeek的出现,象征着AI推理侧成本正在快速下探,由此将拉动更为广阔的应用市场涌现。

这意味着,不仅限于GPU芯片,在AI推理侧有细分优势的ASIC、FPGA等芯片也将有丰富的发展机会。此外,国产AI芯片厂商恰恰在AI推理领域有更多能力沉淀,因此多名业内人士对记者表示,这有望推动国内厂商有机会在推理侧与英伟达抢占一定份额。

但是,此前DeepSeek多采用英伟达GPU系列芯片,更多适配CUDA生态,国产芯片如何在此条件下撬动更多份额,这又是否会为英伟达的市场带来挤压?都是业内的关注焦点。

国产芯片齐聚

伴随DeepSeek席卷全球而来的,是国内芯片厂商的涌动。2月以来,多家国内AI芯片厂商密集宣布,与DeepSeek不同规格模型陆续完成适配。

例如,2月2日,Gitee AI称上线1.5B、7B、14B、32B四个尺寸的DeepSeek R1模型,并均部署在国产沐曦曦云GPU上。2月5日,Gitee AI又宣布,经测试已确认DeepSeek-V3全精度满血版(671B)可以成功运行在沐曦训推一体GPU上,并将V3满血版上线到平台上。

2月4日,天数智芯称在与Gitee AI协作下,用时一天完成与DeepSeek R1的适配工作,上线1.5B、7B、14B规格大模型服务。2月9日,天数智芯称,DeepSeek R1-Distill-Qwen(1.5B/7B/14B/32B)、DeepSeek R1-Distill-Llama(8B/70B)等多款不同参数模型服务已经在各大平台上线。

2月6日,燧原科技完成对DeepSeek全量模型适配,包括DeepSeek-R1/V3 671B原生模型、DeepSeek-R1-Distill-Qwen-1.5B/7B/14B/32B、DeepSeek R1-Distill-Llama-8B/70B等蒸馏模型。

综合观察这些厂商的表述不难发现,“适配速度”是尤其被重视的指标。率先被适配的是模型参数量偏小的蒸馏模型,MoE基础模型的适配时间显然会更长。

这背后其实透露出,国内AI芯片厂商在试图证实,自身在AI生态适配方面的速度和实力。

对比来看,英伟达GPU芯片目前被全球广泛使用,大有垄断态势,背后源自其构建了三大护城河:硬件GPU芯片+软件CUDA生态+NV Link连接。国产芯片要在GPU领域加速发展渗透,生态建设就是重要一环,生态的完善程度,一定程度决定了AI芯片的能力是否可以被充分释放以及应用落地速度。

但CUDA生态已发展十多年,在这一层面要很快完成追赶显然不容易,目前国产芯片厂商中,有的选择自主架构、先从垂直应用领域着手构建生态,有的则兼容CUDA生态来推动发展。

海光信息就指出,因其DCU芯片采用了GPGPU通用加速计算架构,DeepSeek模型可直接在DCU上运行,并不需要大量适配工作,技术团队的主要工作是进行精度验证和持续的性能优化。

“众多国产AI芯片厂商与DeepSeek的快速适配潮是中国芯片实现国际化突击的第一步。”CIC灼识咨询高级咨询顾问张笑璐对记者分析道,DeepSeek对于中国AI芯片厂商的利好非常确定,通过与DeepSeek合作,中国芯片厂商加速了深度学习框架和分布式训练适配,推动了中国“国产算力+国产大模型”闭环生态。

她进一步指出,过去中国AI芯片的核心挑战是英伟达GPU和其CUDA生态在全球AI训练芯片领域的统治地位。而DeepSeek的出现,通过模型蒸馏技术和高效的算法优化,降低模型对于硬件算力要求。同时DeepSeek通过专家混合系统(MoE)、多头潜在注意力机制(MLA)和RMSNorm核心组件,并采用专家共享机制、动态路由算法和潜在变量缓存技术,在模型保持高性能水平的同时降低计算开销,以实现在有限计算资源的情况下的高效运行。

“性能表现角度来看DeepSeek推理任务表现与OpenAI媲美,甚至在部分任务有所领先。这使得国产AI芯片在推理端可以快速实现商业化,同时说明了用国产AI芯片替换英伟达GPU是非常可行的。”张笑璐总结道。

当然她也指出,训练端国产芯片与英伟达的差异依然存在,在更复杂的模型训练场景下,国产芯片还需提升。此外也有挑战,中国AI芯片生态碎片化问题还需要进一步统一,来提升整体开发效率,降低开发成本。

AI推理风起

在DeepSeek带动下,近日来,包括OpenAI、豆包、百度等巨头也证实了推理侧成本正在快速下降的现实。

张笑璐对21世纪经济报道记者分析,DeepSeek训练成本的大幅下降打破了行业更高训练成本与更好的模型/产品性能表现的局限,因此行业关注点更多从过去决定下限的训练环节,转向现在能够确定上限的推理环节。对于下游行业来说,中算力的玩家也能够在DeepSeek的助力下实现性能提升。

通常来说,被广泛采用的英伟达GPU芯片早期多被用于AI大模型训练,但到了推理阶段,考虑到不同厂商的诉求差异,更多应用类厂商都开始着力开发自己的AI推理芯片,多为定制化ASIC芯片。

海外云服务厂商谷歌、Meta、亚马逊等在近期发布财报过程中都或多或少提到了自研推理芯片的业务进展。例如谷歌借助自研TPU芯片Trillium系列,加速搜索引擎能力优化;Meta借助自研芯片MTIA系列强化社群算法和广告分发能力等。

对此,TrendForce集邦咨询分析师龚明德对记者分析,“预期在DeepSeek驱动下,将促使CSP(云服务商)业者更积极投入较低成本的自有ASIC方案,并从AI Training(训练)重心转往AI Inference(推理)。展望2028年,其占比预期将逐渐提升至五成。

在此发展态势下,他认为,这将有望带动国内各行业(如车用、电商、互联网及各种基建等)的AI推理芯片开发或相关业者发展商机。然而,仍面临主要挑战在于,无论AI芯片硬件或软件方面,均需投入相当的成本或时间累积。

不过这由此引发ASIC芯片是否会抢占AI芯片整体市场中GPU芯片的地位。根据21世纪经济报道记者综合了解,业内普遍认为并非如此,应该说,ASIC芯片和GPU芯片是在共同“做大蛋糕”,而非“分食”。

TrendForce集邦咨询分析师邱珮雯对21世纪经济报道记者指出,从AI芯片来看,未来市场GPU与ASIC会同时并存。云端业者除了采用英伟达GPU以外,也在积极研发自身ASIC芯片,除了针对自身应用定制化以外,还能降低对英伟达芯片的依赖度,同时降低支出成本。

“ASIC芯片的成本优势可能会逐步显现。”张笑璐也认为,尽管ASIC在某些特定推理场景中会持续蚕食GPU的市场份额,但不会导致GPU需求的总体下降。“在需要大规模部署和严格功耗控制的应用场景中,GPU依然会在更多通用计算任务中保持强劲需求,尤其是在多任务和多场景的计算需求下。两者的市场需求可能不会简单地‘互相替代’,而是将互为补充。

另据21世纪经济报道记者了解,目前在大模型能力适配方面,国内AI芯片厂商更强于AI推理侧,但是在有更大规模集群计算需求的AI训练侧则还有差距。这也是DeepSeek多款模型更适配这些厂商能力的原因。

考虑到DeepSeek此前多适配英伟达旗下芯片,国内厂商要承接其生态是否面临门槛?

张笑璐告诉21世纪经济报道记者,从模型架构通用性看,DeepSeek模型基于Transformer架构,是诸多领域模型的基础,因此适配并非难题。在软件生态部分,部分国产芯片兼容 CUDA,可复用TensorFlow/PyTorch生态资源、加快适配,也有实力厂商也能自研软件栈优化性能。

“目前国内厂商多进行了推理的适配,推理计算需求较低,可通过优化内存和指令集适配。而训练适配的要求更高,涉及分布式计算和梯度同步,国产芯片大多仍依赖英伟达 GPU,训练适配是难点。”她续称。

fund

证券之星资讯

2025-02-13

证券之星资讯

2025-02-13

首页 股票 财经 基金 导航