来源:半导体行业观察
2025-07-22 09:01:14
(原标题:AI时代的RISC-V芯片:奕行智能的破局之道)
公众号记得加星标⭐️,第一时间看推送不会错过。
7月16日,第五届RISC-V中国峰会在上海张江科学会堂成功举办。奕行智能联合创始人、COO杨宜博士在峰会发表了题为《RISC-V与虚拟指令技术结合打造创新的计算架构》的主题演讲。
杨宜博士开篇直言:“AI的发展改变了软件编程的范式。”随后,他引述OpenAI创始成员Andrej Karpathy此前在一场演讲中的观点“Software 3.0(软件3.0)时代已经到来”。
杨宜介绍到,Software 1.0 时代是由人类用编程语言编写机器能懂的代码的时代,这是过去 70 年软件开发的主流形态;Software 2.0 则是以神经网络为核心,我们通过设计神经网络结构、准备数据集、训练参数来构建能解决问题的程序。至于软件3.0,则是在大语言模型的崛起的大背景下,软件开发范式的根本性变革。
“软件3.0中,自然语言提示Prompts正在取代传统编程代码,LLM成为新的编程接口。这标志着软件构建、交互和构思方式的根本性转变。”杨宜总结说,“这也倒逼着硬件3.0阶段的加速到来。”
新时代需要新芯片
正如杨宜所说,软件1.0时,众所周知,CPU是占主导地位的硬件。
“软件2.0呢,是神经网络,从AlexNet到ResNet到transformer-based大模型,编程范式是:定义网络模型结构、灌输数据、训练确定参数;而使用软件,变成了用网络模型做具体的推理任务。这种计算范式让擅长控制的标量计算型的CPU难以应对了,为并行运算而设计的GPU粉墨登场。”杨宜在演讲中说道。
在软件3.0时代,我们看到以transformer为基础结构的各种大模型的快速发展, 并出现了在此基础上的各种多专家稀疏算法创新。相之对应的,我们看到为此加速的DSA架构越来越多的成为主流,包括谷歌的TPU…,甚至英伟达的Hopper和Blackwell里的TME,都是用DSA来加速transformer模型及各种融合算子的手段。同时,大模型引入了更大尺寸的矩阵乘加运算,也需要更大的Tensor core。
对于什么是好的硬件3.0,不同的人有不同的观点。在杨宜看来,硬件3.0首先需要解决一个核心矛盾,就是领域内的专用效率和编程通用性的矛盾。
“AI计算是领域特定范式,但是我们不能只追求它的计算效率或者说算力利用率,因为我们同时还在面临海量编程客户以及模型多样化等挑战,所以这两者必须要有平衡,而不能说只是一味的去关注DSA计算效率而忽略了通用性,这也成为了我们首要解决的难题。”杨宜在演讲中说。
在弄清楚需求以后,接下来的任务就是去打造适合的AI处理器。这时候,新的问题又产生了。按照杨宜在演讲中的总结,这个阶段面临的问题归纳如下几点:
1
AI计算架构设计耗时长:从零开始构造AI计算架构不但需要需要较长的时间,还涉及复杂的技术决策与优化过程;
2
指令系统打磨时间久:从零开始构造一套经过产品与生态认可的指令系统需要大量时间进行验证与完善;
3
AI编译软件落地周期久:从零开始构造后端编译软件并达到成熟可商用水平,需经历长时间的调试和优化;
4
生态兼容难题:自主构建的指令系统需获得广泛生态支持,这一过程也存在较高的门槛与不确定性;
奕行智能的破局之道
在杨宜看来,RISC-V的开放性、模块化设计、可灵活定制专用AI加速指令集,可以极大的帮助到构建DSA;其精简架构降低了芯片设计门槛,助力企业快速迭代。因此,奕行智能选择RISC-V + RVV作为公司的关键计算架构。
“奕行智能以RISC-V为架构创新的底座。其开放指令集允许定制AI专用扩展,RVV可变长向量指令可以直接适配张量计算,向量掩码机制直接支持稀疏矩阵运算。更关键的是,日益成熟的生态优势:LLVM、GCC等主流编译器已支持RISC-V,主流AI框架正积极适配RISC-V平台。为我们产品的快速落地提供了有力支撑”,杨宜介绍道。
“同时,指令集是设计计算架构中的核心环节,是发挥硬件性能和保持软件通用性的关键。”
如杨宜所说,最简单的的方式就是用固化的ASIC,其优势是针对单一算法专用性强 / 能效高,但劣势是一旦有新的模型算法产生,ASIC则无法适配或性能较低;我们也可以用带有领域专用语义的高层次粗颗粒度指令来做这件事情,其优势是单条指令可完成复杂操作,简化了软件设计的复杂度,但伴之而来的算子数量多,若全部指令化的面积开销大等挑战也是不容忽视的;我们还可以使用低层次细颗粒度微指令来实现,这种设计的优势是可图灵完备、灵活性高,可实现复杂的算法逻辑,但劣势是指令数量多,调度开销大,软件开发周期长。
有见及此,奕行智能推出了一个叫做VISA(Virtual Instruction Set Architecture:虚拟指令集架构),并推出了了一个名为“EVAMIND”的内核。
据介绍,VISA是EVAS独创的用于AI计算架构里介于AI编译器与后端编译之间的中间层,它既是一套软件的中间层封装,又是在EVAS内核硬件中真实乱序发射的宏指令,是通过在硬件ISA之上抽象出一套统一的虚拟ISA。
杨宜表示,VISA的作用是AI计算架构的发展中三个难于解决的关键问题:
1
硬件与算子及编译器等软件栈深度耦合,互相制约演进 ;
2
AI处理器设计过程中难以兼顾通用于专用;
3
AI编译中的中间表达(IR)下降过程中,从Tensor到细粒度SIMD太过陡峭导致优化机会丧失。
“EVAS的架构中通过在VISA中用细粒度的硬件指令,来实现粗粒度的VISA算子,VISA算子内使用软件流水、循环展开等方式进行性能优化,对于每个VISA算子,实现优秀性能,而AI编译的上层部分则只需要关注VISA算子这个层级,减少了指令发射的难度。”杨宜接着说。
通过VISA与RISCV微指令的融合使用,EVAS的架构设计具备了以下特点:
1
在DSA内不同异构的计算与数据操作单元之间是乱序调度的具备Tensor语义的虚拟指令(VISA),保持了在AI领域内的专用属性;
2
在计算单元内部结合RVV将VISA宏指令的分解与执行成细颗粒且图灵完备的微指令;
“这里虚拟指令是由标量核硬件真实发射的宏指令,但在其内部是经过高效优化实现的软内核。通过这种软硬结合的方式使得在保证AI计算专用效率的同时对提升用户的编程体验。”杨宜说。
如上图所示,奕行智能基于这个架构构建了EVAMIND内核。据介绍,在这个内核中,标量引擎负责整个系统的协调和控制;VISA调度器,能保证粗粒度宏指令的编排和乱序发射;张量引擎则负责专门处理矩阵运算和张量计算;4D加速引擎负责核内外的数据搬运以及随路激活、reduce及4维矩阵变换与各种转置操作;此外,RISC-V RVV向量引擎提供了AI专用的硬件扩展,保证细粒度微指令的高效执行。
基于这个内核,奕行智能即将推出新一代的智算产品。
杨宜介绍说,即将将推出的芯片支持了INT4、INT8、FP8、FP16、BF16等多种浮点和定点数据类型,也支持了大模型特需的混合精度计算。尤其是在对FP8/INT4原生支持方面,让该方案获得了2到4倍计算吞吐提升。此外,该支持多种并行及流水掩盖计算方式,实现计算资源的极致利用率。
“作为一家致力于提供前沿的AI计算架构和高效能并行计算解决方案的通用计算芯片设计公司,奕行智能希望能以先进的计算架构、编译器软件工具为核心技术,通过RISC-V开放指令集生态提供新一代通用和专用计算加速解决方案,推动自动驾驶、具身智能和其它端-边-云行业应用的可持续发展,并最终为人类AGI时代的进步贡献力量。”杨宜在演讲最后展望道。
*免责声明:本文由作者原创。文章内容系作者个人观点,半导体行业观察转载仅为了传达一种不同的观点,不代表半导体行业观察对该观点赞同或支持,如果有任何异议,欢迎联系半导体行业观察。
今天是《半导体行业观察》为您分享的第4102期内容,欢迎关注。
加星标⭐️第一时间看推送,小号防走丢
求推荐
黑鹰光伏
2025-07-22
黑鹰光伏
2025-07-22
半导体行业观察
2025-07-22
半导体行业观察
2025-07-22
半导体行业观察
2025-07-22
半导体行业观察
2025-07-22
证券之星资讯
2025-07-22
证券之星资讯
2025-07-22
证券之星资讯
2025-07-22