来源:半导体行业观察
2025-10-26 11:17:14
(原标题:清华大学 集成电路学院在 MICRO 2025 成功举办“Ventus:基于 RISC-V 的高性能开源 GPGPU”学术教程)
当地时间2025 年 10 月 18 日下午,在韩国首尔举办的第 58 届国际微体系结构会议 (IEEE/ACM International Symposium on Microarchitecture, MICRO 2025)学术教程(Tutorial)时段,清华大学集成电路学院何虎老师和其团队成功组织了一场主题为“Ventus: A High-performance Open-source GPGPU Based on RISC-V and Its Vector Extension”学术教程。
本次教程由 8 场教程报告和一个实践演示环节组成,全面且深入地介绍了清华大学在开源 GPGPU“乘影”(Ventus) 项目上的最新研究成果,涵盖了从 GPGPU 顶层设计理念、微架构实现、缓存与内存子系统、AI 加速单元,到软件编译器、工具链、差分验证框架以及 FPGA 原型验证的全栈技术细节。
教程内容纲要如下:
01
Ventus GPGPU 项目总览 (Project Overview)
Ventus GPGPU 项目总览 (Project Overview) 清华大学集成电路学院副教授何虎老师发表了开篇演讲。他系统介绍了 Ventus (乘影) GPGPU 项目的发起初心、关键技术要点、团队发展历程、未来研究目标以及开源社区建设计划。何老师向与会者简要介绍了乘影 GPGPU 在指令集(ISA)、硬件架构、编译器、仿真器及验证工具等方面的完整布局。
02
GPGPU 设计哲学、指令集与核心架构
(GPU Design Philosophy & ISA & Core Architecture)
GPGPU 设计哲学、指令集与核心架构 (GPU Design Philosophy & ISA & Core Architecture) 清华大学集成电路学院博士生马鸣远从现代处理器的指令、数据、线程三个并行维度出发,深入阐明了 GPGPU 作为硬件多线程 SIMD 处理器的本质。他详细讨论了 SIMT (单指令多线程) 硬件在指令设计中需解决的核心问题,并阐述了 Ventus GPGPU 如何在 RISC-V Vector 扩展的基础上,构建一个功能完备的 GPGPU 基座。报告进一步介绍了 Ventus ISA 的几个重要设计方面,以及包括 CTA 调度器、Core pipeline、warp scheduler 等核心组件的 Chisel 开源版本微架构实现。
03
Ventus GPGPU 缓存子系统与 MMU 设计 (Ventus GPGPU Cache Subsystem and MMU)
Ventus GPGPU 缓存子系统与 MMU 设计 (Ventus GPGPU Cache Subsystem and MMU) 清华大学集成电路学院博士生孙浩楠系统介绍了乘影 GPGPU 的缓存子系统与内存管理模块 (MMU) 设计。该设计在 RISC-V RVWMO 内存模型下,采用了基于释放一致性引导的缓存一致性机制 (RCC),通过快通路 (fast-path) 与稳健通路 (robust-path) 的分工,兼顾了低延迟与全局正确性。微架构层面,L1D 缓存采用分级 MSHR/WSHR/SMSHR 与 RTAB 机制实现高效的非阻塞访问;原子单元紧耦合 L2 缓存,并扩展 TL-UH/精简 TL-UL 通道以高效处理 LR/SC 与 AMO 操作。虚拟内存部分,系统配置了多级 TLB 并结合辅助跳级结构优化页表遍历。测试数据显示,该设计在保证功能正确性的同时,将 MMU 开销控制在 15%–25% 之间,并获得了超过 95% 的 L1 DTLB 命中率和超过 85% 的 L2 TLB 命中率。
04
适配 Ventus GPGPU 的多精度可复用张量核心 (A Multi-Precision Reusable Tensor Core Design)
适配 Ventus GPGPU 的多精度可复用张量核心 (A Multi-Precision Reusable Tensor Core Design) 清华大学集成电路学院博士生刘威介绍了专为 AI 负载优化设计的 Ventus GPGPU 新一代多精度张量核心 (Tensor Core)。该设计支持从 FP16 到 INT4,以及 MX FP8/FP6/FP4 等多种新兴数据精度,并兼容 OCP MX 细粒度量化标准,实现了灵活高效的矩阵乘法计算。Tensor Core 采用硬件资源复用设计,通过异质乘法器的动态复用,高效支持多种精度切换并节省硬件面积。架构上结合了双缓冲与流水线设计,使内存与计算能力高度匹配,逼近 Roofline 模型的理论性能最优... ...点。该单元同时支持多尺寸 MMA (Matrix Multiply-Accumulate) 计算 (如 m16n16k16, m32n8k32) 并集成了 2:4 稀疏加速技术。基准测试表明,集成 Tensor Core 后,特定负载的指令数与执行周期数分别实现了 69.1% 与 68.4% 的显著优化。
05
GVM:面向 Ventus GPGPU 的实用化差分验证框架 (GVM: A Practical Differential Verification Framework)
GVM:面向 Ventus GPGPU 的实用化差分验证框架 (GVM: A Practical Differential Verification Framework) 清华大学集成电路学院硕士生谢文轩介绍了 GVM (GPU Verification Model) 框架。GVM 是一款面向 Ventus GPGPU 的指令级软硬件协同差分验证框架,通过将 RTL (DUT, Design Under Test) 与定制化的指令集模拟器 (ISS, Instruction Set Simulator) (REF, Reference Model) 进行差分比较。该框架为解决 GPGPU 指令乱序完成带来的验证挑战,在 SIMT 语义下引入了软件 ROB (Re-Order Buffer) 并进行状态比对。GVM 以 Warp 为粒度,支持可配置的 retire 指令集合、比对范围、按需单指令比对与 Next-PC 核对,并对 barrier、指令拼接与原子操作等特殊语义提供了专门处理。GVM 已成功接入 Ventus 软件栈,可由 OpenCL 程序直接调用,有效发现了多处细微 BUG,显著缩短了调试周期。
06
适用于 Ventus GPGPU 的 Triton 与 OpenCL 编译器 (Triton and OpenCL Compilers for Ventus GPGPU)
适用于 Ventus GPGPU 的 Triton 与 OpenCL 编译器 (Triton and OpenCL Compilers for Ventus GPGPU) 兆松科技 CTO 伍华林博士介绍了乘影 GPGPU 的软件栈设计,重点讨论了 OpenCL 编译器的实现考量以及 Triton AI 算子库编译器的设计。目前,乘影 GPGPU 支持 OpenCL 2.0 profile,已通过超过 85% 的 OpenCL conformance test。伍博士分析了 OpenCL 相较于 CUDA 在生态和高性能函数库方面的挑战,并提出基于 Triton 的 AI 算子库是解决当前困局的有效路径。乘影 GPGPU 可借助 Triton 生态,使 ML 工程师能以更友好的方式开发高效算子。兆松科技利用其在 MLIR 和 LLVM 编译技术的长期积累,为乘影 GPGPU 打造了完整的 MLIR+LLVM 模型/算子库到硬件指令翻译优化的端到端解决方案。
07
Ventus GPGPU 工具链设计
(Toolchain Design for Ventus OpenGPGPU)
Ventus GPGPU 工具链设计 (Toolchain Design for Ventus OpenGPGPU) 清华大学工程师孔荔介绍了 Ventus GPGPU 工具链的设计理念。该工具链包含 Compiler、Runtime、Driver、Simulator 等核心模块,实现了 OpenCL API 接口和统一的设备控制,并支持自定义指令与 GPGPU 组件模拟。工具链的功能稳定性通过了 OpenCL-CTS (整体通过率约 85%) 与 Rodinia 等基准测试集的 核心验证,实现了从硬件验证到上层程序运行的全流程支持。
08
动手实践:Ventus GPGPU 仿真与 FPGA 验证 (Hands-on Demo)
动手实践:Ventus GPGPU 仿真与 FPGA 验证 (Hands-on Demo) 教程的最后环节为实践演示。清华大学集成电路学院硕士生王俣翰通过交互式的 Jupyter 网页,为初次接触乘影 GPGPU 的开发者提供了入门级指导,详细介绍了项目开源仓库 (https://github.com/THU-DSP-LAB/ventus-env) 的组件构成、全套项目的自行部署方法,以及在功能/时序/RTL 仿真器上运行 OpenCL 程序的流程与功能设置。
随后,清华大学集成电路学院硕士生陈笑川展示了基于 FPGA 的 Ventus GPGPU 实现与验证。团队构建了两个层次的 FPGA 验证平台:基础层是在 VCU128 FPGA 上部署的自包含验证系统,以 MicroBlaze 软核为控制单元,集成了 Ventus GPGPU 核心 (1SM 8warp 16thread@50MHz),通过 JTAG 接口加载测试程序;进阶层则展示了主流神经网络推理等关键测试在 FPGA 上的实际运行,构成了从核心功能验证到实际应用加速的全流程硬件验证方案。
本次学术教程系统性地展示了清华大学在 RISC-V 开源 GPGPU 领域的全栈式研究布局与深入探索,受到了与会学者和业界专家的广泛关注与积极讨论。
清华大学集成电路学院在MICRO 2025
成功举办“Ventus:基于RISC-V的
高性能开源GPGPU”学术教程
2025年10月18日,在韩国首尔举办的第58届国际微体系结构会议(MICRO 2025)的学术教程环节中,清华大学集成电路学院何虎老师及其团队成功组织了一场题为《Ventus:基于RISC-V及其向量扩展的高性能开源GPGPU》的专题教程,系统展示了团队在开源通用图形处理器(GPGPU)领域的全栈研究成果,引起国际学术界与工业界的广泛关注。
本次教程由8场专题报告和一场实践演示组成,全面介绍了清华大学“乘影”(Ventus)GPGPU项目的设计理念、硬件架构、软件工具链及验证体系,覆盖从指令集、微架构、缓存与内存管理、AI加速单元,到编译器、差分验证框架与FPGA原型系统的完整技术链条。
何虎老师在项目总览报告中介绍了Ventus项目的发起背景、关键技术路径与开源社区建设规划,展现了项目在指令集、硬件设计、编译工具和验证平台等方面的完整布局。
在核心架构方面,博士生马鸣远从指令、数据与线程三个并行维度出发,深入剖析了GPGPU作为硬件多线程SIMD处理器的本质,并阐述了Ventus如何在RISC-V Vector扩展基础上构建完整的SIMT(单指令多线程)架构,介绍了包括CTA调度器、warp调度器在内的核心微架构设计。
缓存子系统与内存管理单元(MMU)由博士生孙浩楠详细讲解。该设计在RISC-V RVWMO内存模型下采用释放一致性引导的缓存一致性机制(RCC),通过快通路与稳健通路的协同,兼顾性能与正确性。测试数据显示,该MMU设计在保持功能正确的同时,实现了L1 DTLB命中率超95%,L2 TLB命中率超85%。
针对AI负载优化,博士生刘威介绍了Ventus新一代多精度可复用张量核心(Tensor Core),支持从FP16到INT4乃至MX FP8/FP6/FP4等多种精度,并集成稀疏加速技术。基准测试显示,集成该模块后,特定负载的指令数与执行周期分别优化了69.1%与68.4%。
在验证与软件生态方面,硕士生谢文轩介绍了团队开发的GVM差分验证框架,有效解决了GPGPU指令乱序完成带来的验证挑战。兆松科技CTO伍华林博士则分享了基于MLIR与LLVM的OpenCL与Triton编译器设计,助力Ventus支持现代AI算子开发。工程师孔荔进一步介绍了工具链的整体架构,涵盖编译、运行时、驱动与仿真器等模块,已通过OpenCL-CTS等测试验证。
教程最后设置了动手实践环节。硕士生王俣翰通过Jupyter交互环境演示了如何部署Ventus环境并运行OpenCL程序;硕士生陈笑川则展示了基于VCU128 FPGA的硬件验证平台,成功运行了向量加法、高斯消元和MNIST推理等关键测试,完成了从仿真到实际硬件加速的全流程验证。
本次教程是清华大学集成电路学院在RISC-V与GPGPU交叉领域系统性研究能力的一次集中展示,标志着我国在开源高性能计算架构方面取得了重要进展,为全球开源硬件社区注入了新的活力。
*免责声明:本文由作者原创。文章内容系作者个人观点,半导体行业观察转载仅为了传达一种不同的观点,不代表半导体行业观察对该观点赞同或支持,如果有任何异议,欢迎联系半导体行业观察。
今天是《半导体行业观察》为您分享的第4205期内容,欢迎关注。
加星标第一时间看推送,小号防走丢
求推荐
黑鹰光伏
2025-10-26
半导体行业观察
2025-10-26
半导体行业观察
2025-10-26
半导体行业观察
2025-10-26
半导体行业观察
2025-10-26
半导体行业观察
2025-10-26
证券之星资讯
2025-10-24
证券之星资讯
2025-10-24
证券之星资讯
2025-10-24