|

财经

一颗芯片,叫板英伟达

来源:半导体行业观察

2025-10-02 09:18:54

(原标题:一颗芯片,叫板英伟达)

公众号记得加星标,第一时间看推送不会错过。


来源 : 内容 编译自 hpcwire 。

如今,Nvidia 并不缺乏竞争对手。其中之一就是韩国芯片初创公司 FuriosaAI,该公司凭借其独特的张量收缩处理器 (TCP) 半导体架构备受关注,该架构是其全新 RNGD AI 加速卡的基础。正如 FuriosaAI 的首席执行官向HPCwire解释的那样,该公司正寻求通过 TCP 的高效设计来提升 AI 性能优势。

FuriosaAI由前三星和AMD工程师June Paik 于 2017 年在首尔创立,他预见到用于运行深度学习工作负载的专用芯片市场正在兴起。2021 年,该公司推出了第一代神经处理单元 (NPU),由三星制造,采用 14 纳米工艺。该芯片在 MLPerf 基准测试中的良好表现令客户兴奋不已,其中包括韩国云计算集团 Kakao,该公司已将其用于计算机视觉 AI。

首席执行官 Paik 在 2021 年看到了OpenAI使用 GPT-3 在大型语言模型 (LLM) 方面所做的工作,因此他的团队启动了一个为期三年的研发项目,开发其第二代芯片 RNGD(或“Renegade”),该芯片针对生成式 AI 和语言模型。RNGD 由台积电采用 5nm 工艺制造,目前正在向客户提供样品。

每张 RNGD 卡配备 48GB HBM3 显存,每秒 1.5 TB 的显存带宽,可提供 512 TFLOPS 的 FP8 性能,同时功耗最高仅为 180 瓦。据 Paik 介绍,他的 PCIe 卡兼具性能、能效和可编程性的三重优势,而这正是客户一直以来难以通过基于 GPU 的解决方案实现的。

随着公司致力于第三代设计,它正在寻求推出基于其 RNGD 卡的完整系统,例如 NXT RNGD 服务器。上周,FuriosaAI 宣布 NXT RNGD 服务器将配备八张 RNGD 卡,使其拥有总计 384 GB 的 HBM3 内存、每秒 12 TB 的内存带宽,并在 3 kW 的热设计功率 (TDP) 额定功率下提供 4 petaFLOPS 的 FP8 性能。

FuriosaAI 表示,其 RNGD 卡和系统与传统 GPU 和基于 GPU 的系统相比具有优势。Nvidia于 2022 年推出的Nvidia H100 GPU 并非 Nvidia 的最新 GPU,但它常用于 AI 推理,而这正是 FuriosaAI RNGD 和 NXT RNGD 服务器的目标市场。

Nvidia H100 配备 80GB HBM2 显存,提供每秒 2 TB 的显存带宽和 1513 TFLOPS 的峰值性能。PCIe 版本的 TDP 额定值为 350 瓦,使用 Nvidia 专有插槽扩展模块 (SXM) 的版本则高达 700 瓦。

据 FuriosaAI 称,在运行大型语言模型和按每瓦计算时,RNGD 的性能比 Nvidia 高出三倍。

Paik 表示,关键在于高效地提供高性能。要实现高性能和低功耗,不仅需要从零开始开发芯片和配套硬件,还需要从零开始开发软件堆栈和编译器。

“关键的创新在于基础架构,它与通用 GPU 的传统架构截然不同,从一开始就与我们的编译器和软件堆栈共同设计,”Paik 说道。“我们没有依赖 GPU 的矩阵乘法(这是一种低级的二维运算),而是以张量收缩作为基本基元进行构建。张量收缩是深度学习的原生高级语言。”

FuriosaAI 首席技术官 Hanjoon Kim 在6 月份的一篇博客文章中写道,张量收缩处理器 (TCP) 架构的秘诀在于如何最大限度地减少数据移动。

Kim 写道: “对于所有芯片架构(包括 CPU、GPU 和我们的 TCP 设计),在 DRAM 和芯片处理元件之间传输数据 比执行计算本身消耗的能量要多得多(多达10,000 倍)。”

这意味着,为了高效地实现人工智能算法,芯片必须通过重用已存储在片上存储器中的数据来最大限度地减少数据移动。如果数据可以被划分为可预测、可重复的模式或片段,通常就可以多次使用(例如,通过采用单个权重矩阵并计算与多个不同输入的点积)。

Paik 表示,TCP 架构提高了抽象层,从而有助于克服传统 GPU 架构中导致数据移动浪费的根本限制。

Paik 告诉我们:“我们设计 RNGD 就是为了消除这种能耗。我们的内部架构采用电路交换提取网络,以确保灵活且高吞吐量的数据访问,从而实现跨计算单元的广泛数据重用。这种方法最大限度地减少了外部内存传输,最大限度地提高了利用率,并提供了可预测的性能。”

开发人员可以通过 PyTorch 的原生即时编译器与 FuriosaAI 合作。该公司提供与 OpenAI 兼容的 API,用于部署和服务模型,并补充说,它支持 Kubernetes,是开源 vLLM 框架的直接替代品。Paik 表示:“对于要求绝对最低延迟的专业用户,我们提供了一个低级 API,允许开发人员直接在我们的硬件上优化他们的专有模型。”

FuriosaAI 表示,其每瓦性能优势已使其获得众多客户采用,其中包括 LG AI Research,该公司在其 EXAONE AI 模型上测试了该卡。该团队得出的结论是,与之前的 GPU 解决方案相比,RNGD 能够在每个机架上提供约 3.5 倍的tokens。

Paik 表示:“由于大多数数据中心机架的功率限制在 15kW 以下,我们的低功耗技术是一项关键突破。这意味着客户可以在标准机架中安装更强大的计算能力,与高功率 H100 GPU 服务器相比,每个机架的tokens数量可增加约 3.5 倍。这种卓越的密度和效率可直接转化为显著的运营成本节省和更低的总体拥有成本 (TCO)。

另一家测试 RNGD 的机构是韩国的 OpenAI 团队。OpenAI 的 Danial Mirza 表示,他对最近的测试感到满意。Mirza 在LinkedIn 的一篇帖子中写道:“能够与 FuriosaAI 才华横溢的团队合作,将这个演示变为现实,我深感荣幸。” “在我们首尔新办公室的启用仪式上,我们展示了在 Furiosa 旗舰 RNGD 加速器上实时运行的 gpt-oss 120B 模型,这标志着我们的模型首次在韩国芯片上运行。这是一个重要的里程碑,展示了世界级人工智能与世界级硬件创新相遇时所能创造的奇迹。”

该公司的努力引起了云计算巨头的关注。据《福布斯》报道,Facebook 母公司Meta在今年早些时候曾表示有意收购 FuriosaAI 。然而,这家在圣克拉拉设有办事处的公司最终决定单干,并于 7 月底完成了 1.25 亿美元的 C 轮过桥融资,使总融资额达到 2.46 亿美元。

FuriosaAI 还进行了一些人才招聘,包括聘请韩国科学技术院(KAIST ) 的并行系统专家 Jeehoon Kang 担任首席研究官,领导编译器和软件研究。此外,该公司还聘请了硅片和 SoC 专家 Youngjin Cho,他曾担任三星公司副总裁,现任硬件副总裁,将负责加速公司的芯片开发。

Paik 告诉我们:“我们目前专注于与全球少数重要的战略客户达成最终的设计协议,而不是优先考虑产量。继今年夏天完成 1.25 亿美元的过桥融资后,我们正在加大 RNGD 的量产力度,以便在 2026 年初扩大全球客户参与度。”

https://www.hpcwire.com/2025/09/30/the-fast-and-the-furiosaai-korean-chip-startup-takes-aim-at-nvidia-gpus-with-tensor-contraction-architecture/

*免责声明:本文由作者原创。文章内容系作者个人观点,半导体行业观察转载仅为了传达一种不同的观点,不代表半导体行业观察对该观点赞同或支持,如果有任何异议,欢迎联系半导体行业观察。

今天是《半导体行业观察》为您分享的第4182期内容,欢迎关注。

加星标第一时间看推送,小号防走丢

求推荐

半导体行业观察

2025-10-02

半导体行业观察

2025-10-02

半导体行业观察

2025-10-02

半导体行业观察

2025-10-02

半导体行业观察

2025-10-02

半导体行业观察

2025-10-02

证券之星资讯

2025-09-30

首页 股票 财经 基金 导航