|

财经

LPU推理引擎获资金认可! 正面硬刚英伟达的Groq估值猛增 一年内几乎翻三倍

来源:智通财经

2025-09-18 11:27:22

(原标题:LPU推理引擎获资金认可! 正面硬刚英伟达的Groq估值猛增 一年内几乎翻三倍)

智通财经APP获悉,聚焦于AI芯片的初创公司Groq在当地时间周三证实,该初创公司经历新融资后估值大约69亿美元,在新一轮融资中筹集了7.5亿美元。该公司乃“AI芯片霸主”英伟达(NVDA.US)的最大竞争对手之一,论竞争对手们AI芯片领域的市场规模,可能仅次于美国芯片巨头博通与AMD。

这一最新的融资数据可谓高于7月融资传闻流出时的数字。当时有不少媒体报道称,本轮融资约为6亿美元,估值接近60亿美元。

与英伟达的最大营收与利润贡献业务部门——数据中心业务类似,Groq聚焦于向全球各大数据中心以及企业平台销售最核心AI算力基础设施——AI芯片集群,曾于2024年8月以28亿美元估值融资6.4亿美元,最新的融资也使得该AI芯片初创公司的估值在短短的一年内翻了两倍多。

PitchBook的预测数据显示,Groq今年迄今已累计融资超过30亿美元,融资规模堪比Anthropic等AI超级独角兽。

LPU从技术路线角度来看,是为推理场景定制的 AI ASIC,而非通用GPU,该公司将系统形态GroqCard/GroqNode/GroqRack,明确归类为定制推理ASIC。

Groq是何方神圣?

Groq 之所以在全球资本市场炙手可热,主要因为其致力于打破份额高达90%的AI芯片超级霸主英伟达对科技行业AI算力基础设施的强势控制。

Groq所开发的芯片并非通常为AI训练/推理系统提供动力的AI GPU。相反,Groq将其称为 LPU(language processing units,语言处理单元),并称其硬件为“推理引擎”——专为极速高效率运行AI大模型而优化的专用高性能推理型计算机,从技术路线来看和博通AI ASIC以及谷歌TPU属于同类AI芯片技术路线。

其产品面向开发者和企业,既可作为云计算算力服务提供,也可作为本地部署的硬件集群提供。Groq本地硬件聚焦于本地AI服务器机架,配备其集成硬件/软件节点的堆栈。云端与本地硬件均可运行风靡全球AI大模型的所有更新迭代版本,例如来自 Meta、DeepSeek、Qwen、Mistral、Google和OpenAI所开发的AI模型。Groq表示,其LPU产品在成本显著低于核心替代方案的情况下,能够保持,或在某些情况下意外提升AI大模型推理运行效率。

Groq 的创始人Jonathan Ross 在AI芯片领域堪称“超级技术大拿”。Ross曾经在美国科技巨头谷歌的芯片开发部门从事其Tensor Processing Unit(即所谓“TPU”)芯片的完整开发,该类AI ASIC路径的芯片是谷歌为高负载AI计算任务专门设计的专用高性能处理器。

谷歌TPU于2016年发布,与Groq走出行业隐身期是同一年。谷歌TPU算力集群已经成长为给谷歌云平台Google Cloud 的AI训练/推理算力服务提供核心动力的硬件体系,在谷歌数据中心的规模仅次于英伟达AI GPU算力集群。

谷歌近日披露了Ironwood TPU(TPU v6)的最新细节,展现出令人瞩目的性能提升。与TPU v5p相比,Ironwood的峰值FLOPS性能提升足足10倍,功效比提升5.6倍,与谷歌2022年推出的TPU v4相比,Ironwood的单芯片算力提升甚至超过16倍。

性能对比显示:谷歌Ironwood的4.2 TFLOPS/瓦功效比仅略低于英伟达B200/300 GPU的4.5 TFLOPS/瓦。摩根大通评论称:这一性能数据突出表明,先进AI的专用AI ASIC芯片正快速缩小与处于市场领先地位AI GPU的性能差距,推动超大规模云计算服务商加大对于更具性价比的定制化ASIC项目的投资。

Groq表示,目前其为超过200万名开发者的AI应用提供算力集群支持,而在该公司一年前接受TechCrunch 采访时,这一数字仅仅为大约35万名开发者。

据了解,该AI芯片初创公司的新一轮融资由投资公司 Disruptive 领投,全球资管巨头BlackRock,以及Neuberger Berman、Deutsche Telekom Capital Partners 等参投。还包括三星(Samsung)、思科(Cisco)、D1和Altimeter 在内的现有投资者也参与了本轮融资。

专心聚焦于AI推理领域的LPU

Groq的LPU是为推理(尤其是大语言模型 LLM 推理)而生的专用加速器,核心架构是Groq自主开发的 TSP(Tensor Streaming Processor,张量流式处理器):以静态、可预测(deterministic)的流式数据通路替代传统AI GPU的“线程/内核/缓存”范式,强调低延迟、稳定时延与小批量高吞吐。

Groq所开发的LPU芯片采用大容量片上SRAM(约 220MB),超高片上带宽(官方资料示例至 80TB/s),并以编译器在时间与空间上显式调度算子与数据流,几乎不依赖硬件中的“反应式”部件(如缓存/仲裁器/回放机制)。

通过 TSP 流式、静态可预测的编译时调度+ 片上高带宽SRAM供算,在低/零批量 LLM 推理里,LPU提供相较AI GPU集群更低的时延、更稳定的吞吐与潜在更高的能效/交付效率。但在大模型训练、动态工作负载与生态完整度方面,聚焦于通用的GPU集群仍具系统性优势。

值得注意的是,对于那些深度聚焦“AI大模型训练”与“超大批量吞吐”的综合型AI工作负载,英伟达AI GPU生态(CUDA/高带宽显存/NVLink等)仍全面占优,LPU的优势主要在交互式/实时推理与低延迟的LLM推理算力工作负载。

尤其在batch 很小(甚至 batch=1)的 LLM 场景,LPU 不需要“堆 batch 才跑得满”,单位芯片的 tokens/s 更高、调度开销更低,能满足交互式产品对“快回话”的要求。Groq的LPU在大容量片上 SRAM直接供算,官方资料展示片上带宽可达 80TB/s,而 GPU 需频繁访问片外 HBM,因此LPU大幅减少“算存”往返,能够提高AI大模型运行效率并具备极高的能效比。LPU确定性执行带来更平滑的功耗曲线,配合精简数据路径,推理每token的能耗更低,有报道称 LPU 在等效推理上功耗约为常见GPU的三分之一。

因此,AI ASIC虽然无法全面大规模取代英伟达,但是市场份额势必将愈发扩张,而不是当前英伟达AI GPU一家独大局面。在可标准化的主流推理与部分训练(尤其是持续性长尾训练/微调)上,定制化AI ASIC 的“单位吞吐成本/能耗”显著优于纯GPU方案;而在快速探索、前沿大模型训练与多模态新算子试错上,英伟达AI GPU仍是主力。因此当前在AI工程实践中,科技巨头们愈发倾向采用“ASIC 扛常态化、GPU 扛探索峰值/新模型开发”的混合架构来最小化 TCO。

证券之星资讯

2025-09-18

首页 股票 财经 基金 导航