来源:半导体行业观察
2025-10-15 10:50:45
(原标题:NVIDIA DGX Spark 评测:首款PC太酷了)
公众号记得加星标,第一时间看推送不会错过。
来 源: 内容来自servethehome 。
Nvidia 将其期待已久的 DGX Spark 标榜为“世界上最小的 AI 超级计算机”,售价为 3,000 至 4,000 美元(取决于配置和 OEM),您可能会期待这款基于 Arm 的迷你电脑的性能优于其价格较低的同类产品。
但这台机器远非英伟达产品线中速度最快的 GPU。它在大型语言模型 (LLM) 推理、微调甚至图像生成方面都无法胜过 RTX 5090——更不用说游戏了。DGX Spark 以及即将上市的一系列基于 GB10 的系统能够运行 5090 或目前市面上任何其他消费级显卡都无法运行的模型。
在本地 AI 开发方面,如果没有足够的 VRAM 来完成工作,那么世界上所有的 FLOPS 和内存带宽都于事无补。任何在消费级显卡上尝试过机器学习工作负载的人都会不止一次遇到 CUDA 内存不足的错误。
Spark 配备 128 GB 内存,是 Nvidia 产品线中所有工作站 GPU 中内存最大的。Nvidia 使用 LPDDR5x 实现了这一内存,虽然与 Nvidia 50 系列使用的 GDDR7 相比速度慢了不少,但这意味着这台小小的 TOPS 处理器可以对多达 2000 亿个参数的模型进行推理,或者对多达 700 亿个参数的模型进行微调,当然,两者的精度均为 4 位。
通常情况下,这类工作负载需要多个高端 GPU,成本高达数万美元。Nvidia 通过牺牲一些性能和带宽来换取更大的容量,构建了一个系统,它或许不是单项速度最快的,但却能运行所有工作负载。
Nvidia 并非首个构建此类系统的公司。苹果和 AMD 已经拥有搭载大量 LPDDR5x 和宽内存总线的机器,这些机器在 r/locallama 子版块的成员中非常受欢迎。
然而,Nvidia 更看重的是,该系统的 GB10 与 Nvidia 当前其他 GPU 一样,基于相同的 Blackwell 架构。这意味着 Nvidia 可以利用近 20 年围绕 CUDA 运行时构建的软件开发经验。
当然,围绕 Apple Metal 和 AMD ROCm 软件堆栈的生态系统在过去几年中已经相当成熟,但是,当您花费 3K-4K 美元购买一台 AI 迷你电脑时,很高兴知道您现有的代码应该可以开箱即用。
请注意,DGX Spark 既有 Nvidia 版本,也有戴尔、联想、惠普、华硕和宏碁等 OEM 合作伙伴的定制版本。我们评测的 Nvidia Founder's Edition 标价 3,999 美元,配备 4TB 存储空间和镀金外壳。其他厂商的版本存储空间可能较小,价格也更低。
NVIDIA DGX Spark 硬件概述
Spark 的尺寸不仅要亲眼看到,更要亲身感受才能真正相信它的尺寸。它的尺寸是 150 毫米 x 150 毫米 x 50.5 毫米,看起来很酷。Sam 拍完照片后走过来对我说:“这是最酷的迷你电脑。” 简单说一下,我们当时正在拍摄三台 AMD Strix Halo 电脑,两台 GB10 系统(包括这台),一台带 PCIe 扩展坞的英特尔系统等等。我不得不说,我非常赞同他的观点。
前面有看起来像泡沫的东西,但实际上很硬并且可以让空气流通。
底部有一个很大的通风口和一个很大的橡胶垫。这些系统可以稳稳地放在桌子上。
系统的侧面和顶部都是平的。
它们的侧面和金属都是金色的,但我们只能说这些。
后部才是真正起作用的地方。从电源按钮到 I/O 端口,这里应有尽有。
左后方是电源按钮,然后是一个用于 USB PD 输入的 USB Type-C 端口。接下来是三个 USB 3 20Gbps Type-C 端口,支持 DisplayPort 备用模式。下一个端口是 HDMI 端口。关于一些显示方面的注意事项,或许值得一看我们的初期部分。
网络方面,我们获得了一个基于 Realtek 的 10GbE 端口。幸运的是,驱动程序自带 DGX 操作系统,所以我们无需安装。最大的亮点是 NVIDIA ConnectX-7 网卡。
最小的超级芯片
Spark 的核心是 Nvidia 的 GB10片上系统(SoC),顾名思义,它本质上是该公司价值数百万美元的机架系统中 Grace Blackwell 超级芯片的缩小版。
该芯片有两个芯片:一个用于 CPU,一个用于 GPU——均采用台积电的 3nm 工艺技术制造,并使用该晶圆厂的先进封装技术粘合。
与其更大的兄弟产品不同,GB10 不使用 Arm 的 Neoverse 核心。相反,该芯片是与联发科合作打造的,拥有 20 个 Arm 核心——10 个 X925 性能核心和 10 个 Cortex A725 效率核心。
与此同时,这款 GPU 基于与英伟达 50 系列其他产品相同的 Blackwell 架构。这家 AI 军火商声称,这款图形处理器能够提供 FP4 的 petaFLOP 计算能力。这听起来很棒,但要知道,能够同时利用稀疏性和 4 位浮点运算的工作负载并不多。
实际上,这意味着您从任何 GB10 系统中看到的最大值是 FP4 的 500 密集 teraFLOPS。
图形处理器和 CPU 均由 LPDDR5x 公共池供电,正如我们已经提到的,其总容量为 128 GB,可提供 273 GBps 的带宽。
初始设置
开箱即用,Spark 可以以两种模式使用:带有键盘、鼠标和显示器的独立系统,或作为可通过网络从笔记本电脑或台式机访问的无头配套系统。
对于我们的大多数测试,我们选择使用 Spark 作为独立系统,因为我们预计这是许多人选择与机器交互的方式。
设置很简单。连接 Wi-Fi、创建用户账户、设置时区和键盘布局等之后,我们就能看到一个轻度定制的 Ubuntu 24.04 LTS 版本。
如果你希望使用 Windows,那么你在这里找不到它。另一方面,该系统的任何 AI 特性和功能都与 Copilot 或其集成的间谍软件 Recall 无关。这也意味着,在 Steam 决定发布适用于 Linux 的 Arm64 客户端之前,你可能不会在它上面玩太多游戏。
Nvidia 对操作系统进行的大部分定制都是在后台进行的,包括驱动程序、实用程序、容器插件、Docker 以及至关重要的 CUDA 工具包。
即使在最好的情况下,管理这些也是一件令人头疼的事情,因此很高兴看到 Nvidia 花时间定制操作系统以减少初始设置时间。
话虽如此,这款硬件仍存在一些不足之处。许多应用程序尚未针对 GB10 的统一内存架构进行优化。在我们的测试中,这导致了许多尴尬的情况,例如 GPU 占用了大量内存,导致 Firefox 崩溃,甚至更糟的是,系统死机。
稍微降低进入门槛
Spark 面向各种机器学习、生成式人工智能和数据科学工作负载。虽然这些工作负载不再像以前那么深奥,但对于新手来说,理解起来仍然令人望而生畏。
DGX Spark 的一大卖点是其背后的软件生态系统。Nvidia 不遗余力地提供了文档、教程和演示,帮助用户快速上手。
这些指南采用简短、易于遵循的剧本形式,涵盖从 AI 代码助手和聊天机器人到 GPU 加速数据科学和视频搜索和摘要等主题。
这非常有价值,使得 Spark 和 GB10 系统感觉不像普通的迷你电脑,而更像是 AI 时代的 Raspberry Pi。
表现
Nvidia 的 GB10 系统能否提供与其 3,000 美元以上价格相符的性能和实用性,则完全是另一回事。为了找到答案,我们对 Spark 进行了一系列微调、图像生成和 LLM 推理工作负载测试。
经过几天的基准测试和演示,我们能用最贴切的词来形容 Spark,那就是它的 AI 版皮卡。当然,它也有速度更快或容量更大的版本可供选择,但对于你可能需要完成的大多数 AI 工作来说,它都能胜任。
微调
Spark 的内存容量对于微调特别有吸引力,微调是一个通过向模型展示新信息来教授模型新技能的过程。
即使是像 Mistral 7B 这样的小型 LLM 进行全面微调,也可能需要高达 100 GB 的内存。因此,大多数希望定制开放模型的人必须依赖 LoRA 或 QLoRA 等技术才能让工作负载在消费级卡上运行。即便如此,它们通常也只能处理相当小的模型。
使用 Nvidia 的 GB10,对 Mistral 7B 等型号进行全面微调是完全合理的,而 LoRA 和 QLoRA 可以对 Llama 3.3 70B 等型号进行微调。
考虑到测试时间有限,我们选择在价值一百万个标记的训练数据上对 Meta 的 30 亿参数 Llama 3.2 模型进行微调。
如您所见,凭借 125 teraFLOPS 的密集 BF16 性能,Spark 仅需一分半钟便可完成这项工作。
相比之下,我们的 48 GB RTX 6000 Ada(一年前售价约为 GB10 系统两倍的显卡)在不到 30 秒的时间内就完成了基准测试。
这并不太令人惊讶。RTX 6000 Ada 的性能几乎是密集 BF16 的 3 倍。然而,它已经突破了模型大小和序列长度的极限。使用更大的模型或增加每个训练样本的大小,在 Spark 开始陷入困境之前,该卡的 48 GB 容量就会成为瓶颈。
我们还尝试在 RTX 3090 TI 上运行基准测试,该显卡拥有高达 160 teraFLOPS 的密集 BF16 计算能力。理论上,该显卡应该能在一分钟多一点的时间内完成测试。可惜的是,由于只有 24 GB 的 GDDR6X 显存,它根本没有机会完成测试,很快就触发了 CUDA 内存不足错误。
如果您想了解有关 LLM 微调的更多信息,我们有一份六页的深入探讨该主题的文章,无论您使用的是 AMD 还是 Nvidia 硬件,它都可以帮助您快速入门。
图像生成
图像生成是另一个占用大量内存的工作负载。LLM 可以压缩到较低精度(例如 INT4 或 FP4),且质量损失几乎可以忽略不计,但扩散模型却不能。
对于此类模型来说,量化造成的质量损失更为明显,因此能够以其原生 FP32 或 BF16 精度运行它们是一个很大的优势。
我们在 BF16 上,通过流行的 ComfyUI 网页 GUI 启动 Black Forest Lab 的 FLUX.1 Dev 模型,对 DGX Spark 进行了测试。在这种精度下,120 亿参数模型至少需要 24 GB 的显存才能在 GPU 上运行。这意味着 RTX 3090 TI 再次出局。
从技术上讲,您可以将部分模型卸载到系统内存,但这样做可能会降低性能,尤其是在更高分辨率或批量大小的情况下。由于我们关注硬件性能,因此选择禁用 CPU 卸载。
当 ComfyUI 设置为 50 个生成步骤时,DGX Spark 再次不是明显的赢家,需要大约 97 秒才能生成图像,而 RTX 6000 Ada 则需要 37 秒。
但是,凭借 128 GB 的 VRAM,Spark 的功能远不止运行模型。Nvidia 的文档提供了使用您自己的图像对 FLUX.1 Dev 等扩散模型进行微调的说明。
该过程大约需要四个小时才能完成,占用了 90 GB 以上的内存,但最终,我们对模型进行了微调,使其能够生成 DGX Spark、玩具 Jensen 摇头娃娃或两者任意组合的可接受图像。
LLM推理
对于我们的 LLM 推理测试,我们使用了三种最流行的 Nvidia 硬件模型运行器:Llama.cpp、vLLM 和 TensorRT LLM。
我们所有的推理测试均采用 4 位量化技术进行,该技术将模型权重压缩至原始大小的约四分之一,同时将吞吐量提升至四倍。对于 Llama.cpp,我们使用了 Q4_K_M 量化技术。对于 vLLM 和 TensorRT LLM,我们选择了 NVFP4 或 MXFP4(如果使用 gpt-oss)。
大多数在 Spark 上运行 LLM 的用户不会同时向系统发出多个 API 请求,因此我们首先测量批次 1 推理性能。
在左侧,我们测量了每个测试模型的标记生成率。在右侧,我们记录了第一个标记的时间 (TTFT),用于衡量快速处理时间。
在模型运行器中,Llama.cpp 实现了最高的令牌生成性能,在几乎所有场景中都与 vLLM 和 TensorRT LLM 相匹配,甚至超越它们。
在快速处理方面,TensorRT 的性能明显优于 vLLM 或 Llama.cpp。
我们注意到,我们确实看到某些模型存在一些奇怪的行为,其中一些可以归因于软件不成熟。例如,vLLM 使用仅权重量化启动,这意味着它无法利用 GB10 张量核心中的 FP4 加速。
我们怀疑这就是为什么 vLLM 中的 TTFT 与 TensorRT 相比如此差劲的原因。随着 GB10 软件支持的改进,我们完全相信这一差距会大幅缩小。
上述测试是使用相对较短的输入和输出序列完成的,就像您在多轮聊天中看到的那样。然而,这实际上更像是一种最佳情况。随着对话的进行,输入会不断增加,给计算量很大的预填充阶段带来更大的压力,导致等待模型开始响应的时间更长。
为了了解 Spark 在上下文增长过程中的表现,我们测量了 gpt-oss-120B 在 4096 个 token 到 65,536 个 token 的不同输入大小下的 TTFT(X 轴)和 token 生成量(Y 轴)。本次测试我们选择使用 TensorRT,因为它在我们的批量测试中获得了最高的性能。
随着输入长度的增加,生成吞吐量下降,第一个标记的生成时间也随之增加,当达到 65,536 个标记时,生成时间超过 200 毫秒。这相当于大约 200 页双倍行距的文本。
对于如此小型的系统来说,这令人印象深刻,并展示了 Blackwell 架构上引入的原生 FP4 加速的性能优势。
堆叠Spark
对于可以适应 GPU 的 VRAM 的模型,其更高的内存带宽使它们在令牌生成性能方面具有优势。
这意味着,拥有 960 GBps 内存带宽的芯片生成令牌的速度将比 Spark 更快。但这只有在模型和上下文能够装入内存的情况下才成立。
当我们观察 RTX 6000 Ada、RTX 3090 TI 和 Spark 之间的性能差异时,这一点变得非常清楚。
随着模型参数超过 700 亿,除了最昂贵的工作站卡之外,内存带宽变得无关紧要,因为它们不再具有运行它们所需的内存容量。
当然,3090 TI 和 6000 Ada 都能以 4 位精度适配 Qwen3 32B 或 Llama 3.3 70B 等中等规模的模型,但留给上下文的空间却不多了。用于跟踪聊天等内容的键值缓存可能会消耗数十甚至数百 GB 的数据,具体取决于上下文窗口的大小。
多批次性能
LLM 的另一个常见应用场景是从大量文档中提取信息。在这种情况下,与其一次处理一个文档,不如分批处理(例如 4 个、8 个、16 个、32 个或更多)来加快处理速度。
为了测试 Spark 在批处理场景中的性能,我们要求使用 gpt-oss-120B 来处理 1,024 个tokens输入,并以从 1 到 64 的批次大小生成 1,024 个tokens响应。
X 轴表示完成批处理作业所需的时间(以秒为单位)。Y 轴表示每个批次大小下的总生成吞吐量。
在这种情况下,我们看到性能在批次 32 左右达到稳定状态,因为后续每个批次大小的完成时间都更长。这表明,至少对于 gpt-oss-120B 而言,Spark 的计算或内存资源在此时已达到饱和。
在线服务
虽然 Spark 显然是供个人使用的,但我们很容易看到一个小团队部署其中一个或多个作为推理服务器,用于在本地处理数据或文档。
与多批次基准测试类似,我们正在测量不同并发级别的性能指标,例如 TTFT、请求率和个人性能。
在四个并发用户的情况下,Spark 能够每三秒处理一个请求,同时保持每个用户 17 tok/s 的相对交互体验。
可以看到,机器能够处理的请求数量随着并发量的增加而增加。在并发请求数量达到 64 个时,机器能够将 TTFT 维持在 700 毫秒以下,但随之而来的是用户体验的下降,因为生成速率会骤降到 4 tok/s。
这告诉我们,在这种特定的工作负载下,Spark 拥有足够的计算能力来满足大量并发请求,但却因内存带宽不足而受到瓶颈限制。
话虽如此,即使每秒 0.3 个请求率也比您想象的要多得多,每小时可达 1,080 个请求 - 足以全天支持少数用户,并且速度减慢最少。
DGX Spark 的真正竞争对手
正如我们之前提到的,DGX Sparks 真正的竞争对手并非消费级 GPU,甚至也不是工作站 GPU。相反,像 Apple 的 M4 Mac Mini 和 Studio,或者基于 AMD Ryzen Al Max+ 395 的系统(您可能通过其名称 Strix Halo 认识)这样的平台才是最大的挑战。
这些系统都具有类似的统一内存架构和大量快速 DRAM。遗憾的是,我们目前还没有这些系统可供比较,因此我们只能比较速度和进给。即便如此,我们也没有完整的信息。
把 DGX Spark 放在这个背景下来看,基于 GB10 的系统 3,000-4,000 美元的标价听起来并不算太离谱。AMD 及其合作伙伴在价格上明显低于 Nvidia,但 Spark 至少在纸面上要快得多。
另一方面,拥有同等存储空间的 Mac Studio 价格要贵得多,但拥有更高的内存带宽,这将转化为更好的代币生成能力。此外,如果你有足够的资金在本地代币工厂购买,那么 M3 Ultra 版本最高可选配 512 GB 的内存。
然而,Spark 最大的竞争对手可能来自内部。事实证明,Nvidia 实际上打造了一款基于 Blackwell 处理器、性能更强大的迷你 PC,而且根据你的配置,价格甚至可能更低。
Nvidia 的 Jetson Thor开发套件主要设计为机器人开发平台。该系统拥有两倍的稀疏 FP4、128 GB 内存和 273 GBps 的带宽,售价 3,499 美元,比 DGX Spark 更物有所值。
Thor 的 I/O 带宽确实略低,它只有一个 100 Gbps QSFP 插槽,可以拆分成四个 25 Gbps 端口。Spark 集成的 ConnectX-7 网卡虽然很酷(我们还没有机会测试),但我们预计,许多考虑购买的人会很乐意放弃高速网络,而选择更低的厂商建议零售价。
总结
DGX Spark 是否适合您取决于几个因素。
如果你想要一个小型、低功耗的AI开发平台,可以兼顾生产力、内容创作或游戏系统,那么DGX Spark可能不适合你。你最好投资AMD的Strix Halo或Mac Studio之类的产品,或者等几个月,直到Nvidia的GB10超级芯片最终出现在Windows系统中。
但是,如果您主要关注机器学习,并且正在寻找相对实惠的 AI 工作站,那么有一些选项可以像 Spark 一样满足您的需求。
*免责声明:本文由作者原创。文章内容系作者个人观点,半导体行业观察转载仅为了传达一种不同的观点,不代表半导体行业观察对该观点赞同或支持,如果有任何异议,欢迎联系半导体行业观察。
今天是《半导体行业观察》为您分享的第4195期内容,欢迎关注。
加星标第一时间看推送,小号防走丢
求推荐
半导体行业观察
2025-10-15
半导体行业观察
2025-10-15
半导体行业观察
2025-10-15
半导体行业观察
2025-10-15
半导体行业观察
2025-10-15
半导体行业观察
2025-10-15
证券之星资讯
2025-10-15
证券之星资讯
2025-10-15
证券之星资讯
2025-10-15