来源:半导体行业观察
2025-05-06 09:04:26
(原标题:Sambanova裁员,放弃训练芯片)
如果您希望可以时常见面,欢迎标星收藏哦~
来源:本文编译自zach,谢谢。
四月下旬,资金最雄厚的AI芯片初创公司之一SambaNova Systems大幅偏离了最初的目标。与许多其他AI芯片初创公司一样,SambaNova最初希望为训练和推理提供统一的架构。但从今年开始,他们放弃了训练的雄心,裁掉了15%的员工,并将全部精力放在AI推理上。而且,他们并非第一家做出这种转变的公司。
2017 年,Groq 还在吹嘘他们的训练性能,但到了2022 年,他们完全专注于推理基准。Cerebras CS-1 最初主要用于训练工作负载,但CS-2 和后来的版本将重点转向了推理。SambaNova 似乎是第一代 AI 芯片初创公司中最后一个仍然认真专注于训练的公司,但这种情况终于发生了变化。那么,为什么所有这些初创公司都从训练转向了推理呢?幸运的是,作为 SambaNova 的前员工(指代本文作者zach,该作者自称 2019 年至 2021 年期间在 SambaNova Systems 工作),我(指代本文作者zach,下同)有一些内部人士的见解。
SambaNova 非常重视在其硬件上训练模型。他们发布了关于如何在硬件上进行训练的文章,吹嘘其训练性能,并在官方文档中讨论了训练问题。包括我在内的许多分析师和外部观察家都认为,SambaNova 凭借单芯片同时满足推理和训练市场的需求,相较于 Groq 等竞争对手拥有独特的优势,而 Groq 是最早转向推理领域的初创公司之一。
SambaNova 还投入了大量时间和精力来实现高效的训练。我在 2019 年至 2021 年期间在公司工作,花费了大量时间为NAdam 优化器实现内核,NAdam 优化器是一种基于动量的优化器,常用于训练大型神经网络。我们针对训练设计和优化了硬件和软件功能,公司内部和外部的信息都表明,对训练的支持是我们价值主张的关键组成部分。
现在,SambaNova 突然放弃了大部分工作,转而专注于推理。我认为他们这样做主要有三个原因:推理是一个更容易解决的问题;推理可能比训练拥有更大的市场;以及英伟达在 AI 训练芯片领域的绝对主导地位。
推理是一个更容易、更大的市场
许多分析师认为,人工智能推理的市场规模可能是人工智能训练市场的十倍。直观地说,这是有道理的。通常,你只训练一次模型,然后使用该模型进行许多次推理。每次运行推理的成本远远低于模型的整个训练过程——但如果你使用同一个模型运行推理足够多次,它就会成为服务该模型的主要成本。如果人工智能的未来是少数几个大型模型,每个模型都具有相当大的推理量,那么推理市场将使训练市场相形见绌。但如果许多组织最终训练自己的定制模型,这种未来可能不会实现。
但即使推理最终不会成为比训练更大的市场,也有一些技术原因使得推理对于 AI 芯片初创公司来说更容易应对。在训练模型时,你需要在该模型中运行大量训练数据,在模型运行过程中收集梯度信息,并使用这些梯度来更新模型的权重。这个过程使模型能够学习。它也极其占用内存,因为你需要缓存所有这些梯度以及其他值,例如模型的激活值。
因此,为了高效地进行训练,需要一个复杂的内存层次结构,其中包含片上 SRAM、封装内 HBM 和片外 DDR。AI初创公司很难获得 HBM ,也很难将 HBM 集成到高性能系统中——因此,许多 AI 芯片(如Groq和d-Matrix)不具备高效训练大型模型所需的 HBM 或 DDR 容量或带宽。推理则不存在这个问题。在推理过程中,梯度无需存储,激活函数使用后即可丢弃。这大大减少了推理作为工作负载的内存占用,并降低了仅用于推理的芯片所需的内存层次结构的复杂性。
另一个挑战是芯片间联网。训练过程中生成的所有梯度都需要在训练过程中使用的每个芯片上同步。这意味着你需要一个庞大、复杂、全对全的网络才能高效地进行训练。另一方面,推理是一种前馈操作,每个芯片只与推理流水线中的下一个芯片通信。 许多初创公司的AI芯片的网络功能有限,这使得它们不太适合用于训练所需的全连接性,但足以应付推理工作负载。另一方面,英伟达非常出色地解决了AI训练所需的内存和网络挑战。
Nvidia 非常擅长训练
自2012 年 AlexNet 发布以来,Nvidia 一直是推理和训练的首选硬件。由于 CUDA 赋予 GPU 的多功能性,它们能够执行训练和推理所需的所有操作。在过去十年中,Nvidia 不仅专注于构建针对机器学习工作负载的超优化芯片,还一直在优化其整个内存和网络堆栈,以支持大规模训练和推理。
由于每个芯片上都拥有大量的 HBM ,Nvidia 硬件能够轻松高效地缓存每个训练步骤生成的所有梯度更新。借助NVLink等纵向扩展技术和Infiniband等横向扩展技术,Nvidia 硬件能够处理在每个训练步骤完成后更新大型神经网络所有权重所需的全对全网络 (all-to-all) 连接。而Groq和d-Matrix等仅专注于推理的竞争对手则缺乏与 Nvidia 在训练领域竞争所需的内存和网络能力。
但SambaNova 芯片确实有 HBM。SambaNova芯片在服务器级和机架级都拥有点对点网络。为什么它们不能像 Nvidia 那样处理训练问题呢?
事实证明,Nvidia 不仅拥有 HBM 和网络技术来提升训练性能。他们在低精度训练方面投入了大量精力,而顶级人工智能实验室也投入了大量精力来调整算法超参数,使其能够更好地适应 Nvidia 低精度训练硬件的特定复杂性。从 Nvidia 芯片转向 SambaNova 芯片进行训练,需要修改极其敏感的训练代码,以便在全新的硬件上运行,这会带来一系列全新的隐患。对于大型 GPT-4 规模的模型来说,这样做的成本和风险是巨大的。
SambaNova 转向推理领域证明,即使一家 AI 芯片初创公司能够提供与英伟达竞争的内存和网络能力,也不足以在训练市场上与这家巨头抗衡。如果一家初创公司想在训练领域挑战英伟达,他们需要提供令人瞩目的训练性能,从而克服英伟达在训练市场的惰性。而到目前为止,还没有人能够做到这一点。
https://www.zach.be/p/why-is-sambanova-giving-up-on-ai
半导体精品公众号推荐
专注半导体领域更多原创内容
关注全球半导体产业动向与趋势
*免责声明:本文由作者原创。文章内容系作者个人观点,半导体行业观察转载仅为了传达一种不同的观点,不代表半导体行业观察对该观点赞同或支持,如果有任何异议,欢迎联系半导体行业观察。
今天是《半导体行业观察》为您分享的第4025期内容,欢迎关注。
『半导体第一垂直媒体』
实时 专业 原创 深度
公众号ID:icbank
喜欢我们的内容就点“在看”分享给小伙伴哦
大众证券报
2025-05-06
半导体行业观察
2025-05-06
半导体行业观察
2025-05-06
半导体行业观察
2025-05-06
半导体行业观察
2025-05-06
半导体行业观察
2025-05-06