来源:半导体行业观察
2025-02-28 11:15:29
(原标题:AI芯片的双刃剑)
如果您希望可以时常见面,欢迎标星收藏哦~
来源:内容编译自semiwiki,谢谢。
与传统软件编程不同,人工智能软件建模代表着一种变革性的范式转变,重塑了方法论,重新定义了执行过程,并推动了人工智能处理器要求的重大进步。
软件编程与人工智能建模:根本性的范式转变
传统软件编程
传统软件编程是围绕编写明确的指令(代码)来完成特定任务而构建的。程序员通过定义一组严格的规则来建立软件的行为,这使得这种方法非常适合可预测性和可靠性至关重要的确定性场景。随着任务变得越来越复杂,代码库的大小和复杂性通常会增加。
当需要更新或更改时,程序员必须手动修改代码——根据需要添加、更改或删除指令。此过程可以精确控制软件,但会限制其在没有程序员直接干预的情况下动态适应不可预见的情况的能力。
AI 软件建模
AI 软件建模代表了解决问题方法的根本性转变。AI 软件建模使系统能够通过迭代训练从数据中学习模式。在训练期间,AI 分析大量数据集以识别行为,然后在推理阶段应用这些知识来执行翻译、财务分析、医疗诊断和工业优化等任务。
人工智能利用概率推理根据概率做出预测和决策,从而能够处理不确定性并适应变化。通过不断使用新数据进行微调,可以提高准确性和适应性,使人工智能成为解决复杂现实挑战的有力工具。
人工智能系统的复杂性不在于编写的代码量,而在于模型本身的架构和规模。高级人工智能模型,例如大型语言模型 (LLM),可能包含数千亿甚至数万亿个参数。这些参数使用多维矩阵数学处理,精度或量化级别从 4 位整数到 64 位浮点计算。虽然核心数学运算,即乘法和加法 (MAC) 相当简单,但它们在大型数据集上执行数百万次,并且每个时钟周期内同时处理所有参数。
软件编程与人工智能建模:对处理硬件的影响
中央处理器 (CPU)
几十年来,用于执行软件程序的主要架构一直是 CPU,最初由约翰·冯·诺依曼于 1945 年提出。CPU 按顺序处理软件指令(一行接一行地执行代码),其速度受限于这种串行执行的效率。为了提高性能,现代 CPU 采用多核和多线程架构。通过将指令序列分解为更小的块,这些处理器将任务分配到多个内核和线程上,从而实现并行处理。然而,即使有了这些进步,CPU 的计算能力仍然有限,缺乏处理 AI 模型所需的巨大并行性。
最先进的 CPU 的计算能力达到几 GigaFLOPS,高端服务器的内存容量达到几 TB,内存带宽峰值达到每秒 500 GigaBytes。
人工智能加速器
克服 CPU 限制需要大规模并行计算架构,能够在单个时钟周期内对大量数据执行数百万个基本 MAC 操作。
如今,图形处理单元 (GPU) 已成为 AI 工作负载的支柱,这要归功于其无与伦比的大规模并行计算能力。与针对通用任务进行优化的 CPU 不同,GPU 优先考虑吞吐量,可提供每秒千万亿次浮点运算 (PBFLOPS) 级别的性能,通常比最强大的 CPU 还要高出两个数量级。
然而,这种出色的性能是有代价的,特别是取决于 AI 工作负载:训练与推理。处理大型数据集时,GPU 可能会遇到效率瓶颈,这一限制会严重影响推理,但对训练来说并不那么重要。GPT-4、OpenAI 的 o1/o3、Llama 3-405B 和 DeepSeek-V3/R1 等 LLM 可以显著降低 GPU 效率。理论峰值性能为 1 petaFLOP 的 GPU 在运行 GPT-4 时可能只能提供 50 teraFLOPS。虽然这种低效率在训练期间是可控的,因为训练完成度比实时性能更重要,但对于推理来说,这成为一个紧迫的问题,因为延迟和功率效率至关重要。
GPU 的另一个主要缺点是其巨大的功耗,这引发了可持续性问题,尤其是对于大规模部署的推理而言。人工智能数据中心的能源需求已成为一个日益严峻的挑战,促使业界寻求更高效的替代方案。
为了克服这些低效率问题,业界正在迅速开发专用的 AI 加速器,例如专用集成电路 (ASIC)。这些专用芯片在计算效率和能耗方面都具有显著优势,使其成为下一代 AI 处理的有希望的替代方案。随着 AI 工作负载的不断发展,向定制硬件解决方案的转变有望重塑人工智能基础设施的格局。见表 I。
AI 加速器的关键和独特属性
AI 处理器的大规模并行架构具有传统 CPU 所不具备的独特属性。具体而言,两个关键指标对于加速器提供处理 AI 工作负载(例如 LLM)所需的性能至关重要:批处理大小和token吞吐量。实现这些指标的目标水平带来了工程挑战。
批次大小(Batch Sizes)及其对加速器效率的影响
批量大小是指加速器同时处理的独立输入或查询的数量。
内存带宽和容量瓶颈
一般而言,较大的批次通过更好地利用并行处理核心来提高吞吐量。随着批次大小的增加,内存带宽和容量要求也会增加。过大的批次可能会导致缓存未命中和内存访问延迟增加,从而影响性能。
延迟敏感度
大批量会影响延迟,因为处理器必须同时处理大得多的数据集,从而增加计算时间。自动驾驶等实时应用要求最小延迟,通常需要批量大小为 1 才能确保立即响应。在安全至关重要的场景中,即使是轻微的延迟也可能导致灾难性的后果。然而,这对针对高吞吐量进行优化的加速器来说是一个挑战,因为它们通常设计用于高效处理大批量,而不是单实例工作负载。
连续批处理挑战
连续批处理是一种技术,在处理过程中将新输入动态添加到批处理中,而不是等待完整批处理组装完毕后再执行。这种方法可以减少延迟并提高吞吐量。它可能会对首次token时间产生影响,但只要调度程序可以处理执行,它就能实现更高的整体效率。
Token吞吐量及其计算影响
Token吞吐量是指每秒处理的token数量(无论是单词、子单词、像素还是数据点)。它取决于输入token大小和输出token速率,需要高计算效率和优化的数据移动以防止出现瓶颈。
token吞吐量要求
定义 LLM 中token吞吐量的关键是首次token输出的时间,即通过连续批处理实现的低延迟,以最大限度地减少延迟。对于传统的 LLM,输出速率必须超过人类的阅读速度,而对于依赖于直接机器对机器通信的代理 AI,保持高吞吐量至关重要。
传统Transformer与增量Transformer
大多数 LLM(例如 OpenAI-o1、LLAMA、Falcon 和 Mistral)都使用 Transformer,这要求每个 token 关注所有先前的 token。这会导致高昂的计算和内存成本。增量 Transformer 通过按顺序计算 token 而不是在每一步重新计算整个序列提供了一种替代方案。这种方法提高了流式推理和实时应用程序的效率。但是,它需要存储中间状态数据,增加内存需求和数据移动,从而影响吞吐量、延迟和功耗。
进一步考虑
标记处理也带来了一些挑战。不规则的标记模式(例如不同的句子和帧长度)可能会破坏优化的硬件管道。此外,在自回归模型中,标记依赖性可能会导致处理管道停滞,从而降低计算资源的有效利用率。
克服硬件加速器的障碍
与过去 70 年经历了非凡进化历程的 CPU 形成鲜明对比的是,AI 加速器仍处于形成阶段,尚无成熟的架构能够克服满足 LLM 计算需求的所有障碍。
最关键的瓶颈是内存带宽,通常称为内存墙。大批量需要大量内存容量来存储输入数据、中间状态和激活,同时需要高数据传输带宽。实现高token吞吐量取决于内存和处理单元之间的快速数据传输。当内存带宽不足时,延迟会增加,吞吐量会下降。这些瓶颈成为计算效率的主要制约因素,将实际性能限制在理论最大值的一小部分。
除了内存限制之外,计算瓶颈也带来了另一个挑战。LLM 依赖于高度并行化的矩阵运算和注意力机制,这两者都需要强大的计算能力。高token吞吐量进一步加剧了对快速处理性能的需求,以保持数据流的顺畅。
大批量数据访问模式会带来额外的复杂性。不规则的访问模式可能导致频繁的缓存未命中和增加的内存访问延迟。为了维持高token吞吐量,高效的数据预取和重用策略对于最大限度地减少内存开销和保持一致的性能至关重要。
解决这些挑战需要创新的内存架构、优化的数据流策略以及平衡内存和计算效率的专用硬件设计。
克服内存瓶颈
内存技术的进步,例如高带宽内存 (HBM)(尤其是 HBM3,其带宽比传统 DRAM 高得多)有助于减少内存访问延迟。此外,更大、更智能的片上缓存增强了数据局部性,并最大限度地减少了对片外内存的依赖,从而缓解了硬件加速器中最关键的瓶颈之一。
一种很有前景的方法是使用类似寄存器的结构对整个缓存层次结构进行建模,该结构可以在单个时钟周期内存储数据,而不是需要数十个时钟周期。这种方法优化了大批量的内存分配和释放,同时保持了较高的token输出率,从而显著提高了整体效率。
提高计算性能
专为 LLM 工作负载设计的专用硬件加速器(例如矩阵乘法单元和注意引擎)可以显著提高性能。高效的数据流架构可最大限度地减少不必要的数据移动并最大限度地提高硬件资源利用率,从而进一步提高计算效率。混合精度计算在适用的情况下采用 FP8 等低精度格式,可降低内存带宽要求和计算开销,而不会牺牲模型准确性。该技术可以更快、更高效地执行大型模型。
优化软件算法
软件优化在充分利用硬件功能方面起着至关重要的作用。针对 LLM 操作定制的高度优化内核可以通过利用特定于硬件的功能来显著提高性能。梯度检查点通过按需重新计算梯度来减少内存使用量,而管道并行性允许同时处理不同的模型层,从而提高吞吐量。
通过整合这些硬件和软件优化,加速器可以更有效地处理大型语言模型的密集计算和内存需求。
https://semiwiki.com/artificial-intelligence/352985-the-double-edged-sword-of-ai-processors-batch-sizes-token-rates-and-the-hardware-hurdles-in-large-language-model-processing/
半导体精品公众号推荐
专注半导体领域更多原创内容
关注全球半导体产业动向与趋势
*免责声明:本文由作者原创。文章内容系作者个人观点,半导体行业观察转载仅为了传达一种不同的观点,不代表半导体行业观察对该观点赞同或支持,如果有任何异议,欢迎联系半导体行业观察。
今天是《半导体行业观察》为您分享的第4049期内容,欢迎关注。
『半导体第一垂直媒体』
实时 专业 原创 深度
公众号ID:icbank
喜欢我们的内容就点“在看”分享给小伙伴哦
AI蓝媒汇
2025-02-28
AI蓝媒汇
2025-02-28
半导体行业观察
2025-02-28
半导体行业观察
2025-02-28
半导体行业观察
2025-02-28
半导体行业观察
2025-02-28
证券之星资讯
2025-02-28
证券之星资讯
2025-02-28
证券之星资讯
2025-02-28