|

财经

Raja Koduri撰文评Intel:一切并不晚

来源:半导体行业观察

2025-02-25 09:25:38

(原标题:Raja Koduri撰文评Intel:一切并不晚)

如果您希望可以时常见面,欢迎标星收藏哦~

来源:内容编译自pcgamer,谢谢。

英特尔架构、图形和软件部门前首席架构师兼执行副总裁 Raja Koduri 日前撰写了一篇文章,概述了他对英特尔目前所处的困境的看法。在文章中,他强调了英特尔目前的“宝藏和蛇”(treasures and snakes),以及他认为公司前进的方向。本质上,正如他在一条附带推文中总结的那样,“不发货就学不到东西。”

Koduri 认为,英特尔的财富是知识产权和技术,而许多创新则“束之高阁”。然而,Koduri 认为,与此形成鲜明对比的是官僚程序,它主导着企业决策,而创新则被抛在身后。

“‘电子表格和 PowerPoint 蛇’(The 'spreadsheet & PowerPoint snakes)——主导公司决策的官僚流程——往往无法理解放弃绩效领导的真正代价。

“他们优化了季度损失,却忽略了全局。这些流程不断增加,缠绕着工程师,限制了他们大胆执行产品路线图的能力。

“任何试图在既定流程之外开展臭鼬工厂计划的尝试都会被笼罩在恐惧的气氛中——一步走错,官僚主义就会来袭。这种环境在整个工程队伍中滋生了一种普遍的‘习得性无助’,扼杀了建立英特尔帝国的创新文化。”

这当然是一些令人回味的画面。这幅作品本身还附有一张人工智能生成的图像,显示一名英特尔程序员被标有“协调员”的蛇勒死,而一名高管在一旁观看。背景中的另一个人前额写着“僵尸”一词。

在“让混乱统治,然后控制混乱”(原文:Let chaos reign and then rein in chaos,出自英特尔前首席执行官安迪·格罗夫)的标题下,Koduri继续说道:

“让我们分析一下这个问题。你为什么要让混乱统治?难道所有的混乱都是坏的吗?答案是否定的。有好的混乱和坏的混乱。好的混乱迫使你去发明和改变。

“好的混乱通常来自外部事件。坏的混乱来自内部问题。我喜欢把坏的混乱称为“组织熵”(organizational entropy)。这是降低公司效率的更高阶的因素。

“当熵超过某个阈值时,领导层就会失去对公司的控制。除非你降低熵,否则无论高管们怎么严厉打击都无法改变这种情况。”

所以,从本质上来说,糟糕的决策和内部官僚干预导致工程师失去了迭代和创新的能力,公司陷入了困境 — — 至少 Koduri 是这么认为的。

随后,他为前首席执行官帕特·基辛格 (Pat Gelsinger) 离职后接任英特尔领导职位的人提出了几条“谦虚建议” ,包括将程序员与协调员的比例增加 10 倍,“取消取消文化”(在这个意义上,放弃在产品发布前取消产品的想法,比如Falcon Shores),并围绕产品领导架构重组公司。

“这一切都太晚了吗?”他在最后几段中发表了看法。好问题。英特尔的困境是有据可查的,有传言称台积电可能会控制英特尔的芯片制造工厂(或可能与博通达成类似安排),一位工程师称这是“一个可怕的、令人沮丧的错误”。该公司的 Arrow Lake 台式机 CPU 反响不佳(尽管无论如何似乎卖得很好),自 Gelsinger 离职以来,它仍然没有新的首席执行官,其“四年五个节点”路线图已支离破碎。

尽管如此,英特尔的18A 节点现在似乎已经准备就绪,现有的 Lunar Lake 移动芯片令人印象深刻,其下一代Panther Lake 芯片(在上述 18A 节点上制造)将于今年下半年推出。尽管外界对此批评不绝于耳,但英特尔似乎暂时坚持了下来,期待已久的流程和产品正在酝酿中。Koduri 并不是第一位公开分析和辩论英特尔明显失误的前高管,甚至比尔·盖茨也发表了自己的看法。

我想知道英特尔是否认为这里真正的蛇是那些围绕着它持续不断的麻烦的蛇,在它挣扎着站起来时偶尔会咬它的脚踝。这就是隐喻的问题所在。它们可以有不同的解释。或者,正如 Koduri 在他的文章结尾处引用伟大的哲学家皇帝Marcus Aurelius的话所指出的那样:

“我们听到的一切都只是观点,而不是事实。我们看到的一切都只是观点,而不是真相。”

呃,确实如此。

原文:Intel Inspired(英特尔的启发)

英特尔度过了艰难的 2024 年。祝愿英特尔 2025 年精彩而富有成效,并展望未来。最近有很多关于 Intel 的文章。主要是厄运和悲观。许多业内人士、情报公司的人以及朋友和家人圈子都伸出了援手。一些人看不到任何转机的希望,另一些人则想知道这是否是低点,以及他们是否应该现在投资。

“英特尔在人工智能方面远远落后,没有战略”,“他们在工艺技术上仍然落后于台积电很多年”,名单来自英特尔的空头,他们现在似乎占了大多数。多头有 “希望”,空头用 “希望不是计划” 来反击。

我属于多头阵营,文章的其余部分概述了我的观点和看法,这是我希望的基础。我的中心论点是,英特尔需要为自己设定一个大胆的产品目标,以激励他们的整个工程团队团结起来。为了实现这些目标,包括晶体管物理学、先进封装、硅设计和软件架构在内的整个技术堆栈都需要承担共同风险。关于将工艺技术和产品工程拆分为独立公司的讨论 - 这可能会适得其反。

现在,建立公平的代工厂关系可能会削弱唯一一家理论上能够在整个堆栈(从基础物理学 (atoms) 到软件 (python) 之间进行创新的公司。

英特尔的宝藏与蛇

英特尔仍然拥有大量的 IP 和技术。这些是生态系统中许多人羡慕的瑰宝。许多创新一直被搁置。这些创新涵盖工艺技术、先进封装、光学、高级存储器、散热、供电 CPU、GPU 等等。其中一些创新可以使英特尔产品在性能、性能/美元和性能/瓦特方面有一个数量级的提升,这些指标决定了英特尔产品在所有计算领域(跨数据中心、边缘和个人设备)的最终领导地位。

Intel 宝藏的悲剧在于它们的延迟或延迟部署。五年多来,该公司的产品路线图(将这些创新推向市场的重要管道)一直被制造挑战所堵塞。虽然麻烦始于 14 纳米,但 10 纳米节点成为前所未有的瓶颈,使英特尔失去了五年的领导地位。然而,制造延迟只是故事的一部分。植根于文化和领导力的更深层次问题使英特尔无法做出务实的决策,例如在内部解决方案失败时及时采用台积电等外部制造能力。

英特尔的 DNA 的核心是建立在性能领先之上,即不懈追求打破基准的卓越表现。其商业模式的各个方面,从营销到销售,都经过校准,以成为其所选细分市场中无可争议的领导者。NVIDIA 拥有这种性能优先的 DNA,这体现在他们不惜一切代价不懈地追求基准测试霸主地位。“Performance DNA”公司还在客户需求之前制造产品。他们总是走在潮流的前面。这两家公司都不是作为 “价值或服务参与者” 蓬勃发展的——它们的主要目的不是为了竞争性能/美元或根据客户请求提供服务等价值指标。虽然价值/服务导向型公司可以取得巨大成功,但将注重绩效的公司转变为价值参与者需要进行重大的文化手术。反向转换要自然得多。对 Intel 来说,运行代工服务将是一个具有挑战性的过渡。与已经从事代工服务业务的公司建立许可合作伙伴关系可能是一种更务实的方法。

“电子表格和PowerPoint蛇”(spreadsheet & powerpoint snakes) - 主导公司决策的官僚过程 - 往往无法理解放弃绩效领导的真正成本。他们进行优化以最大限度地减少季度损失,同时错过更大的图景。这些流程成倍增加,围绕着工程师,限制了他们以所需的勇气执行产品路线图的能力。恐惧的气氛围绕着任何在既定流程之外进行臭鼬工厂倡议的尝试——一个失误,官僚主义的蛇就会出击。这种环境在整个工程队伍中滋生了一种普遍的“习得性无助”,扼杀了建立英特尔帝国的创新文化。习得性无助是我们放弃逃避痛苦情况的一系列行为,因为我们的大脑逐渐被教导在那种情况下假设无能为力。

转型

我以前亲眼目睹了公司从灰烬中崛起,我知道转型是可能的,即使是在绝望的深渊中也是如此。虽然金融工程为发展提供了必要的养料,但仅靠它并不能点燃驱使工程师构建真正革命性的火花。在尖端技术领域,工程师需要的不仅仅是资源,他们需要一个鼓舞人心、近乎大胆的目标来追求。理想的目标应该同时令人生畏和鼓舞人心:令人生畏是因为它突破了可能性的界限,鼓舞人心是因为它代表了计算的飞跃。领导层的作用不仅仅是设定这些目标,而是提供工具,展示前进的道路,并与团队一起在战壕中亲自动手。

追求一项艰巨的挑战 – 一个 “大坏怪兽”(big bad monster) – 无论经验水平如何,都具有普遍的吸引力。在当今的 AI 计算环境中,什么可以作为那个鼓舞人心但令人生畏的目标?让我们从硬件挑战开始。

一个可怕的大坏怪兽

以 NVIDIA 的 NVL72 为例,这是当前 AI 计算领域的顶级掠夺者:

1、360 PFLOPS 的原始 FP8 计算(无稀疏);

2、576 TB/秒的 HBM 带宽,容量为 18.8 TB;

3、通过 NVLink 实现 130 TB/秒的 GPU-GPU 带宽;

4、300万美元的定价;

虽然 NVIDIA 的单个 GPU (B100/B200) 本身就令人印象深刻,但真正令人生畏的是 NVL72 的密度和规模。这不仅仅是关于原始 GPU 能力,还是系统架构的大师班,展示了树立新行业标准的最先进的纵向扩展和横向扩展带宽功能。这种突破性的性能伴随着相应的成本:高昂的价格标签和大量的功耗 (~120-132 KW)。然而,NVIDIA 之所以能够获得这种优势,是因为 NVL72 在提供通用性和性能的结合方面独树一帜。

让我们捕获 NVL72 系统的Pj/Flop,因为这在以后会很方便。


鼓舞人心的 2027 年目标

以下是我建议的英特尔大胆创新计划系统目标:

  • 1 ExaFlop 的原始 FP8/INT8 计算性能;

  • 5 PB/秒的“HBM”带宽,138 TB 容量;

  • 2.5 PB/秒的 GPU-GPU 带宽;

  • 同时保持 132 KW 的功率范围;

  • 以 $3M 的价格;

让我们来了解一下这些目标的大胆程度:

  • 计算性能实现 3 倍飞跃;

  • 内存带宽和容量发生 10 倍革命;

  • 互连带宽突破 20 倍;

  • 同时保持相同的功率包络和成本;

英特尔拥有实现这些惊人规格的所有技术要素。通过完全的组织一致性和专注度,他们可以实现目标。我们应该期待 NVIDIA 将目光投向类似甚至更雄心勃勃的参数。你需要超越自己的最佳状态才能与Nvidia竞争,你还需要在2028年、2029年一次又一次地出现。

同样重要的是要提到,上述规格也将转化为 1 Petaflop (132W) 和 100 Teraflop (13W) 范围的非常引人注目的系统,为英特尔提供从移动、迷你 PC、台式机到数据中心的出色领导堆栈。英特尔将有能力提供从设备到 DC 的单一堆栈,以有效地为消费者和企业部署像 Deep Seek 这样的优秀开放模型。一个可以高效地托管整个 670B 参数 DeepSeek 模型(低于 10K)的系统在 Intel 的领域中非常有价值。

在未来 3-5 年内,成本将出现一个“DeepSeek”时刻。是什么让我如此乐观?人们应该深入到第一原则,看看以下因素:

  • 上述规格需要多少个 logic 和 memory wafer;

  • 这些硅片的价格;

  • Pflops-per-mm² ;

  • Gbytes-per-mm² ;

  • 晶圆良率;

  • 程序集和系统其余开销;

  • 毛利(margin);

使用 ~0.01 Pflop/mm² 和 ~0.03 GB/mm² 的内存,您可以为这些产品构建一个简单的第一性原理成本范围。您会惊讶地发现美元有 5-10 倍的机会。如果您不拥有大部分组件,更重要的是不拥有最终组件(3D、2.5D、2D....)

现在让我们看看从上述雄心勃勃的目标中得出的 Pj/Flop:


实现这一目标需要将 Pj/Flop 减少 4 倍——这在后摩尔定律时代是一个艰巨的挑战。然而,英特尔的 Lunar Lake 芯片已经展示了令人鼓舞的效率,以 ~20W 或 ~0.2 Pj/op 提供 ~100 INT8 TOPS (GPU+NPU)。这一基准证明 Intel 拥有能够实现竞争效率的 IP。

需要克服的 4 个关键互联挑战:

1. 找到另一个 2 倍的效率,达到 0.1 Pj/Flop;

2. 将计算扩展到 10000 倍以达到 Exaflop 时(包括互连成本);

3. 同时提供 10 倍的接近内存带宽;

4. 同时保持与现有 Python/C/C++ GPU 软件的兼容性(即,没有像量子、神经形态、对数和少数初创公司追求的其他想法这样的深奥歧途);

5. 片上功耗的 3 个关键贡献者 (单位为 Femto (F) 焦耳)

  • 数学运算:~8 Fj/bit

  • 内存:~50 Fj/bit

  • 通信:~100 Fj/bit/mm

所有最先进的设计都将在 math ops power 的同一个球场上。他们将接近当时的领先工艺节点(TSMC N2、Intel 14A 等)赋予它们的任何权利。Intel 的大部分有趣区别需要来自内存和通信方面。

在最近的 IEDM 上,nVidia 发布了下图。


先进的封装技术已证明,对于内存访问和芯片间通信,Fj/bit 有可能降低 10-20 倍。英特尔在 2021-2022 年的 zetta 规模开发工作制作了展示这些收益的工作原型。虽然引发这项工作的 zetta-scale 计划已经停止,但其技术基础仍然具有相关性。

拥有硅设计师,先进的封装工程师能够接触到来自TSMC和Intel的最新工艺技术,这对于尽早推动这些技术产品化所需的迭代是一个巨大的优势。英特尔比其他人提前 5+ 年开始了这一旅程。Kabylake-G(带 GPU 的 EMIB)、Lakefield(第一个 3D 堆叠大容量芯片)、Ponte Vecchio(结合了 SOTA 2.5 和 3D 的封装中的 47 个小芯片)是关键示例。

掌握高级技术是一个无情的迭代过程,您需要通过努力来学习和改进。没有“神奇”的问题,您可以一次性解决良率、成本、性能、散热和可靠性问题。英特尔领先于行业开始了这个迭代循环,但中间有许多自作自受的卡顿。主要是通过取消项目,其中一些项目甚至已经准备好进行送样和生产,并切换到外部收购并重新启动迭代循环。回到 Larrabee 时代(2009 年),Intel 至少有 8 次吞吐量计算架构迭代循环的开始/停止。在每一个关头,他们都切换到了不同的架构,并没有从之前的循环中受益。

回到数学上来,“math ops”目标本身应该不是问题。Intel 应该能够在没有 heroics 的情况下完成 <0.05 Pj/Flop (FP8),你需要这个缓冲区来支付内存和通信的能力。为了实现 2027 年系统目标,他们还需要在数学之外找到 2 倍的机会。通过先进封装减少距离 (mm) 是实现这一目标的关键工具,我相信他们拥有实现这一目标的技术。接下来是内存带宽目标。

Intel 还拥有自主研发的内存技术,可以开创接近内存计算的时代。

无论是他们的自主技术还是与 DRAM 行业的“紧密”合作伙伴关系,在 3-4 年内都有 10 倍的带宽增加机会。谁先冒风险并执行,谁就能远远领先于其他人。有趣的是,有助于提供 10 倍内存带宽的技术也有助于实现 20 倍的通信带宽目标。关键是要释放更多的芯片边界用于芯片到芯片的通信。

英特尔还拥有出色的 Silicon Photonics 技术,如果不将其集成到产品中以启动学习循环,那将一无是处。所有技术和知识产权都是具有有效期的易腐货物。在为时已晚之前食用它们。

现在我们来谈谈 Intel 的可扩展性和软件。最近,我在他们的 Tiber 云上访问了 Intel PVC 8-GPU 系统。我还添加了来自 AMD 和 Nvidia 的 8-GPU 设置。这三个系统都是浮点野兽。以下是 FP16/BF16 规格:

  • 英伟达 8xH100 - 8 PF

  • 英特尔 8xPVC - 6.7 PF

我编写了一个自定义基准测试工具来了解这些系统在各种大小和形状的矩阵中的性能。这样做的动机来自于对各种 AI 模型的跟踪观察。我注意到大部分性能都由矩阵乘法序列主导,所有这些矩阵通常是大矩阵(4K 及以上)。我还想用 PyTorch 来练习这些系统 - 标准的 PyTorch,没有花哨的库或中间件。我的论点是,标准 PyTorch 的质量、覆盖范围和性能是 AI 软件开发人员在不同 GPU 上提高工作效率的良好基准。

软件观察:安装和第一次让事情“工作”是 AMD 和 Intel 的更多步骤。在我开始之前,它涉及与两家公司的工程师的互动。Nvidia 很简单。但我必须承认,与 2 年前相比,AMD 和 Intel 在使 Pytorch 易于使用方面都取得了巨大进步。Intel 的驱动程序安装和 Pytorch 设置比 AMD 的摩擦要小一些。AMD 直接支持 torch.cuda 设备,使用 Intel 时,您需要映射到 torch.xpu 设备。因此,我需要为 Intel 进行一些代码调整,但不会太痛苦。英特尔去年“日落”PVC GPU,据我所知,AI 软件团队在过去几年里一直忙于开发 Gaudi。我对 Intel 的兼容性和性能的期望非常低。我惊喜地发现,我能够完成我的测试——不仅是 1 个 GPU,而且是 8 个 GPU。以下是 8X GPU 的结果:


跨越不同形状和大小的基体(Across the sweep of different matrix shapes and sizes ):

  • Nvidia 8xH100 - 5.3 PF(峰值的 67%)

  • AMD 8xMI300 - 3.1 PF(峰值的 30%)

  • 英特尔 8xPVC - 2.7 PF(峰值的 40%)

一些观察:

很容易看出为什么 Nvidia 仍然是大家的宠儿。这是 H100。Blackwell 将进一步提高标准

从semi-analysis的文章中了解到,AMD 即将推出新的驱动程序,这些驱动程序似乎可以显着提高 GEMM 数量。这对 AMD 来说是个好消息。本文不是关于 AMD 或 NVIDIA 的。

这里的惊喜是被遗弃的 PVC,它甚至如此接近 顶级 GPU .PVC 在工艺技术方面落后于 MI300X 一代。大多数 PVC 硅位于 Intel 10nm 上,比 TSMC N4 落后 ~1.5 个节点。通过 XeLink 的 GPU 到 GPU 带宽似乎比 AMD xGMI 解决方案的性能更好。

肯定还有软件优化摆在桌面上。他们应该能够达到峰值的 60%。在矩阵维度较小的情况下,您可以看到软件开销对 Intel 的影响。

但英特尔于 2023 年 3 月取消了名为 Rialto Bridge 的 PVC 的后续项目。

该芯片已准备好在 22 年第四季度流片,并将于 2024 年量产,并指定交付超过 H100 的产品。

AMD 于 2015 年在斐济开始采用先进封装和 HBM 进行迭代循环,随后于 2017 年与 Vega 合作。紧随其后的是 MI25、MI50、MI100、MI200、MI250,最后是 MI300。MI300 是 AMD 第一款收入超过 $1B 的 GPU。您只能通过出货来学习。


回到主线程。上面的数据点表明,英特尔拥有能够与最佳公司竞争的基础。他们需要积极地玩游戏,而不是破坏路线图。停止从胜利的嘴里抢夺失败。

这一切都不会是一件容易的事。Intel 的所有层级都必须经历痛苦的转型。仅仅行政领导音乐椅是不够的。

“让混乱统治,然后控制混乱”

这是 Andy Grove 的一句名言(可能是 Intel 的最后一位 CEO,他对公司堆栈的每一层都了如指掌。我经常想知道安迪现在会怎么做。

让我们稍微剖析一下。你为什么要让任何混乱占据主导地位?不是所有的混乱都是坏事吗?答案是否定的。有好的混乱和坏的混乱。好的混乱会迫使你去发明和改变。重大的科技和行业转型是好的混乱。互联网、WiFI、云、智能手机、人工智能是一些可能导致良好混乱的过渡示例。当 Intel 能够“控制”(rein in)时,它从其中一些转变中受益。好的混乱通常来自外部事件。糟糕的混乱来自内部问题。我喜欢把坏的混乱称为 “组织熵”(organizational entropy)。这是降低公司效率的高阶位。


当熵超过某个阈值时,领导层就会失去对公司的控制。再多的高管抨击都无法解决这种情况,直到你减少这个熵。

我对任何接过 intel 领导职务的人的拙见建议:

1、将编码员与协调器(coder-to-coordinator )的比率提高 10 倍。这可能是最痛苦的事情,因为它可能会导致首先大幅减少员工人数和一些重新招聘。为陷入协调任务的人提供重新学习的机会,让他们重新开始编码或离开公司。AI 工具是老年人重新投入工作的重要推动力。

2、围绕产品领导力架构组织公司。英特尔可以使用在整个堆栈中共享的 <6 模块化构建块 (/chiplets) 构建从 10W 到 150KW 的整个产品堆栈。围绕进入市场的界限拆分公司会阻止他们在堆栈上下游利用其领导 IP(例如:- Xeon 上的 Lunarlake SOC 能效会很棒,但 Xeon 的能效远非今天的领先地位)。通过在整个堆栈中利用领先的 IP,英特尔可以在客户端、边缘和数据中心部署性能最佳的产品,并获得 >$500B TAM 的可观份额。

3、取消取消文化。英特尔的传统建立在不断的迭代之上。每 18 个月迭代一次,新工艺技术的良率达到 90%。Tick-tock 执行模型。停止“取消文化”。你什么也没做。

4、押注普遍性并专注于性能基本面。Ops/clk、Bytes/Clock、Pj/Op、Pj/Bit 等。边界不是 CPU、GPU 和 AI 加速器。工作负载是标量、向量和矩阵计算的不断发展组合,需要增加带宽和内存容量。您具有独特的能力,可以按比例提供这些元素,从而让您的客户满意并摧毁您的竞争对手。

5、向全球开源开发人员提供大量 BattleMage 和 PVC GPU。出售大量 Battlemage GPU 是实现这一目标的一个很好的步骤。不要担心它们的边距。这是打动 AI 开发人员的心灵和思想的最有效方式,同时让全球数百万游戏玩家感到高兴。Battlemage 是迭代好处的一个很好的例子。自 2022 年 Alchemist 以来,软件稳健性和性能的提升非常明显。如果他们在未来 12 个月内再次迭代并推出 Celestial,他们将走上领导之路。使 PVC 的所有清单(包括 Argonne 百万兆级安装中的 PVC 清单)可供 Github 开发人员使用,而不会产生“云摩擦”。它应该是从世界上任何 PC/Mac 单击一下即可连接到云 GPU。Intel GPU 与 Pytorch/Triton AI 开发人员生态系统最兼容(在其他 Intel 选择中)。这项工作将极大地帮助 Leadership 2027 系统的发布,届时更多软件将在英特尔的第一天运行。

这一切都太晚了吗?

“乐观是创新的基本要素,”罗伯特·诺伊斯 (Robert Noyce) 说,他是让英特尔变得伟大的传奇人物之一。

“我们听到的一切都是一种观点,而不是事实。我们看到的一切都是一种观点,而不是真相。

https://www.pcgamer.com/hardware/ex-intel-exec-raja-koduri-blames-the-bureaucratic-powerpoint-snakes-within-the-company-for-its-current-issues-these-processes-multiply-and-coil-around-engineers/

https://x.com/RajaXg/status/1892222720710152315

半导体精品公众号推荐

专注半导体领域更多原创内容

关注全球半导体产业动向与趋势

*免责声明:本文由作者原创。文章内容系作者个人观点,半导体行业观察转载仅为了传达一种不同的观点,不代表半导体行业观察对该观点赞同或支持,如果有任何异议,欢迎联系半导体行业观察。

今天是《半导体行业观察》为您分享的第4046期内容,欢迎关注。


『半导体第一垂直媒体』

实时 专业 原创 深度

公众号ID:icbank

喜欢我们的内容就点“在看”分享给小伙伴哦

半导体行业观察

2025-02-25

半导体行业观察

2025-02-25

半导体行业观察

2025-02-25

半导体行业观察

2025-02-25

半导体行业观察

2025-02-25

首页 股票 财经 基金 导航