|

财经

为何都盯上了Chiplet?

来源:半导体行业观察

2025-02-28 11:17:56

(原标题:为何都盯上了Chiplet?)

如果您希望可以时常见面,欢迎标星收藏哦~

来源:内容编译自pcwatch,谢谢。

为什么首先要使用小芯片?从广义上讲,这一切都归结为使用越来越多晶体管的愿望。图1是TSMC session的一份文档,从2018年左右开始,使用大规模语言模型的趋势越来越明显,更高的处理性能成为必要,特别是在训练这些模型时。话虽如此,大部分的处理都是卷积,虽然计算本身很简单,但所需的处理量却非常庞大。


幸运的是,这种计算很容易并行化,因此排列多台计算机并同时处理它们比以极快的速度旋转单个核心要快得多。方法论有很多种,比如采用大规模SIMD或者大规模VLIW,或者将大量小规模SIMD/VLIW引擎以网状结构排列并以数据流方式运行,甚至可以采用内存计算,但底线是一样的:排列大量计算单元并运行它们。

如果你尝试排列大量的计算单元,那么你将需要大量的晶体管。图1中的点(和线)表示计算性能(左轴),竖线表示实际产品中的晶体管数量(右轴)。不难看出,计算能力和晶体管数量的趋势大致是相互关联的。

然而,不可能无限增加半导体中的晶体管数量。首先,它是建立在直径为 300 毫米的晶圆上,因此它最大程度上会达到这个直径,而在到达那么远之前它就会达到曝光极限(光罩极限)。简单来说,就是将LSI图案投影到晶圆上,再进行蚀刻制作电路时,所能投影的最大尺寸。这个面积通常刚好超过 800 平方毫米,如果不适合这个面积,那么根本就无法制造。这意味着,在这刚好超过800平方毫米的面积里,能够容纳的晶体管数量已经达到了最大值。

工艺小型化涉及使晶体管越来越紧凑,这意味着增加可装入刚好超过 800 平方毫米的区域内的晶体管的数量。

如今,制约因素不再是晶体管本身的尺寸,而是连接晶体管的布线,我们在如何处理这些布线方面遇到了很多困难。

英特尔以PowerVIA为名发布的BSPDN(背面供电网络)也是其中一项举措,但BSPDN虽然只是暂时的解决办法,但并非根本解决办法,因此首先在现有的Cu/Co(铜/钴)配线的基础上考虑使用Ru(钌),之后也提出了使用碳纳米管等配线的方案,但Ru要到2020年代末或2030年左右才能投入实用,碳纳米管则还要更久以后,因此无法解决现状。

图1中提到的2024年2000亿颗晶体管的芯片,是指NVIDIA的Blackwell,但这是指两款芯片合计2000亿颗,也就是每款芯片1000亿颗。这大致就是当前的极限。

Celebras 使用整块晶圆

所以,“我们想要 2000 亿个处理器,但我们无法制造它们,所以让我们使用 chiplet 将它们连接在一起,创建一个伪 2000 亿的处理器”的想法是相当合理的。这种方法的终极示例是 Celebras 的“WSE-3”(图 2),它构建了一个放大到最大可能的晶圆尺寸的伪芯片。实际上,它被分成 84 个部分(12 x 7),但通过将这些部分连接起来,它看起来就像一个巨大的die。


但事实是,Celebras的方法并不一定有效。

正如您所看到的,4 万亿个晶体管被封装在 46,225 平方毫米的芯片中,晶体管密度约为每平方毫米 8653 万个晶体管。另一方面,H100 将 800 亿个颗粒装入 814 平方毫米的面积中,密度为每平方毫米 9828 万个晶体管。由于WSE-3是台积电N5,H100是台积电4N,因此晶体管本身的面积被认为大致相同。

那么这种差异从何而来?话虽如此,由于 WSE-3 原则上没有(也不能)拥有本地外部存储器,因此它拥有 44GB 的片上 SRAM,这意味着 84 个图块中的每一个都有超过 536MB 的 SRAM。另一方面,H100 可以连接外部 HBM3,并且内置 L2 仅为 50MB。L1 每个 SM 为 256KB,因此 L1 和 L2 的总大小刚好超过 80MB。人们认为,SRAM 的这种差异会导致晶体管密度的差异。

顺便说一下,通过整合SRAM,WSE-3的内存容量是H100的880倍,内存带宽是H100的7,000倍(图3),但性能只有H100的20倍(Celebras在Hot Chips上发表的数据),可见在成本和价值之间取得平衡的难度。


简单来说,如果 WSE-3 的价格在 H100 的 20 倍以内,那么这个计算似乎成立:WSE-3 具有更好的性价比……但实际上,WSE-3 存在一个问题,即它无法将所有权重(尤其是 LLM 中的权重)存储在其 44GB 本地 SRAM 中。因此,它有一个稍微复杂的配置,其中通过名为“SwarmX”的专有网络放置了专用于存储权重的外部存储服务器“MemoryX”,并将权重值从 MemoryX 分发到多个 WSE-3。

因此,在比较价格时,需要将 SwarmX(专用交换机)和 MemoryX(最高 500TB)纳入系统价格。考虑到所有这些,它实际上比 H100 具有多大的性价比优势还是有点值得怀疑的。首先考虑核心数量,我认为如果性能与H100略有差异会更好。

Arrow Lake从小芯片中

获得了什么价值?

我举一个大家更熟悉的例子。比较 Raptor Lake、Arrow Lake 和 Ryzen。

Raptor Lake 是单片 CPU 核心和内存接口,内部通过环形总线连接。在 Arrow Lake 中,内存接口被放置在 SOC 图块中,包含 CPU 的计算图块和 SOC 图块使用 Foveros 通过基础图块连接。就 Ryzen 而言,容纳 CPU 的 CCD 和容纳内存 I/F 的 IOD 通过 C4 封装上的 Infinity Fabric 连接。


那么,在这种情况下,最昂贵的选择是Arrow Lake。由于芯片组配置使用计算块和 SOC 块,因此 Arrow Lake 的计算块和 SOC 块必须为芯片组配备 PHY(物理层)(图 4)。自然,这会导致tiles或die的成本增加。另外,由于连接需要使用 Foveros,因此需要巨大的基底砖。基底瓦片的尺寸如图4中红框所示。简而言之,与整体式情况相比

由于计算图块、SOC图块、IO图块和GPU图块中包含了PHY,图块的尺寸将会增加。

你需要一个基本风格

使用Foveros堆叠基础图块和 Compute/GPU/IO/GPU/SoC图块会产生额外成本。

这就是说。然而,这些成本可以单独计算。虽然这些没有向公众披露,但如果你自己使用英特尔代工厂,Foveros 的实施成本和使用英特尔 22FFL 的基础模块的制造成本当然会被披露,而每个计算/GPU/IO/SOC 模块的制造成本都来自台积电。

现在,这就是成本的计算。接下来是“价值”。使其成为 chiplet 所获得的价值是:

价值1

基础块基于相对便宜的英特尔 22FFL,这是一种具有布线层但没有晶体管层的无源块,因此制造成本相当低。好吧,我们对 Foveros 的成本无能为力,但就是这样了。毫无疑问,这比用 N3B 制造整个产品要便宜。

价值2

这可能比整体生产更便宜。计算块采用相对昂贵的 TSMC N3B 制造,而 GPU 块采用 TSMC N5P 制造,IO 和 SoC 采用 TSMC N6 制造。N6本质上是7nm一代,性价比相当高。

如果 Arrow Lake 采用整体制造,那么会产生一个尺寸为 11.4 x 25.8 毫米和 294.1 平方毫米的巨大芯片。实际上,计算块 (3.5 x 6.1 毫米,或 21.4 平方毫米) 旁边有未使用的空间,因此,如果我们可以移除它并成功重新排列,面积将达到 272.7 平方毫米,如果我们从中移除所有用于芯片的 PHY 部分,我认为我们可以将面积减少到 240 平方毫米左右,但无论我们多么努力,都无法将其缩小到这个数字以下。

据称,台积电N3B的晶圆成本在2万美元左右,而240平方毫米的晶圆最多只能生产256片,所以即便良率100%,采用N3B的单片芯片成本也将刚刚超过78美元。我是在 2022 年写了这篇文章,但即使收益率达到 100%,78 美元多一点的成本价也很难让人接受。

价值3

创建多个 SKU 很容易。例如,照片 04 中的 Arrow Lake 计算图块较大,具有 8 个 P 核和 16 个 E 核,但即使将来为低端创建具有 4 个 P 核和 8 个 E 核的图块,GPU/IO/SOC 图块也可以无需任何更改地使用。

事实上,Arrow Lake 的 SOC Tile 与 Meteor Lake 的相同,这意味着 Tile 可以跨代重复使用。这样可以节省验证等方面的大量精力,并且使用经过验证的产品将确保稳定运行。

价值 4

通过使用Foveros代替EMIB,可以在基底砖上配置电容器,从而稳定电源(图5)。稳定的电源也意味着更容易提高工作频率。


一些示例包括:

现在,计算这个值实际上是 chiplet 最困难的事情。不难看出它比第一个单片机更便宜。生产多个 SKU 很容易,如果您在为每个 SKU 设计单独的模具时估算 NRE(非重复工程:一次性过程)成本,那么很容易比较成本。问题是,关于最后一个电容器,它对稳定运行的贡献对产品的价值增加了多少?这将非常难以判断。

小芯片对 AMD 来说值多少钱?

现在我们以 Zen 4 代 CPU 作为另一个例子。该款配备了用于 CCD 和 IoD 的 Infinity Fabric PHY。对于Zen 4代,CCD由台积电N5制造,IoD由台积电N6制造。现在,在 Zen 4 版本中,

  • 锐龙

  • EPYC

  • MI300A

  • MI300C

通过使用相同的 CCD 并简单地更换 IoD 就可以创建四种不同类型的产品。如果我们把将其制作成单片结构和小芯片的 NRE 成本加起来,我们大概就可以计算出成本效益了。

不过由于MI300A/MI300C是通过SoIC+CoWoS连接的,所以对性能影响不大,但到了Ryzen/EPYC上,它们是在C4封装上连接的,无需经过中介层。该领域的性能下降是不可避免的。

图 1 就是一个例子。结果展示了 Ryzen 7 9700、Core i7-14700K、Core Ultra 7 265K 七个等级产品上 Sandra 20/21 AES 加密/解密的结果。这可以使用 AES 指令进行处理,并且确实使用 AES 指令进行处理,因此在 1T(1 线程)运行时,Ryzen 7 9700X 的性能比英特尔产品高出压倒性。


不过在使用MT+MC(多线程+多核),也就是所有核心/线程的时候,Infinity Fabric在Ryzen 7 9700X上就成为了瓶颈,总处理性能只能达到25GB/s左右。在此领域,英特尔能够实现35至36 GB/s的总体性能。这就是能够通过高带宽互连来连接 CPU 内核和内存控制器的优势。

现在的问题是,由于 AES256 加密/解密带宽陷入瓶颈,AMD 通过 Infinity Fabric 连接 CCD 和 IoD 在 Ryzen 上损失了多少价值?这就是问题所在。通过利用 C4 封装,Ryzen/EPYC 能够仅通过后处理就轻松增加其产品配置的多样性。此外,由于它是 C4 封装,因此不需要任何与中介层或基底瓦片等效的东西,从而可以降低制造成本和安装成本。这是很容易转化为价值的东西,但绩效的下降该如何在价值上体现出来呢?

小芯片的优点和缺点

最终,是否使用小芯片的决定将取决于价值。这一切都取决于使用小芯片是否会增加或减少其价值。因此,如果我们在推进小芯片发展的同时,没有一个能够有效地将优点和缺点转化为价值的标准,也没有一个能够转化价值的方法,那么我们最终会得到毫无意义的昂贵且卖不出去的产品。

构建chiplet的技术方法论正在逐渐成熟,并且有Alphawave Semi/Broadcom/GUC/Marvell等制造商承担chiplet的物理设计,因此如果您有资金,使用chiplet构建自己的ASIC并不困难。困难在于缺乏一套成熟的价值转换方法,也没有这种方法的通用公式。因为每个公司的情况都不一样。

例如,AMD 使用 Foveros 没有任何好处。这是因为台积电可以使用SoIC。不过对于英特尔来说,使用 Foveros 是英特尔代工业务必不可少的一部分,证明了“Foveros 作为构建实用产品的 3D 实现技术是完全有用的”,这自然也需要算作价值(虽然想想能估算出多少钱就很头疼)。这还需要一些时间才能成熟。

https://pc.watch.impress.co.jp/docs/column/tidbit/1666287.html

半导体精品公众号推荐

专注半导体领域更多原创内容

关注全球半导体产业动向与趋势

*免责声明:本文由作者原创。文章内容系作者个人观点,半导体行业观察转载仅为了传达一种不同的观点,不代表半导体行业观察对该观点赞同或支持,如果有任何异议,欢迎联系半导体行业观察。

今天是《半导体行业观察》为您分享的第4049期内容,欢迎关注。


『半导体第一垂直媒体』

实时 专业 原创 深度

公众号ID:icbank

喜欢我们的内容就点“在看”分享给小伙伴哦

半导体行业观察

2025-02-28

半导体行业观察

2025-02-28

半导体行业观察

2025-02-28

证券之星资讯

2025-02-28

首页 股票 财经 基金 导航