来源:半导体行业观察
2025-05-30 10:02:13
(原标题:高通服务器芯片,深度解读)
如果您希望可以时常见面,欢迎标星收藏哦~
来源:内容 编译自 chipsandcheese 。
2010年左右,云计算在AMD Opteron处理器和英特尔Xeon处理器的推动下迅速兴起。庞大的云市场激起了包括高通在内的其他CPU制造商的兴趣。到2010年代中期,高通已发展成为移动SoC市场的一股强大力量,并拥有多款自主研发的CPU设计。他们有充分的理由对其云服务器前景充满信心。服务器芯片的高核心数量意味着较低的单核功耗,削弱了AMD和英特尔在单线程高性能方面的优势。
与此同时,高通的移动领域背景使其在低功耗CPU设计方面拥有丰富的经验。其庞大的移动市场使其能够使用三星的10纳米FinFET工艺。这至少可以使其与英特尔的14纳米节点保持公平竞争,即便这并不能使高通在功耗和密度方面占据绝对优势。高通希望利用这些优势,在云计算领域推出一款更便宜、更低功耗的竞争对手。
为了打入云计算领域,高通需要一种性能足够强大的 CPU 架构,以满足诸如尾端延迟等关键指标。在 Hot Chips 大会的演示中,高通指出,将一堆性能较弱的内核塞进芯片中并称其为“日产”是行不通的。Arm 云 CPU 或许不必与英特尔和 AMD 的内核匹敌,但它们确实需要达到基准性能水平。高通希望在保持其传统功耗和密度优势的同时做到这一点。
核心概述
Falkor CPU 架构旨在以低功耗和低硅片面积要求满足这一性能门槛。Falkor 是一款 4 宽 aarch64 核心,其功能继承自高通之前的移动核心。它运行 64 位 Arm 指令集(aarch64、armv8),并从 armv8.1 中引入了一些功能。由于目前 Arm 服务器应用程序的安装量不大,因此不支持 32 位 Arm。Falkor 是高通第五款自主研发的核心设计,也是该公司首款专为云计算设计的架构。
Centriq 2400系列芯片在398平方毫米的芯片上封装了多达48个Falkor核心,TDP为120瓦。这意味着每个核心的功耗低于2.5瓦。高通指出,在典型的全核负载下,功耗通常远低于120瓦。
Centriq 2452 系统配备了 96 GB 的 DDR4,运行速度为 2666 MT/s,并将自己标识为“Qualcomm Centriq 2400 参考评估平台 CV90-LA115-P23”。
前端
Falkor 拥有 L0 和 L1 指令缓存,与高通之前的 Krait 架构类似,可能还有 Kryo。24 KB、3 路组相联的 L0 指令缓存能够以更低的功耗和延迟提供指令。L0 的大小可容纳绝大多数指令读取,而 64 KB 的 8 路 L1 指令缓存则可处理更大的代码占用空间。虽然 L0 的作用类似于其他 CPU 中的微操作缓存和循环缓冲区,但它像传统指令缓存一样保存 ISA 指令字节。
两级指令缓存都有足够的带宽来满足 Falkor 的 4 宽解码器的需求。两级指令缓存相互排斥,因此核心实际上拥有 88 KB 的指令缓存容量。高通可能会使用“受制于缓存”的设置来维持这种排斥关系。如果是这样,传入的探测必须同时检查 L0 和 L1,而 L1 访问除了填充 L0 数据外,还会产生从 L0 复制回数据的额外开销。“受制于缓存”的设置可以让 L1 充当 L0 的监听过滤器,从而降低 L1 访问的成本,但总缓存容量会减少。
独有的 L0/L1 设置赋予 Falkor 比当代核心更高的指令缓存容量。直到几年后苹果推出 M1 芯片,Falkor 才在这方面被超越。高指令缓存容量使得 L2 代码提取带宽变得不那么重要。与当时的许多 64 位 Arm 核心,甚至 AMD 的 Zen 之前的核心一样,一旦代码溢出到 L2,Falkor 的指令吞吐量就会急剧下降。不过,Falkor 在这方面的表现仍然优于 A72。
Falkor 的指令缓存受奇偶校验保护,这在许多 CPU 中很常见。硬件通过使损坏的行无效并从 L2 重新加载来解决奇偶校验错误。指令缓存还将分支目标与指令字节一起保存,因此可用作分支目标缓冲区 (BTB)。单次缓存访问即可同时提供指令和分支目标,因此 Falkor 无需像具有解耦 BTB 的内核那样进行单独的 BTB 访问。然而,这会阻止分支预测器跟踪 L1i 未命中后的指令流。
在 L0 中,执行分支指令会产生一个流水线气泡(2 个周期延迟),而在 L1 中则最多会产生 6 个周期延迟。对于较小的分支占用空间,Falkor 使用 16 条目分支目标指令缓存 (BTIC) 来实现零气泡执行分支指令。与 BTB 不同,BTIC 将指令缓存在分支目标地址而不是目标地址。因此,它绕过了缓存延迟,并允许零气泡执行分支指令,而无需使 L0 达到单周期延迟。
方向预测使用多个历史表,每个历史表使用不同的历史长度。分支预测器跟踪哪个历史长度及其对应的表最适合给定分支。高通描述的方案在概念上类似于 TAGE 预测器,后者也使用多个历史表和标签表来指示它们是否对给定分支有用。Falkor 不一定使用经典的 TAGE 预测器。例如,历史长度可能不是几何级数。但是,通过为每个分支使用最合适的历史长度来节省历史存储的想法仍然有效。Arm 的 Cortex A72 使用一个两级预测器,大概只有一个表和一个固定的历史长度。
在一项抽象测试中,测试了不同数量的分支,每个分支以随机递增的模式被执行或不执行,Falkor 的表现略优于 Kryo。Falkor 在分支数量较多时处理得更好,尽管在分支数量较少的情况下,两个核心能够处理的最长重复模式相似。
Falkor 是一个用于间接分支的两级间接目标数组,它从寄存器读取目标,而不是指定跳转距离。间接分支可能指向不同的目标,这给分支预测增加了另一个维度的难度。Falkor 的第一级间接目标数组有 16 个条目,而第二级有 512 个条目。
只要总目标数不超过 16,间接分支具有多个目标几乎不会带来任何损失。这可以是一个分支在 16 个目标之间切换,或者八个分支在两个目标之间交替。
返回是间接分支的一种特殊情况,因为它们通常会返回到调用点。Falkor 和 Kryo 一样,有一个包含 16 个条目的返回堆栈。Cortex A72 的返回堆栈更大,有 31 个条目。在 Falkor、Kryo 和 A72 上,函数调用和返回大约需要 4 个周期,也就是说,每个带链接分支指令平均需要 2 个周期。
Falkor 的解码器每个周期最多可将四条指令转换为微操作。与大多数其他 CPU 一样,高通的目标是将大多数常见指令解码为单个微操作。128 位矢量数学指令似乎是一个显著的例外。
重命名/分配
来自解码器的微操作需要在后端分配资源,以便在乱序执行期间进行记录。Falkor 的重命名器每周期最多可以处理 个微操作的寄存器重命名和资源分配。然而,第四个槽只能处理直接分支和一些特殊情况,例如 NOP 或可识别的寄存器归零情况。包含 ALU 操作的条件分支(例如cbz/ cbnz)不能进入第四个槽。
除了通过将零立即值移动到寄存器中来对寄存器进行清零的特殊处理之外,我没有看到执行其他常见的优化。没有 MOV 消除,并且重命名器无法识别 XOR 或从自身减去寄存器会导致零。
无序执行
Falkor 没有传统的重排序缓冲区(ROB)。相反,它使用了一系列结构,这些结构共同支持乱序执行,同时确保程序结果与按序执行一致。Falkor 拥有一个包含 256 个条目的重命名/完成缓冲区。高通进一步指出,Falkor 可以同时运行 128 条未提交的指令,以及另外 70 多条未提交的指令,总共 190 条正在运行的指令。该核心每个周期可以退出 4 条指令。
从微基准测试的角度来看,Falkor 的表现类似于 Arm 的 Cortex A73。它可以在长延迟负载后释放寄存器和加载/存储队列条目等资源,即使超过 256 条指令,其重新排序能力也没有明显的限制。未解析的分支指令同样会阻止乱序资源的释放,之后就可以测量 Falkor 的重新排序窗口了。此时,我可能正在测量高通认为的未提交指令。
从未提交指令的角度来看,Kryo 和 Falkor 拥有相似的重排序能力。但除此之外,高通重新平衡了执行引擎,以支持非矢量代码的一致性能。Falkor 比 Kryo 拥有更多的寄存器文件条目,更重要的是,它的内存排序队列更大。
Falkor 上的整数执行流水线专门用于处理不同类型的运算。其中三个流水线包含整数 ALU,第四个流水线专用于直接分支。间接分支使用其中一个 ALU 端口。另一个 ALU 端口包含一个整数乘法器,该乘法器每周期可完成一次 64 位乘法,延迟为 5 个周期。每个 ALU 流水线都有一个大小适中的调度器,包含约 11 个条目。
Falkor 拥有两条基本对称的浮点/矢量流水线,每条流水线也包含一个 11 个入口调度器。两条流水线都能处理浮点加法、乘法和融合乘加等基本运算。向量整数加法和乘法也可以在两条流水线上执行。更专业的操作,例如 AES 加速指令,则仅由一条流水线支持。
浮点和向量执行延迟与 Kryo 相似,标量浮点运算的吞吐量也类似。Falkor 的两个浮点/向量管道均具有每周期 64 位的吞吐量。128 位数学指令被拆分为两个微操作,因为它们在调度程序、寄存器文件和完成缓冲区中占用两个条目。这两个因素都会降低矢量化代码的潜在收益。
内存访问
Falkor 的加载/存储子系统设计为每个周期处理一次加载和一次存储。内存流水线始于一对 AGU,一个用于加载,一个用于存储。这两个 AGU 均由一个统一的调度程序提供,该调度程序包含大约 13 个条目。对于 L1D 命中,加载到使用延迟为 3 个周期,并且加载 AGU 可以处理索引寻址而不会造成任何性能损失。
来自加载AGU的虚拟地址(VA)继续访问32 KB的8路L1数据缓存,该缓存每周期可提供16字节。经测试,Falkor每周期可以处理单个128位加载或存储,或者在同一周期内处理64位加载和64位存储。混合128位加载和存储不会带来每周期超过128位的吞吐量。
缓存中的每个位置都有一个虚拟标签和一个与之关联的物理标签...如果您不必在缓存之前执行 TLB 查找,则可以更快地获取数据,并且可以以更好的延迟返回数据。
L1D 同时具备虚拟和物理标记功能,这使得 Falkor 无需等待地址转换即可从 L1D 检索数据。传统的 VIPT(虚拟索引,物理标记)缓存可以使用虚拟地址选择一组行,但在检查标记是否命中之前需要物理地址 (PA) 可用。高通表示,某些负载可以完全跳过地址转换,在这种情况下,负载完全无需检查物理标记。这是一个相当有趣的设置,我很好奇它如何处理多个虚拟地址 (VA) 混叠到同一个 PA 的情况。
……一种构建在 L1 数据缓存侧面的新型结构,其作用类似于回写缓存。它由 L2 的存储缓冲区、加载填充缓冲区和监听过滤缓冲区组合而成,因此,这种位于侧面的结构为我们提供了回写缓存的所有性能优势和功耗节省,而无需 L1 数据缓存真正进行回写。
Falkor 的存储管道根本不检查标签。核心有一个直写式 L1D,并使用一个未命名的结构来提供回写式 L1D 的功耗和性能优势。它的功能听起来类似于 Bulldozer 的写合并缓存 (WCC),所以在高通没有更好的名称的情况下,我就这么叫它了。对同一缓存行的多次写入会在 WCC 处合并,从而减少 L2 访问。
Falkor 上的商店访问 L1D 物理标签以确保一致性,并在到达 WCC 后执行此操作。因此,商店合并机制还可以减少物理标签检查,从而节省电量。
高通声称他们能够提供写回缓存的性能,这当然是合理的。Falkor 核心的写入速度不能超过 16B/周期,而 L2 似乎可以提供更高的带宽。查看 WCC 的一种方法是每 128B 缓存行进行一次存储,这表明它具有每核 3 KB 的结构,并且每 2-3 个周期可以向 L2 写回 128B 缓存行一次。但实际应用中,软件应该不会遇到这种情况。
其他使用直写 L1D 的架构,尤其是英特尔的奔腾 4 和 AMD 的推土机,在存储转发性能方面表现不佳。Falkor 在这方面表现不佳,但也不算太糟糕。在其依赖的存储中,32 位对齐的加载操作可以获得 8 个周期的延迟(因此存储操作可能需要 4 个周期,加载操作可能需要 4 个周期)。较慢的情况,包括部分重叠,只需额外增加一个周期即可处理。我怀疑大多数核心处理部分重叠的方式是等待存储提交,然后让加载操作从缓存中读取数据。Quaclomm 可能为 Falkor 提供了一种更先进的转发机制,以避免从 WCC 读取数据带来的延迟。
使用直写式 L1D 可以让 Qualcomm 奇偶校验保护 L1D,而无需 ECC。与指令缓存一样,硬件通过从受 ECC 保护的低级缓存重新加载行来解决奇偶校验错误。
地址转换
与移动核心不同,服务器核心在虚拟机内部运行工作负载时可能会占用大量数据。虚拟化会显著增加地址转换开销,因为程序可见的虚拟地址 (VA) 会被转换为虚拟机可见的地址分配 (PA),而后者又会通过虚拟机管理程序页表转换为主机地址分配 (PA)。TLB 未命中可能需要遍历两组分页结构,从而将单个内存访问转化为十几次底层访问。
Kryo 似乎只有一个 192 条目的单级 TLB,这显然不适合此类服务器需求。Falkor 放弃了这种“全有或全无”的方法,转而采用更传统的两级 TLB 设置。一个 64 条目的 L1 DTLB 由一个 512 条目的 L2 TLB 支持。从 L2 TLB 获取转换仅增加两个周期的延迟,因此速度相当快。L1 DTLB 和 L2 TLB 都存储“最终”转换,将程序的虚拟地址完全映射到主机上的物理地址。
Falkor 还拥有一个 64 条目的“非最终” TLB,它缓存指向最后一级分页结构的指针,并且可以跳过大部分页面遍历。另一个拥有 64 个条目的“第二阶段” TLB 缓存从虚拟机 PA 到主机 PA 的转换。
系统架构
服务器芯片必须支持高核心数和高IO带宽,这是服务器SoC和移动SoC之间的另一个显著区别。高通将Falkor核心部署在双核集群(称为双工)中,并将其作为其Centriq服务器SoC的基本构建模块。Kryo也使用了共享L2的双核集群,因此这个概念对高通来说并不陌生。
Falkor 的 L2 缓存容量为 512 KB,支持 8 路组相联,包含 L1 缓存的内容。它既充当 L1 缓存和片上网络之间的中级缓存,又充当 L2 缓存的监听过滤器。L2 缓存受 ECC 保护,因为它可以包含尚未在其他任何地方写回的修改数据。
高通表示,L2 的延迟为 15 个周期,但指针追踪模式的延迟为 16-17 个周期。无论如何,与 Kryo 超过 20 个周期的 L2 延迟相比,这无疑是一个值得欣喜的改进。Kryo 和 Arm 的 Cortex A72 将 L2 用作末级缓存,这给它们带来了一项艰巨的任务:既要保持足够低的延迟,以良好的性能处理 L1 未命中,又要拥有足够的容量,使核心免受 DRAM 延迟的影响。A72 使用 4 MB 的 L2 缓存,延迟为 21 个周期,而 Kryo 的延迟和 L2 容量都比较低,这让他们表现不佳。
多个交错(即存储体)有助于增加二级 (L2) 带宽。高通并未具体说明交错的数量,但表示每个交错每周期可以传输 32 字节。L2 似乎能够每周期处理 128B 的写回,因此它可能至少有四个交错。两个 Falkor 核心组合在一起,每周期的加载/存储带宽仅为 32B,因此 L2 的带宽足以满足两个核心的需求。相比之下,Kryo 和 A72 上的 L2 缓存的带宽明显低于其 L1 缓存。
Falkor 双工器使用 Qualcomm 系统总线 (QSB) 协议与系统接口。QSB 是一种专有协议,其功能与 Arm 使用的 ACE 协议相同。它也可以与英特尔的 IDI 或 AMD 的 Infinity Fabric 协议进行比较。该双工器的系统总线接口在每个 128B 交错模式下,每个方向每个周期的带宽可提供 32 字节。
片上网络
高通使用双向分段环形总线连接核心、三级缓存和输入/输出控制器。数据传输使用两组双向环,流量以 128B 的缓存行粒度在两个双向环之间交错传输。Centriq 总共有四个环,覆盖顺时针和逆时针方向的奇偶交错。高通的幻灯片显示每个环的传输速率为 32B/周期,因此环形总线在每个方向上实际上拥有 64B/周期的带宽。
简单的带宽测试显示,双核集群可以访问略低于 64 GB/s 的 L3 带宽,这使得高通在缓存带宽方面比 Cortex A72 拥有显著优势。双核 Falkor 集群的 L3 带宽与 Core i5-6600K 上的 Skylake 核心相当。
环形总线客户端包括最多 24 个双核集群、12 个 L3 缓存切片、六个 DDR4 控制器通道、六个处理 32 个 Gen 3 通道的 PCIe 控制器以及各种低速 IO 控制器。
L3缓存
Centriq 的 L3 切片容量为 5 MB,采用 20 路组相联设计,使芯片在 12 个切片上总共拥有 60 MB 的 L3 容量。46 核 Centriq 2452 启用了 57.5 MB 的 L3 容量。可以预留缓存路数,将 L3 容量分配给不同的应用程序和请求类型,从而有助于确保服务质量。
与许多其他多核共享大型 L3 的设计一样,地址在 L3 切片之间进行哈希处理,以实现带宽可扩展性。与英特尔和 AMD 的设计不同,Centriq 不会将 L3 切片数量与核心数量匹配。然而,每个 Centriq L3 切片都有两个环形总线端口,因此 L3 和 Falkor 会将相同的聚合带宽双工到片上网络。
L3 延迟高达 40 纳秒以上,或超过 100 个周期。对于拥有 512 KB L2 的内核来说,这相当高。带宽可以扩展到 500 GB/s 以上,这对于带宽要求极高的矢量工作负载以外的任何工作负载来说都足够了。Falkor 本身就不是矢量工作负载的理想选择,因此 Centriq 拥有充足的 L3 带宽。在中等带宽负载下,延迟会增加到 50 纳秒左右,而当接近 L3 带宽极限时,延迟会达到 70-80 纳秒。所有双工负载的争用可能会使延迟超过 90 纳秒。
Centriq 的 L3 也充当着芯片间的一致性点。L3 不包含上层缓存,并维护 L2 监听过滤器以确保一致性。在这方面,它的工作原理类似于 AMD Zen 或英特尔 Skylake 服务器上的 L3。每个 L3 切片最多可以跟踪 32 个未完成的监听。同一双工模式下核心之间的缓存一致性操作无需通过环形总线。
核心间延迟测试显示,双工模式下核心对之间的延迟较低,但从绝对意义上来说延迟仍然较高。这也表明高通通过关闭双工模式下的一个核心,禁用了 Centriq 2452 上的两个核心。这样做可以稍微提高性能,因为两个核心不必共享 L2 容量和系统总线接口。
Centriq 支持六个通道,最高可达 768 GB 的 DDR4 内存。内存控制器支持高达 2666 MT/s 的速度,理论带宽为 128 GB/s。内存延迟约为 121.4 纳秒,在高带宽负载下控制不佳。带宽使用率超过 100 GB/s 时,延迟可能会超过 500 纳秒。相比之下,英特尔能够将延迟保持在 200 纳秒以下,带宽利用率超过 90%。不过,从绝对意义上讲,Centriq 拥有充足的带宽。与亚马逊 Graviton 1 等当代 Arm 服务器竞争对手相比,Centriq 拥有巨大的带宽优势。此外,与 Graviton 1 相比,更大的 L3 应该会降低 DRAM 带宽需求。
与英特尔和 AMD 服务器处理器不同,Centriq 无法扩展到多插槽配置。这使得 Centriq 服务器最多只能支持 48 个核心,而 AMD 的 Zen 1 和英特尔的 Skylake 则可以通过多插槽进一步扩展。高通决定不采用多插槽配置是有道理的,因为跨插槽连接需要大量带宽和额外的互连工作。然而,这确实排除了更专业的云应用程序,这些应用程序受益于拥有超过一百个 CPU 核心和数 TB 内存的虚拟机。仅有 32 个 PCIe 通道也限制了 Centriq 承载大量加速器的能力。即使是当代的高端工作站也拥有更多的 PCIe 通道。
因此,Centriq 的系统架构旨在应对主流云应用,而非试图覆盖英特尔的所有产品。通过避免处理所有这些专用应用,高通的数据中心工作可以避免分心,专注于在常见的云场景中做到最好。对于这些用例,坚持使用 32 个 PCIe 通道并集成 USB 和 SATA 等传统南桥功能可能会降低平台成本。虽然 Centriq 的互连性能可能不如英特尔,但它远远领先于 Graviton 1。
表现
在 SPEC CPU2017 测试中,Falkor 核心的性能远超 Arm 的 Cortex A72,在整数运算方面领先 21.6%,在浮点运算方面领先 53.4%。但在更先进的工艺节点上,它落后于 Arm 的后续产品。
在 SPEC CPU2017 的整数工作负载测试中,Falkor 在 505.mcf 和 502.gcc 等内存密集型工作负载中表现最佳。Falkor 在 503.bwaves 和 507.cactuBSSN 等几个浮点子测试中取得了巨大的领先优势,这进一步扩大了其在浮点套件中的整体领先优势。
从 IPC 的角度来看,Falkor 在 538.imagick 等缓存友好型工作负载中表现出色。然而,并非所有高 IPC 工作负载都能让 Falkor 保持显著领先。在 SPEC CPU2017 整数套件中的两项高 IPC 测试中,Cortex A72 在 548.exchange2 和 525.x264 中仅略微落后。这提醒我们,Falkor 的宽度并非 4 倍。
为了进行比较,我纳入了 Skylake 的 IPC 数据,Skylake 是一款 4 核处理器,没有重命名器插槽限制。与 Falkor 不同,它在较轻松的工作负载下能够达到甚至超过 3 IPC。
四核比较
Zip 设置为使用八线程并固定到四核,Falkor 遥遥领先于 Cortex A72。每个集群使用一个核心,与在两个集群中同时加载两个核心相比,性能提升微乎其微。
与 7-Zip 不同,libx264 的矢量化工作负载表现良好。Falkor 的矢量处理能力较差,Cortex A72 也同样如此。同样,使用四个双工处理器带来的额外 L2 容量也略微提升了性能。Falkor 的表现同样轻松超越 A72。
最后的话
高通的 Kryo 移动核心结合了高核心吞吐量和低于标准的内存子系统。Falkor 则采取了不同的策略,试图打入服务器市场。它的核心流水线在很多方面都比 Kryo 有所下降。Falkor 的执行资源更少,加载/存储带宽更小,并且对 128 位向量的处理能力更差。它的 3+1 重命名器更像是分支融合的替代品,而不是让 Falkor 真正成为一个 4 核处理器,这又一次落后于 Kryo。Falkor 在某些方面有所改进,例如能够乱序释放资源,但它缺乏 Kryo 所能带来的原始吞吐量。
作为交换,Falkor 获得了更强大的内存子系统。它的指令缓存容量增加了一倍多。加载/存储单元可以跟踪更多正在进行的访问,并能执行更快的存储转发。即使是部分加载/存储重叠等棘手的情况也能得到良好的处理。在核心之外,Falkor 的 L2 比 Kryo 的快得多,而且 L2 无法从高带宽互连背后的 60 MB L3 中获益。高通并没有浪费执行单元和核心宽度,而是努力确保 Falkor 的正常运行。
Falkor 的目标很可能是在各种工作负载下提供足够的性能,而不是在少数几个简单的工作负载上追求卓越的性能。为了实现高通的密度目标,削减核心流水线或许也是必要的。在 2017 年,48 个核心已经相当可观,这将使高通在单路服务器领域的核心数量上超越英特尔和 AMD。在 120W 的功耗范围内实现这一目标更是令人印象深刻。Kryo 可能对于这个角色来说有点太“臃肿”了。宽流水线和完整的 128 位矢量执行单元非常耗电。数据传输也会消耗大量电量,而 Kryo 较差的缓存容量更是雪上加霜。
Falkor 最终成为 2017 年 Arm 服务器市场的有力竞争者。Centriq 完胜亚马逊的 Graviton 1,后者是首个由主流云服务提供商推出的广泛可用的 Arm 平台。即使与 Kryo 相比核心数量有所减少,Falkor 的性能仍然比 A72 强得多。结合更强大的内存子系统,Falkor 能够在核心数量上超越 A72,同时在芯片上拥有更多核心。
但击败 Graviton 1 还不够。2010 年代后期,Arm 服务器市场发展并不顺利。为了打造密度优化的 Arm 服务器 CPU,曾有过几次尝试,但都以失败告终。这些尝试包括 AMD 的“西雅图”、Ampere 的 eMAG 8180 和 Cavium 的 ThunderX2。x86-64 的强劲竞争以及 Arm 软件生态系统的新生状态,很可能使得这些早期的 Arm 服务器芯片难以打入市场。例如,与 Skylake-X 相比,Falkor 的核心要小得多。Centriq 的内存子系统与 Kryo 或 A72 相比性能强劲,但与 Skylake 相比,它的 L2 延迟较短,L3 延迟较高。
高通数据中心技术公司在开发 Centriq 服务器 SoC 时无疑取得了巨大成就。将数十个核心拼接在一起,并在一个芯片上每秒传输数百 GB 的数据绝非易事,这与移动 SoC 设计截然不同。但与英特尔和 AMD 等经验丰富的竞争对手较量并非易事,即使瞄准的是云计算这样的特定领域。直到 2020 年之后 Ampere Altra 推出,Arm 才真正在服务器市场站稳脚跟。当时,Arm 更强大的 Neoverse N1 核心和台积电的 7 纳米 FinFET 工艺将 Falkor 甩在了身后。高通计划在 Falkor 之后推出“Saphira”核心,但据我所知,这款核心从未上市。
然而,高通正寻求重返服务器市场,并宣布向沙特政府支持的人工智能公司 HUMAIN 提供“数据中心 CPU 和 AI 解决方案”。NVIDIA的 NVLink Fusion 公告也提到,高通是其服务器 CPU 的供应商,其 CPU 可通过 NVLink 与 NVIDIA 的 GPU 集成。我期待着看到这一切进展,以及高通的下一代服务器 CPU 是否会借鉴 Centriq 的经验。
https://chipsandcheese.com/p/qualcomms-centriq-2400-and-the-falkor
半导体精品公众号推荐
专注半导体领域更多原创内容
关注全球半导体产业动向与趋势
*免责声明:本文由作者原创。文章内容系作者个人观点,半导体行业观察转载仅为了传达一种不同的观点,不代表半导体行业观察对该观点赞同或支持,如果有任何异议,欢迎联系半导体行业观察。
今天是《半导体行业观察》为您分享的第4050期内容,欢迎关注。
『半导体第一垂直媒体』
实时 专业 原创 深度
公众号ID:icbank
喜欢我们的内容就点“在看”分享给小伙伴哦
半导体行业观察
2025-05-31
半导体行业观察
2025-05-31
半导体行业观察
2025-05-31
半导体行业观察
2025-05-31
半导体行业观察
2025-05-31
半导体行业观察
2025-05-31
证券之星资讯
2025-05-30
证券之星资讯
2025-05-30
证券之星资讯
2025-05-30