来源:半导体行业观察
2025-04-28 09:54:09
(原标题:HiPi联盟!多芯片集成,业界呼唤Chiplet设计工具!)
如果您希望可以时常见面,欢迎标星收藏哦~
上个月底参加了HiPi联盟大会,以及在近期多场和3DIC、先进封装有关的会议中,国内设计界对EDA的呼声可谓此起彼伏。这几天方得空整理了一下若干专家对此的讨论和分享。由于流程环节繁多,内容庞大,本文仅挑一些要点做分享,如有更适合的场合再分别做详细介绍。
Contents
01 架构设计
02 设计实现
03 仿真
04 PV验证/签核
05 供电/功耗
06 标准/底座/生态
07 商用工具现状
本篇主要分享从设计视角,对于Chiplet tool的真实需求。在开始前,我们略去了Chiplet设计的必要性和后摩路径的好处(在其他篇中我们再分享),但是我们从一个基本的角度来看必须用Chiplet来构建未来系统,尤其是算力系统的必要性——晶体管transistor的增长。
2024年,成功商用单片(苹果M3 max@3nm)晶体管最多达920亿个;而Chiplet先进封装集成(英伟达B200@4nm)晶体管最多达2080亿个。预测到2030年:单片配置的晶体管极限是2000亿个,而3D异构集成的晶体管将达10000亿个。可见,Chiplet是必由之路。
对于形形色色的先进封装,需要有统一完备的设计工具来完成系统架构,其意义是多方面的,不仅仅是快速敏捷完成设计,更是对SoC进行下一代的迭代,可以借助先进封装的设施完成性能、scaling-up、scaling-out、成本和良率各方面的进阶。所以不仅仅是工艺实现,更多的是架构的设计。
目前,3DIC结构的设计,从2D往后,均称为Chiplet设计,对应Chiplet自动设计Tool,通常包括:
架构设计
基于有限的设计数据,如何探索更优的系统堆叠方案,支持早期验证评估,进而支持顶层时序、电源、低功耗等方案设计?
设计实现
当SRAM和Logic Die面积不一样,如何确定上下die面积和规划mem的位置,以及跨die信号的寻优,提升PPA?
模拟设计
如何支持多工艺PDK的3DIC检查和编辑,以及如何解决多工艺文件和复杂结构完整RC提取困难的问题?
PI仿真
如何针对3D跨die电源网络、分立工艺以及成倍增加的电路规模进行准确且性能可接受的仿真验证
电磁仿真
当TSV等结构破坏了背景均匀介质的假设时,如何完善和优化die内及die间的全金属链路的电磁高质量分析?
底座和标准
面对多Netlist/多Tech建模,以及模型存储、规模显著增加。如何进行底座建模支撑后续平滑演进并具备一定兼容性?
我们来听一下业界在3DIC给设计和EDA带来挑战中,实践先驱们的声音。
1.架构设计
我们直接从架构设计开始讲。在3DIC中(包括2.5D/3D/大规模晶圆集成)架构设计是对SoC直接重构的方法。本次听专家们分享,在这个点上可谓“叫苦不迭”,因为不少案例都是因为架构设计不够充分,或甚至没有什么架构设计就开始把Die拼接和堆叠的,导致在签核的各种分析中无法得到想要的结果而重返最初的设计。
在传统2D SoC设计中,所需要的floorplan以处理器为核心单元,摆放上各种IP,然后电源规划,或者一些sensor,随后总线、SerDes、PLL、时钟,都跑完后到封装的Bump或者wire bond,一切都是x、y的。
但是到了3D,就变成了x y z,从垂直方向有了上下的Die(若2.5D就是水平互连),根据不同的封装组件,在操作之初构建这样的多芯片系统,就要求tool有强大的摆放、可视化与位置跟踪功能。
对于多Die在floorplan阶段的位置摆放,观察对齐、是否有位置缺陷、或者memory没有对齐,或者TSV,或者Hybrid bonding,或是mismatch,都需要工具的细节。
第二,在架构设计阶段,或者说在比较早期的floorplan,就希望看到早期的分析,比如给一个thermal的功耗信息。当然,功耗来自于综合,但是综合若是来自其他的工具,那么数据未必能有效传递的。
2D里面传统上用标准格式DEF/LEF,或者物理信息、网表,数据交互时可能会有一些loss,但是在3D场景中,尤其早期设计,不能用那么多子流程工具,需要据高效的、无损的传递。所以在这个点上,首先就呼唤一个统一的数据底座了。
如果有这样的原生数据基座,就可以快速跑power、然后static的IR drop,然后看电源的强弱,如果哪里不够强,就可以拿上补,再跑做验证。所以整体上,早期验证要跑得很快才够做架构方案,架构探索。
更多的Partition的需求会从物理实现的时候看到,比如做全局摆放先,再进一步做Partition,这可能就会来回迭代,这一点更像是空间探索的需求,我们在物理实现部分中详述。
2. 物理实现
Implementation是芯片从RTL综合完之后,从Netlist一直到GPS out中间的所有过程,在2D时代是芯片设计的核心,通常在限定的面积框里, 让工具去算所有的逻辑怎么去走,所有的data path、timing,然后让面积和功耗,达到同时最小。即PPA(Performance、power和area)三个因素的trade off,怎么让让你在的PPA得到最优,是PR工具的一个价值。
在3D中, 存在上下(左右)Die的联动、上下(左右)Die的交互。这时候若单独调一个Die(或者说)各Die之间分别跑PR,则可能会出现“你往东、我往西”的指标拉扯的情形。
若要上下(左右)Die交互,距离被拉扯的很远,亦或是有些的应该放到上Die,比较好、有些逻辑(组合逻辑、计算单元)放到上Die,就不用在下Die去试,否则也会来回detour。因为有各Die联动的设计情况,所以APR是PPA的基础。(当然,会遇到3D场景中的,不仅是传统视角的PPA,而是PPPAC,后续再展开。)
除此之外,更多的一各需求是完成基于电源网络或者热感知的详细布线,所以现在业界也叫APR (auto placement and routing)。APR工具的需求量,依然会很大,因为3D后期可能走向designer各自需要的各异的、定制堆叠,混合堆叠都有可能。
另外,是关于协同设计的,即在APR的时候,多Die可以根据设计指标,协同去收敛,这一点在3D场景中,很难通过工程师的经验来做,因为对于电源网络和热,很难预测。当然,对于不同资源(如逻辑)放到上Die好还是放到下Die好,更应该在早期Partition的时候做。
比如传统手机芯片中,或者是网络基站,可能只能非常local地(限于2D空间内),如果核心逻辑交互不大的话,或许人为地把它放到下Die,或者是放到某Die;但比如说这块逻辑交互地别多,就会考虑相对独立地去做拆分(拆分开后功能的实现会更好,这是partition的意义)。若该逻辑和周围都在交互,却把和它交互的放到下Die,就会造成下Die的很多signal的穿插,则不利于我们3D(Design)的实现。
从这里就引申出来tool的需求,EDA应该怎么帮助designer去partition和做APR。有一种方法叫GP-based partition。就是基于全局布局(或FP)完成90%的大概位置,做Partition,当然也要看是否足够拆分成更多的Die。
所以,APR和design partition的迭代优化,是真正3D的esigner一个很强烈的需求。就目前来看,还是没有比较好用的工具。
第三是3D架构引入对于过程调用的分析与验证,即协同设计和优化。3D和2D相比,它带来了大量的TSV、Hybrid bonding等新的结构要素,这些在2D里面是没有的。如果设计的产品有非常多TSV的话,不管是供电,或者是信号,一定会对planner中摆放的core的区域的性能会打折,尤其是密密麻麻的TSV阵列情况。
和以往2D 设计对于核心逻辑放中间,IP、IO放周边,最大资源让给core的基本设计,有了完全的改变,因为通孔互连,很可能你的core已经被3D架构的新要素给打成筛子了,所以(传统)工具也就不再适应,自然PPA的结果就会非常差了,所以需要专门的Chiplet tool去考虑新架构引入调用的协同设计优化。
3. 仿真
仿真来自架构设计验证和完整3D设计的多物理仿真。
首先是对整个系统的仿真,或者说是高层次仿真。对于有上万或者数十万互连凸点的高速高性能多Die系统,仿真算量是很大的。 迫切需求是能够实现快速建模与高效仿真的系统级功能模型工具或平台。理想情况下,要能够在一周内完成整个系统模型的搭建与完善。
从芯片设计的视角出发,理想的设计流程应从系统级建模开始,确保软件层面的系统能够正常运行。鉴于芯片设计需面向特定应用场景,若以人工智能(AI)应用为例,需能够在系统模型中运行类似大语言模型(LLM)的复杂程序。通过这种方式,可以精准评估系统的真实性能,定位关键路径,并计算功耗指标。
为实现这一目标,需要构建系统级的数字孪生模型,全面涵盖系统的物理特性,包括但不限于芯片的电学特性、热学特性等。通过对物理模型的精确建模,并将其抽象为软件可处理的参数,再将这些参数反馈到系统级软件仿真中,从而实现对系统性能的准确预测。当然,工具或平台可能由一家公司独立开发,也可能是多家公司联合打造的计算平台都可以。然而,快速建模与高效仿真这两个目标的实现颇具挑战。
我们亟需提升仿真效率,核心诉求在于实现多核并行计算能力。当前虽有论文探讨利用多 CPU 集群(含超级计算机)或 GPU 加速系统级架构仿真 ——GPU 凭借其大规模流处理器阵列(Streaming Processor Array)具备天然的并行计算优势,但尚未出现能同时满足快速建模与高效仿真的成熟解决方案,若能开发此类工具,其市场潜力极为可观。
多物理仿真方面,对热力、以及多物理场,希望能在floorplan已经定了情况下,也有综合工具的话,可通过综合工具基于我的floorplan信息,基于我给你基本的70~80%准确度的功耗分布,基于此我跑fast file。
可能会相对来说,可以在早期的去做一些事情,而不是到最后就是那个就是还是没有办法挽回,或者重新去设计架构了。所以,在3D场景中,不是单单要多物理仿真的feature和精度,更多需要的是物理设计时候的协同仿真和优化。
4. PV验证/签核
验证、签核可以分为静态签核、PV验证和PI验证。
首先是跨Die的RC提取和跨Die的STA。如图所示,跨Die的情况是非常复杂的,之前设计者只考虑Die内的RC抽取就好了。其中电路尚比较容易,电容会比较麻烦一些,基本上就是M4/M5/M6的的串扰。到了3D场景,就有高层( 与层高度)的,还有TSV阵列这类走线的cross talk,还有并行的在上下底层的走线,这都是三维场景的新的影响。
以及,上下两个Die通过3D的中间的一层z方向到上下两个Die的接口处的RC是怎么佐证有效的抽取?如何把上下Die加上中间的整个链路的RC,完整抽取、表现出来?就设计多种Die间的场景。所以,对于垂直堆叠于通道链路的复杂结构,有效提取强依赖这方面的EDA。
跨Die的寄参提取,是为了确保高效的STA。如果 上下Die这种层次不一样的话,对RC的抽取、有STA迭代与迭代效率都会有一定影响。如果是超大规模,STA可能会跑不完,或者跑太久。所以,3DIC的tool需要考虑简化提效的。
STA还会考虑PVT的问题。
Process:多个Die不一定是相同的process(工艺),可能是两个、多个(工艺)就会有影响。比如说一些计算芯片,可能有专门负责AI的logic,还有专门的memory Die。后者可能对memory不用特别考虑成本,可能不太会去用特别先进的工艺,因为要考虑到良率。即先进工艺与没有那么先进工艺的两个process,天然会产生更大的variation。
Voltage:多Die间因为工艺不一样,低压设计也不同,不论调压,或是关断策略也不一样,所以其工作机制是非常复杂的。
Temperature:可能工作问题范围,当不同Die贴到一起后,若出现不同Die之间的温差,如上Die125度,下Die-45度的极端的情况,就要考虑多个温度档了。不同档位temperature的STA的分析,超大规模分析须要覆盖这所有的PVT文件。完美的STA的覆盖,其实就是所有的corner都是要覆盖到,对Sign-off最基本的需求,即完备性、准确性和效率。
PV验证,即DRC和LVS。产品质量的physical verification,就是DRC/LVS。如果不同工艺的两家Fab的PDK,验证中需要融合到一起,能在3D的场景里面其中的差异,都需要验证。
LVS需要检查跨Die结构的connectivity性能,可能分开独立验证,需要各Die之间互联的一致性。DRC也要考虑上面的Die和中间的封装资源(Bump+interposer)以及下面Die间的连接的DRC。
其次是PI/EMIR的分析。
PI里会考虑到支持model和flatten的两种验证模式。model based是完成die后抽取,这种情况考虑支持更多的端口,比如hybrid bonding、Micro-bump这些。Flatten方式是带上所有instance一起看,虽然精度好,但是计算量大,而3D结构的hybrid bonding的量是非常惊人的,一些大厂有测试过一些工具可能在大规模互连下,工具就直接跑挂了。就算业界的标杆工具也还有很多不足的,比如抽取速度特别慢,或者精度问题。
另外就是调用性和对内存的使用优化。前者,独立调用方面,如翻转率、功耗这些东西,你要支持客户反标。后者,是希望runtime提升,能支持Days级的迭代,如果仿真时间超过一周,就很难跟得上设计的变更了。
5. 供电/功耗
特别值得一提的是供电或者说功耗问题。
随着芯片复杂度提升,Chiplet 架构下的系统功耗已呈现量级跃升 —— 传统单 Die 芯片的峰值功耗通常为 200-300W,而多 Die 集成的 Chiplet 系统往往突破千瓦级。
功耗激增衍生出多重耦合问题,包括热管理复杂性,从而需要需引入液冷、均热板、微流等先进散热技术;热应力效应,温度梯度引发的热膨胀失配(CTE mismatch)导致封装结构产生机械应力,威胁芯片可靠性;电气-热-机械耦合,由功率密度提升导致的高温不仅影响器件电学性能(如晶体管阈值电压漂移),还会与供电网络产生协同效应(如 IR 压降加剧温升)等。
这些问题呈现强关联性,要求在设计阶段采用多物理场协同仿真,通过精确建模供电网络拓扑、热传导路径及应力分布,实现电源完整性(PI)与热可靠性的同步优化。
所以首先是Chiplet之间功率建模标准的需要,包括不同功率模型需要采取的标准和数据接口。其次是高电流密度下Chiplet老化模型,不仅与电学参数相关,还与物理空间布局密切相关。由于bump将电源引入芯片,再利用微互连供电分配,所以在复杂结构中供电从芯片外部传出,经TSV、μBump再返回芯片内部,所受的IR drop就非同小可。
可见电源完整性是一个非常复杂的问题。热梯度效应导致的局部温升、寄生参数(如寄生电阻、电感)引发的信号畸变,以及动态负载变化下的电压波动等问题相互耦合。不同芯粒(Chiplet)间的制程差异进一步引入新的变量维度 —— 传统单 Die 设计只需关注有限的电源噪声因素,而 Chiplet 系统需同时处理多工艺节点的电学特性差异、三维堆叠带来的传输延迟变化,以及异构集成导致的功率分布不均。
这些维度叠加显著增加设计复杂度和验证成本,所以对于供电和功耗的分析工具在早期分析和精确分析上均需要增加tool的功能。
6. 标准和底座
最后,标准和底座,以及生态。这几件相较2D芯片设计,更加把设计-封装制造-EDA要求紧密结合在一起。
底座方面,要求多Netlist/多工艺建模,底座建模的复杂度更高,架构设计难度更大,制程后续平滑演进也要一定的兼容性。不同工艺tech file和lib需要多netlist共享(海外已经从3DK演变到5DK)。
3D模型的存储方面,需要引入TSV/HB建模,引入3D连接关系,全局坐标系等。规模显著增加会带来对于存储需要,减少冗余信息,做好聚类和信息复用的需求。以及做好同质化的聚类,提升并行化处理的能力。
这里不得不参考TSMC快速带动的底座生态,2023年的委员会由四家头部EDA、TSMC和Intel。
从行业生态角度,设计者们希望EDA vendor能整合头部企业的实践经验,将 Chiplet 设计中的电源完整性优化、热协同仿真、异构接口适配等解决方案集成至工具平台。通过构建标准化的设计流程与生态化工具链,降低中小公司的技术门槛,推动 Chiplet 技术的普惠应用。这也凸显了 EDA 工具在芯片产业协同创新中的核心枢纽作用 —— 其不仅是设计载体,更是行业技术共享与生态构建的关键媒介。
7. 商用工具现状
本篇就略提商用工具现状了,这方面的资料还是非常多的。总之,三大家都在积极布局3DIC的方方面面,不仅限从传统强势2D工具的延伸和升维,包括在AI/ML的运用,在空间探索、在布线解决方案、在建模和提取提速等等。
特别值得一提的是,在2024年初Synopsys和Ansys的合并,快速在半年之间就布局了Chiplet EDA全流程从架构设计到物理实现,从大规模仿真到多物理签核的工具整合。
半导体精品公众号推荐
专注半导体领域更多原创内容
关注全球半导体产业动向与趋势
*免责声明:本文由作者原创。文章内容系作者个人观点,半导体行业观察转载仅为了传达一种不同的观点,不代表半导体行业观察对该观点赞同或支持,如果有任何异议,欢迎联系半导体行业观察。
今天是《半导体行业观察》为您分享的第4017期内容,欢迎关注。
『半导体第一垂直媒体』
实时 专业 原创 深度
公众号ID:icbank
喜欢我们的内容就点“在看”分享给小伙伴哦
AI蓝媒汇
2025-04-28
黑鹰光伏
2025-04-28
AI蓝媒汇
2025-04-28
半导体行业观察
2025-04-28
半导体行业观察
2025-04-28
半导体行业观察
2025-04-28
证券之星资讯
2025-04-28
证券之星资讯
2025-04-28
证券之星资讯
2025-04-28