为什么顶尖芯片公司都在悄悄用STCO？英伟达/AMD案例读懂异构集成新打法

judy 在周一, 06/15/2026 - 11:32 提交

作者：赵瑜斌，文章来源：IC后摩号

已经讲了很多次芯粒设计的优势，当然在实际设计过程中仍然存在很多挑战，我们引进STCO视角，来面对系统多维度设计与工艺协同考量。

在这个过程中：大型硅系统芯粒化可带来良率和系统灵活组合优势——是确定的；芯粒集成的架构复杂度、IO开销、功耗与热管理、高密度基板键合的成本——也是确定的。STCO说的——不是要不要做、对不对的问题。而是如何做？如何快速、灵活、鲁棒及稳定做完的问题。

我们今天来一起学习imec和UCLA在2025年4月联合发表的观点综述，其主题围绕STCO方法学的诞生。

01 封装级系统和STCO的诞生

1.1 封装级系统：必然性与局限

随着对AI和其他HPC工作负载需求的激增，定制ASIC正成为主流。然而，仅机器学习工作负载的计算需求就已远远超过摩尔定律带来的收益。

Transformer多头注意力和前馈网络在GPU和HBM间的数据移动

五十余年来，CMOS硅和互连线最小特征尺寸的激进缩放（得益于光刻技术的进步），以及铜互连、应变硅和FinFET等性能提升技术的采用，兑现了摩尔定律的承诺。

不幸的是，这种缩放的代价是指数级增长的成本。随着我们接近物理极限，这正变得愈发难以为继。这正迫使半导体行业重新审视过去几十年的"片上系统SoC"路线的后续阶段。

多芯片芯粒封装系统(MCM)结构原理

上图是一个MCM构成概念（理想的），展示了多样化的芯粒集成技术，以及供电和热管理组件，其紧密集成以释放此类系统的全部潜力。

但，单个芯片不能构成完整的系统，它被封装并贴装到印刷电路板（PCB）上，在每一级都存在着"扇出"。尽管在过去五十年中，芯片内部的尺寸已经缩放了三到四个数量级以上，但封装/PCB输入/输出（I/O）（球栅阵列或BGA）凸点的尺寸仅缩放了大约5倍。

基于PCB的多封装系统在各方面都存在不足：功耗、性能、面积和成本，这些曾推动行业走向片上系统。

随着芯片缩放变得愈发困难，新的焦点转向了推进封装技术以缩放芯片间互连。这种方法有可能降低大型系统的成本，显著改善通信开销，并实现包含紧密互联异构组件的新型系统——先进集成成为未来十年的系统缩放驱动力，需要一个叫做STCO的框架来指导架构和技术的选择，以从这些系统中提取最大价值。

1.2 系统级跨层优化的诞生

半导体行业长期以来一直依赖于将设计与制造的关注点分离。人们开发了多种抽象辅助手段，例如设计规则和紧凑器件模型，以保持向电路设计人员提供的技术抽象层的清晰性。这使得设计和工艺开发在很大程度上相互独立。

不幸的是，缩放的难度模糊了这些界限，使得设计方法与技术开发的协同优化变得至关重要。这导致了对设计-工艺协同优化（DTCO）的浓厚兴趣，尤其是在器件技术和光刻图形化的开发方面。任何工艺节点上最终图案化方案的选择，既受技术本身难度的制约，也同样受到设计考虑因素（例如，设计易用性、设计自动化工具的可用性、模块级的功耗/性能/面积指标）的影响。

随着时间的推移，DTCO方法变得越来越复杂，从早期的小型基准手动设计，到精细的缝合式电子设计自动化（EDA）工具流程，再到原理性的快速框架。

集成与封装正在经历复兴，并在未来几年将迎来重大创新。将DTCO限制在单个芯片内已不再足够，评估一个由多个芯片通过封装技术集成在一起的完整系统将至关重要。这种系统工艺协同优化（STCO）对于引导创新朝着正确方向发展是必需的。然而由于缺乏自动化框架，STCO方法仍处于起步阶段。

传统微缩→DTCO→STCO

最终，STCO将需要考虑多个方面，例如芯片内技术（器件、图案化、互连）、异构系统组件技术（例如，内存类型）、芯片连接方式（2.5D或3D集成）、供电和散热基础设施，以及运行在硬件上的架构和软件应用。

跨层次的STCO优化结构

跨层优化为系统缩放铺平了道路。系统缩放的未来高度依赖于计算系统不同抽象层的跨层优化。

传统半导体行业是单独且很大程度上独立于使用它们构建的系统来缩放逻辑、内存和互连的。未来的趋势将是使用最适合特定系统功能或模块的工艺技术来对其进行优化。在实践中，这意味着在每个芯片上构建相应的功能模块。然后，一种先进的封装方案，例如先进的3D堆叠，将使用某种技术将这些模块结合在一起，使得所有功能仿佛位于同一块硅片上一样。

02 设计为出发点的先进封装选择

随着需要高性能的应用（例如人工智能）的激增，对更大规模硅系统的需求呈指数级增长。在过去十年中，先进封装技术提高了硅系统的规模、性能和能效，它允许我们通过在封装内高密度集成多个硅芯片来构建大型芯片。

这些技术各有不同，在集成密度、规模和成本之间存在权衡。例如，与硅中介层相比，有机中介层更便宜，但允许的相邻芯片间互连密度较低。因此，根据目标应用和市场，需要选择合适的先进封装技术，并对架构进行协同优化。

AI和HPC工作负载的计算需求比摩尔定律所能提供的高出数个数量级

近年的发展显示出一种趋势，即在各种产品中对系统架构和先进封装进行依赖于设计的协同优化，从演进中的硬件呈现方式可以看到明显的趋势。

1、现场可编程门阵列（FPGA）

现场可编程门阵列（FPGA）行业是硅中介层最早期的采用者之一。在2000年代后期，由于易于重新配置和快速周转时间，FPGA越来越受欢迎，并且基于FPGA的更大型系统开始发展。FPGA的计算密度比ASIC低20-40倍。因此，FPGA硅片开始变得像全掩模版一样大，并且系统通常使用板上的多个FPGA来构建。掩模版尺寸的硅片受良率限制，因此成本高昂。

此外，多FPGA解决方案通常性能较差。为了缓解这些问题，Xilinx使用硅中介层来构建大型FPGA。硅中介层允许以高互连密度集成多个已知合格芯片（KGD），从而实现成本更低的FPGA产品。此外，还允许构建集成高带宽内存（HBM）的FPGA，从而使其成为构建专用集成电路（ASIC）的可行替代方案。以及Microsoft也采用FPGA作为构建定制加速器平台。

Xillinx/AMD大型FPGA芯粒

2、芯粒架构CPU

类似地，构建大型核数单片(monolithic)中央处理器（CPU）的制造良率问题促使AMD采用了基于芯粒的架构。将大型单片处理器分解为较小的芯粒，使得AMD能够使用已知合格芯片构建处理器并节省成本，通常可节省多达2.1倍的成本。

AMD利用了异构集成的成本优势，将外部I/O电路集成到采用较低成本12nm工艺的I/O芯粒上，而核心芯粒则采用昂贵的7nm工艺制造。成本限制迫使AMD使用有机基板进行芯粒集成，而不是像FPGA和图形处理单元（GPU）那样使用昂贵的硅中介层。这是通过将架构与封装基板特性进行协同设计，以及芯粒间所需带宽仅为几百GB/s这一事实而实现的。此外，基于芯粒的方法为通过改变芯粒数量构建多条产品线提供了灵活性。

AMD和Xilinx利用这种灵活性来节省非重复性工程（NRE）成本并缩短不同产品线的上市时间。

2、Logic+HBM大型3.5D架构

对高性能计算（HPC）和人工智能（AI）应用的需求正在推动采用非常高带宽的封装内集成技术，例如硅中介层和硅桥。这些应用高度并行，主要在加速器上运行，如通用图形处理单元（GPGPU）和Google张量处理单元（TPU）。

这些加速器具有高度并行性（例如NVIDIA H100中有14,592个FP32核心）和巨大的计算吞吐量，通常每个芯片超过1 PFLOPs——巨大的计算吞吐量需要更高的内存带宽。

加速器架构依赖封装内DRAM来提供所需的带宽（例如NVIDIA H100 GPU上的3 TB/s）。多个HBM器件与加速器计算芯片一起集成在封装内。HBM使用宽内存接口（例如每个器件16个DDR通道），并且每个引脚的数据速率低于10 Gbps，以保持较低的I/O能量和面积开销。

使用硅片进行芯片间互连的集成技术可以容纳密度高10倍的信号引脚和走线。因此，像GPGPU和TPU这样的加速器使用CoWoS-S、CoWoS-L和EMIB等技术，而不是有机基板来实现芯粒间互连。

除了使用芯粒进行2.5D集成之外，两个有源芯片的3D集成在其V-Cache技术中，将缓存芯片3D集成在CPU芯片之上——这是架构与封装的巧妙且优雅的协同设计。以及使用混合键合的3D集成可以提供25倍的I/O密度以及比2.5D集成更短的互连距离和更低的能量。

因此，可以以最小的能量开销提供缓存子系统所需的类似片上带宽。在一种实施方案中，底部的CPU芯片采用昂贵的5nm节点制造，而缓存芯片则采用相对便宜的、针对SRAM优化的7nm节点制造，从而改善了系统的整体成本。

各种集成方案提供不同的互连特性和集成密度

这些案例研究表明，基于芯粒的系统架构与集成方案的精心协同设计如何能够产生优化的产品解决方案。上图中对应的商业产品：NVIDIA GH100、第二代AMD EPYC和带V-Cache的第三代AMD EPYC，显示了各自所用集成方案的特性。

可见，当转向更新工艺节点的成本效益正在减弱时，系统技术协同优化（STCO）对于下一代产品的成功至关重要。

03 多芯片集成：系统驱动因素

推动先进封装需求的主要驱动因素：高性能高能效连接需求、成本优化、外形尺寸最小化。

3.1 连接性

连接性是首要驱动力。PCB上多封装芯片的片外链路缩放不佳，成为系统性能和功耗瓶颈。封装内芯粒集成可实现更高的芯片间互连性。HPC和AI工作负载要求TB/s级带宽，通过减小I/O间距（片内<20μm，片外>200μm）、布线间距（<5μm vs >50μm）和互连长度（<1mm vs >10cm）实现高效并行接口，减少对高功耗SerDes的需求。

封装内芯粒间互连相比PCB互连，在相同功耗下可实现超过10倍带宽（如六个HBM3模块在约160W互连功耗下提供6TB/s带宽）。3D集成在I/O密度（>15倍）和能效（>3倍）上实现阶跃提升。

如今，与通过PCB互连的芯片相比，集成在封装内的芯粒之间可以在相同的互连功耗下实现超过10倍的带宽（例如，使用六个HBM3模块，在约160W的芯片间互连功耗下，可以实现高达6TB/s的内存带宽），与使用双倍数据率（DDR）接口的片外存储器相比，在同等功耗下，这是高出一个数量级的带宽。类似地，3D集成在I/O密度（>15倍）和能效（>3倍）方面又实现了一次阶跃函数的提升。

AI芯片需求下的HBM产品性能

3.2 规模要素

改进的连接性促进了封装内的系统扩展。随着新的工作负载和数据处理技术需要越来越多的并行硬件，这种扩展变得至关重要。近年来的多项工艺趋势表明，每个芯片的硅面积正在快速增长，以满足这种看似无止境的需求——这正推动着未来先进封装技术的巨大研发投入。

更新的先进封装技术，如CoWoS-L，在单个封装内集成高达5000 mm²，即六个掩模版面积的硅片。在极端情况下，晶圆级集成技术正在商业化和学术界开发（下图），以构建像整个300mm晶圆一样大的系统。对于某些类别的应用，这些技术将使系统能够提供比使用传统封装构建的系统高一个数量级的性能增益。

单个封装集成多硅片+协同优化以获取性能

异构超算：晶圆级系统

3.3 成本因素

新技术被接受的主要驱动力是成本（单位性能成本）。硅CMOS缩放改善成本的传统路径日益困难。芯粒技术可作为单芯片的替代设计方法，提高良率、降低成本。

AMD已经证明了使用芯粒方法构建其Ryzen客户端处理器的经济性。一个16核的Ryzen芯片，例如Ryzen 9 5950X，如果采用 monolithic 7nm 芯片制造，其成本将比AMD基于芯粒的方法（使用两个8核80 mm²的核心复合芯片搭配一个更便宜的12nm I/O芯片）高出2.1倍。

芯粒模块化还可通过增减芯粒定制系统，节省成本、缩短上市时间，从总拥有成本（TCO）体现效益。

3.4 外形尺寸

消费电子设备（笔记本电脑、手机、智能手表等）在过去几十年中大力推动了多种封装和集成技术的发展，以最大限度地实现小型化和提高能效。封装技术，如集成扇出型晶圆级封装（InFO）、叠层封装（PoP）、引线键合芯片级封装（WB-CSP）、倒装芯片系统级封装（SiP），允许以最小的面积和体积构建系统。

例如，智能手表和手机使用PoP和SiP技术将电源管理IC和内存芯片与片上系统（SoC）集成在一起。类似地，苹果新的M系列处理器将LPDDR内存封装与处理器SoC芯片集成在同一封装基板上。这些技术将这些设备的外形尺寸改善了多达50% 。

可见，先进封装在实现不同的用例方面发挥着关键作用，而这些用例使用传统的单芯片封装技术是无法实现的。

弹性材料和加成制造(AM)实现的功能柔性电路的可穿戴机器人装置

04 STCO使能技术

在图1描绘的未来系统平台，其中工艺节点异构性、更好连接性、专业化组件协同集成。以下讨论先进封装的系统级指标。

4.1 异构集成

芯粒化为改进功能集成开辟了一条主要途径：不同工艺技术的紧密连接。过去，半导体行业的趋势是朝着所有功能的"硅化"方向发展，这是由于成本、外形尺寸以及与硅CMOS计算结构（即SoC趋势）的短距离连接所驱动的。先进集成（包括2.5D和3D）允许系统设计者逆势而为，并可能在功耗和性能方面获得收益。这种技术异构性的一些例子包括：

紧密连接的内存。使用DRAM工艺的高带宽内存（HBM）现在以非常短的距离（< 5mm）连接到计算基板，并提供非常高的带宽。这已经改善了性能，特别是对于内存瓶颈型的机器学习工作负载。可以设想与其他类型的内存和存储技术（如Flash）进行类似的紧密集成。
紧密连接的片外互连。高带宽、低能量、低延迟的光子互连是利用芯粒异构性的另一个代表性例子，否则这将需要性能差得多的可插拔光学器件或电气链路。
紧密连接的供电基础设施。高效的集成电压调节器（例如，使用氮化镓技术（GaN）晶体管）以及封装内或中介层内的无源器件（电容和电感）可以显著提高大型高功率系统的供电效率。

尽管过去的多芯片模块MCM和系统级封装SiP也允许异构集成，但不同芯粒之间的接近度要差1-2个数量级（~1cm vs. ~100μm）。

异构集成与多物理域结构示意 Georgia Tech PRC

4.2 跨层级布线

“芯片→封装→板级”顺序设计存在其单独层级之间的信息孤岛。传统流程中，各层级独立优化，导致封装与板级的拥塞、信号交叉等问题往往只能在后期被发现和修复，引发大量设计迭代，严重制约了产品上市时间与性能表现。

Lee 和 Chang（DAC’12）提出的芯片-封装-板协同设计方法，实现了三者之间的双向信息交互。其核心是一个“Λ”型两遍流程：第一遍从板级到芯片，传递板级布局作为“建议”；第二遍从芯片回到板级，利用芯片的布局信息修正前期决策。通过这种双向信息流动，设计可以在各层级之间实现真正的权衡与优化，而不是单向传递压力。实验结果表明，该流程在所有测试案例中均实现了 100% 的可布线性，而传统流程平均仅27.7%。

因此，芯片-封装跨层级的物理设计不仅是解决物理可实现性问题的关键，更代表了从“器件为中心”向“系统为中心”设计范式演进的重要实践，是 STCO 实现系统级性能、功耗与可制造性协同优化的基础支撑。

芯片-封装-PCB协同设计方法论 Chang(DAC’12)

4.3 供电

先进封装使得封装内具有更高功率密度的系统成为可能。因此，这些系统中的电源完整性挑战需要通过整体审视集成技术来解决。新技术（架构、设计）和工艺/材料（材料、基板内电容）正在被开发，并且需要更多技术来可靠地提供电力。台积电已经开始在硅中介层中嵌入深沟槽电容。新版本的CoWoS-R和CoWoS-L集成了无源器件以改善电源完整性。

GraphCore使用3D集成（基于晶圆对晶圆键合）将深沟槽电容芯片与计算芯片集成在一起，实现了大约40%的性能提升。为了构建一个在中介层上集成了CPU、GPU、加速器和内存芯片的系统级封装解决方案，需要将平台电压调节器（VR）集成在靠近逻辑芯片的中介层上。这可以通过使用高压互补GaN器件以及使用高频高磁导率材料嵌入封装内的电感来实现。

向微处理器提供稳定的电源对于确保最佳性能至关重要。随着工艺节点的缩小，功率密度和IR压降增加，对设计人员维持电压调节器和晶体管之间允许的10%功率损耗余量提出了挑战。开发高效率、高密度的集成电压调节器（IVR）对于满足未来高性能微处理器的要求至关重要。

背面供电网络（BS-PDN）的实现

另一种方法，背面供电网络（BSPDN），通过将整个配电网络移到硅晶圆的背面，将供电网络与信号网络解耦。上图展示了在工艺技术层面的BSPDN实现。

这种方法有望改善IR压降，提高供电性能，减少后段工艺（BEOL）中的布线拥塞，并允许标准单元高度缩放。背面PDN看起来对于提高3D片上系统（3D SOC）的性能很有前景。对于2D和3D设计，利用晶圆空闲背面的概念可能通过添加背面特定器件（如I/O或ESD（静电放电）器件）来进一步扩展。

4.4 热管理

超大规模数据中心和人工智能计算的兴起已经将机架功率密度从每机架10-20千瓦提高到超过30千瓦。在不久的将来，这个数字预计还将翻倍。增加的功率密度加剧了系统中的热问题。这需要先进的冷却技术，如液体冷却、相变冷却，甚至浸没式冷却等技术。

对于异构封装，封装总面积上的功率密度存在差异。这对应于整个封装上更高的温度梯度，可以通过新颖的散热器方法来解决。同时，单个芯粒高度不一致的挑战（例如，逻辑芯片芯粒与高带宽内存模块）需要使用不同深度的型腔来集成散热器。

从积极的一面看，芯粒化对热性能有益，因为发热组件被分散开，从而减少了它们之间的热串扰。此外，它还有助于提高封装内热敏感组件的可靠性，以及整体系统级的可靠性。

利用2.5D或3D集成的特定特性，如用于散热和管理的硅通孔（TSV），是一个有趣的方面——热感知的布局规划可以通过优化电路组件和TSV的分布来管理热负载，有效地降低整个芯片的结温。

多项研究的协同优化热和电设计挑战中，TSV已被用作一种热量移除机制。此外，将TSV与微流体冷却、硅微针状鳍片[90]或气隙[91]相结合的协同设计方法都在持续尝试。

TSV被用作热量移除机制的微流体冷却架构 Feng.S 2021

总的来说，先进封装中的热管理挑战与电气性能和制造密切相关。这些相互耦合的现象常常呈现出关键的权衡和约束，必须通过STCO来正确认识和考虑。（待续）

参考文献

imec+UCLA, System-Technology Co-Optimization for Advanced Integration: A Perspective in the Computing Context, 2025
related materials from various resources

STCO

异构集成

每日头条