应对 HPC SoC 中的 PCIe 6.0 功耗和延迟挑战

作者:Synopsys高级技术经理 Madhumita Sanyal

数据量和复杂性的指数级增长给快速发展的高性能计算领域带来了显著影响。这种演变是由每个用户的设备数量日益增长所推动的。每台设备都要求更高的带宽,从而促进了对更强大的数据传输能力的需求。PCI Express 6.0 由此应运而生,它提供了增强的 I/O 密度和带宽来管理这种迅速增长的数据负载。然而,这一进步伴随着更高的功率需求,特别是在多端口 AI 加速器和交换机密集型配置中,从而导致数据中心潜在的效率风险。PCIe 6.0 旨在通过改进的电源管理策略来平衡这些需求,包括 L0p 等新的电源状态,根据带宽需求来使用功耗。PCIe 6.0 还引入了 PAM-4,这是一种多电平信道技术,每单位间隔传输两个比特,相比于之前 NRZ编码 的单比特传输容量翻倍。但 PAM-4 信号传输也带来了串扰、信号反射和功耗增加等信号完整性挑战。随着行业不断取得这些进步,功耗管理和最大限度地减少延迟变得越来越重要。本文将深入探讨 PCIe 延迟和功耗考虑的复杂性,讨论在 HPC SoC 设计中优化这些关键方面的策略。

PCI Express 6.0 的功耗降低策略

降低 PCI Express 的功耗主要涉及解决 PHY 的功耗问题。PHY 是系统的主要耗能器件,占总能耗的 80% 左右。为解决这一问题,已经实施了多种策略:

  1. L1 子状态(L1.1 和 L1.2)显著降低 PHY 功耗

  2. 调整发射器摆幅或禁用浮动抽头有助于实现短距离应用,

具有指定 L1 子状态的 PCIe 链路电源管理,以及 TX 摆幅或禁用浮动抽头等技术,可有效控制空闲状态下的功耗。此外,关注点正在转向优化数字逻辑的功耗。数字逻辑是移动市场的关键差异化因素。

而且,PCIe 还开发了动态功耗分配 (DPA)、延迟容忍度上报 (LTR) 和优化缓冲器冲除/填充 (OBFF) 等功能,以减少系统范围内的活动状态下功耗。DPA 允许跨端点功能模块之间进行有效的电源管理,尤其是在活动状态下。LTR 有助于将延迟要求传达给根联合体,从而实现对中央资源的更有效的电源管理。同时,OBFF 可帮助端点调整流量,以最大限度地减少功耗影响,从而允许根联合体发出针对流量最佳时间的信号,以降低整体系统功耗。

利用 L1 和 L2 状态降低功耗

图 1:L1 基板:在待机和深度节能模式下优化系统功耗.png

图 1:L1 基板:在待机和深度节能模式下优化系统功耗

PCI Express 使用不同的电源链路状态级别来有效管理功耗。这些级别分布是 L0(完全激活)到 L3(链路关闭状态),中间状态如 L0S /L1(电气空闲或待机)和 L1(低功耗待机或休眠状态)。功率降低技术包括定期检查电气空闲退出和关闭不必要的电路。L1 状态包括子状态 L1.1 和 L1.2,旨在降低功耗, 两者有着不同的退出延迟。L2 状态可关闭所有时钟和主电源,提供最高的节能效果,但退出延迟更长。

使用门控时钟来减少活动

为了提高功率效率,采用了门控时钟等技术,这涉及暂时禁用未使用的电路。这种方法在多端口设备中特别有效,在多端口设备中停用非活动端口中的时钟可以显著节省功耗。尽管采取了上述措施,但需要注意的是,CMOS 设备仍然会因漏电流而消耗少量功率,需要本地和全局门控时钟策略来优化整个系统的功耗。PCI Express 6.0 具有 L0p 状态,旨在通过用更少的活动组件来保持必要的流量,从而最大限度地减少功耗,非常适合不需要全带宽的情况。非活动通道可进行时钟门控以节省动态功耗。

电源门控使能 L1 子状态

电源门控是芯片设计中的一项关键技术,特别是对于几何形状较小的芯片,旨在通过关闭芯片的非活动部件来减少漏电和开关功耗。这种方法对于在 PCI Express (PCIe) 中启用 L1 子状态至关重要,可显著降低功耗,在标准设计中通常可降低 75% 至 85% 的功耗。然而,实施电源门控涉及诸如集成功率控制器、交换网络、隔离单元和保持寄存器等复杂问题。它还需要遵守 IEEE 1801 统一功耗格式 (UPF) 标准,确保低功耗集成电路的设计和验证符合行业标准。这种方法在专注于保持低空闲功耗水平的设计中尤为重要,例如电池驱动系统中的此类设计。

L0p:支持可扩展功耗的新状态

图 2:PCIe 6.0 中的 L0P.png

图 2:PCIe 6.0 中的 L0P

PCI Express 6.0 中的 L0p 电源状态通过将用电量与实际带宽需求保持一致,大大提高了功率效率。在具有 16 通道 PCI Express 6.0 链路的系统中,带宽要求可能有所不同,而且并非所有系统都需要 64G 传输速率。L0p 可实现活动通道的动态扩展,降低功耗,而无需重新协商链路宽度(这是以往标准的必要条件)。即使在带宽变化期间,此功能也能确保无缝且不间断的数据流。FLIT 模式是 L0p 状态的组成部分,其中数据以 256 字节为单位进行传输。一旦进入 FLIT 模式,无论信号变化或数据速率波动如何,设备都会保持此模式。L0p 允许在链路的任一端调整带宽,以适应任何支持的 PCIe 链路宽度。不过,它需要对发送端和接收端进行同等的扩展,这意味着整个链路必须在更高需求方向所需的带宽下运行。L0p 的这一功能确保了不间断的数据传输,并且在 by-16 链路配置中,每比特可节省数皮焦耳的功耗。

通过 AVS 或 DVFS 降低功耗

图 3:降低电压以降低功耗.png

图 3:降低电压以降低功耗

动态电压频率调整 (DVFS) 及其对应的自适应电压调整 (AVS) 是降低芯片设计功耗的有效技术,尤其会显著影响有源功耗。这些方法可根据性能需求实时调整电压和频率,从而有效降低动态和静态功耗。在 AVS 中,电压电平以固定步长调节,而 DVFS 则依靠基于频率的表进行电压调节。芯片通常设计为在最坏情况下具有裕量,即使在电压降低的情况下也能维持性能,从而节省大量功耗。这些技术可将动态功率效率提高 40% 至 70%,并将漏电功率效率提高 2 至 3 倍。然而,它们的实现增加了复杂性,并且需要仔细平衡性能和功耗,还要考虑电平转换器、上电序列和时钟调度等因素。

等待是最难的部分

延迟是各种应用中的一个关键问题,从延迟会阻碍通信的 Zoom 调用,到即使是轻微延迟也会影响性能的游戏都是如此。在高性能计算领域,系统随着 CPU 交互的增加而变得越来越复杂,解决延迟问题至关重要。保持高链路质量是降低延迟的关键策略,因为质量差会增加误码率,导致数据重放更频繁,传输时间增加一倍。复杂 SoC 中的嵌入式交换机等创新技术通过在芯片内创建嵌入式端点,显著减少了延迟,从而消除了对外部数据传输的需求,并大大缩短了响应时间。有效管理未发布请求和流量控制信用的标签在防止系统停滞方面也起着至关重要的作用,因为系统停滞可能会无意中增加延迟。此外,最大限度地减少信道间偏差,可能需要额外缓冲并因此增加延迟, 这点同样举足轻重。在系统设计中,明智地使用交换机和重定时器等组件是平衡这些因素的关键。CXL (Compute Express Link) 在某些应用中也是一种有前景的选择,与传统的 PCI Express 解决方案相比,它提供了更低延迟的替代方案。

保持链路质量

图 4:Synopsys PCIe 6.0 IP PAM-4 Eyes 的速度.png

图 4:Synopsys PCIe 6.0 IP PAM-4 Eyes 的速度为 64 GT/s,具有高链路质量,通过更少的重放和更少的错误来减少系统延迟

通过最大限度地减少错误和数据重放来保持高链路质量,这对于减少系统延迟而言至关重要,但并非所有影响因素都在 SoC 设计人员的控制范围内。关键可控因素包括遵守发射器和接收器的 PCI Express 电气规范,以及努力降低 TX 抖动、增加 RX 抖动容忍度和改进误码率,这些对于降低延迟至关重要。另外,封装设计在保持信号质量方面也起着重要作用,它可通过最大限度地减少不连续性和串扰,从而减少错误和重放。电路板、连接器和电缆设计通过信号丢失等直接和间接方式对系统延迟造成的影响是另一个关键方面。然而,使用重定时器或重驱动器等组件虽然有利于信号质量,但却会增加延迟,因此,对于设计人员来说,这是一个微妙的平衡,既要增强信号完整性,又不会过度增加系统的整体延迟。

嵌入式交换机中的嵌入式端点控制器

图 5:Synopsys 优化的 EEP 与 PIPE-to-PIPE 设计相比.png

图 5:Synopsys 优化的 EEP 与 PIPE-to-PIPE 设计相比

在某些情况下,嵌入式端点为降低延迟提供了显著的机会,尽管它们可能被视为小众解决方案。例如,在具有管道到管道实现的典型控制器中,应用侧直接连接到管道接口,无需通过串行 PHY,从而减少延迟。但是,标准设置仍然需要连接到端点控制器,可能还需要连接到涉及各种逻辑块的 AMBA 网桥。通过过渡到优化后的嵌入式端点,可以消除大部分逻辑,从而显著影响延迟。传统管道到管道实施与优化后的嵌入式端点之间的对比表明,延迟可能减少 70%,这是特定系统段内的重大改进。尽管由于 PCI Express 规范的演变,这种方法并未得到广泛采用或广为人知,但其具有相当大的价值,尤其是在具有嵌入式交换机和端点的设计中。

更快的时钟

提高系统中的时钟速度,例如从 PCI Express 5.0 中的 1 千兆赫兹提高到 2 千兆赫兹,理论上可以减少一半的延迟,将周期时间从 1 纳秒缩短到 0.5 纳秒,这样就可能将总的 20 纳秒延迟降低到 10 纳秒。然而,实际的延迟减少可能并不那么显著,因为并非所有延迟组件都与时钟速度成比例地调整。提高时钟速度也带来了设计挑战,例如需要更多的管道阶段来满足时序需求,具有讽刺意味的是,这反而会增加延迟。此外,更高的时钟速度通常需要更高的电压,从而增加功耗。这些考量使得需要对加快时钟速度进行复杂的权衡。设计人员必须通过额外的管道和速率调整,在减少延迟所带来的好处与增加的功耗和潜在的增加延迟之间取得平衡。确保 PHY 和控制器等所有组件的兼容性,以及对速率适配器的需要(这可能会带来额外的延迟),则是其他关键因素。虽然更快的时钟可以提高吞吐量,但其实现方式(特别是在添加寄存器阶段方面),在吞吐效率方面可能并不能带来预期的结果。

流水线

在数字系统中(特别是控制器中),流水线用于提高吞吐量和促进更高的时钟速度,例如从 1 千兆赫兹变为 2 千兆赫兹。这个过程需要添加额外的流水线级数,这反而会增加延迟,因为数据必须通过更多的级数。但在某些情况下,这实际上可以减少整体延迟。例如,如果一个 1 千兆赫兹的系统需要 25 个时钟周期(25 纳秒)来完成一项任务,那么将时钟速度提高一倍到 2 千兆赫兹可能会增加 6 个额外的周期,但现在每个周期都更快了,只有 0.5 纳秒。这种变化可以将原来的 25 纳秒延迟降低到 15.5 纳秒。尽管有此潜在益处,但在时钟速度和流水线阶段之间实现适当的平衡是很复杂的,并且需要仔细规划以确保它有效地减少延迟,而不会对系统的其他方面产生不利影响。

其他延迟减少技术

图 6:必须考虑模拟和数字数据通路优化.png

图 6:必须考虑模拟和数字数据通路优化,才能实现整体 PCIe 延迟优化

在高速数字系统中,特别是在 PHY 及其与控制器的接口中,减少延迟涉及到几项关键技术。在 PHY 中,准确调整发射器时钟至关重要,因为未对准或偏差会增加缓冲需求,进而增加延迟。因此,尽量减少时钟偏差至关重要。对于 PHY 与控制器之间的连接,直接链路是理想选择,因为避免在此接口上出现额外的寄存器可以显著减少延迟,毕竟每个额外寄存器通常都会增加延迟。

在设计方面,优化 ADC 阵列在使用 64 千兆位 PAM-4 调制的系统中尤为重要,因为这些系统越来越依赖 ADC。简化数据路径和微调 ADC 阵列可以有效减少接收器延迟。此外,使用自适应时钟数据恢复 (CDR) 锁定和带宽优化还可以确保系统不会将时间浪费在不必要的调整或时钟恢复的冗余操作上,从而帮助减少接收端延迟。实施这些侧重于硬件配置和内部设计优化的策略,是在此类系统中实现更低延迟的关键。

对海量数据的需求正在促使 HPC 变得越来越复杂

对管理海量数据的需求日益增长,这促使 HPC 变得更加复杂,即使在数据中心,高效的电源管理也已成为一个关键问题。这标志着与过去相比已发生显著变化,当时的数据中心通常有充足的电网供电,并不注重功耗。如今的情况截然不同,人们越来越关注热点、环保举措和不断上涨的电力成本,因此高效用电成为当务之急。

PCI Express 通过引入各种电源状态来应对这一挑战,例如 PCI 6 中的 L1 子状态、电源门控和新 L0P 状态。这些状态对于管理电源至关重要,尤其是在数据传输速率达到 64GT/s 的情况下。在如此高的速度下,即使是少量延迟也会严重影响系统效率并导致潜在的停滞。因此,管理延迟在系统设计中变得越来越重要。此外,共享计算任务对一致性的需求日益增加,使 CXL 等协议成为人们关注的焦点。CXL 具有低延迟和一致性特性,为有效地平衡功耗、延迟和吞吐量提供了一种非常有未来前景的解决方案。人们对 CXL 的热情与日俱增,尤其是随着 CXL 3.0 的出现和 CXL 架构的开发,这标志着在高速计算和数据管理领域向前迈出了重要的一步。

总结

通过数百次成功的 PCIe 和 CXL 实现,Synopsys 积累了丰富的知识和专业技能,使我们能够从一开始就提升设计性能、优化功耗并减少延迟。从复杂的控制器配置到由许多链路组成的各种通道组合,我们利用在各类不同客户配置方面的经验来实现这一点。

Synopsys 拥有完整的 PCIe 6.0 和 CXL 3.0 硅验证 PHY、控制器、IDE 安全模块和验证 IP。此外,我们还提供连接性、仿真启动、后端合成方面的指导,就物理布局、时钟重建、平衡、路由、时钟收敛指南以及时序关键路径提供咨询。我们引领着行业发展,支持广泛的特性和功能,以调试固件和硬件并优化 PPA 和延迟。

文章来源:Synopsys

最新文章

最新文章