作者:Robert Hormuth,AMD公司副总裁,数据中心解决方案事业部,负责架构与战略
在服务器技术领域,双路曾经是尖端技术。双路技术曾是提升单个服务器性能的不二之选,因为它在单台服务器中配置两个处理器。从理论上讲,在大约相同的服务器占用空间内能够将性能最高提升一倍。在从纵向扩展(更多路数)计算到横向扩展(更多服务器)计算的过渡过程中,该技术一度成为主流。这是从大型机和多路服务器时代到主流双路 x86 服务器的过渡。
由于复杂的总体拥有成本 (TCO) 公式涉及很多变量(包括但不限于内存、存储、I/O、性能、成本、功耗及体积空间),因此整个行业采用双路技术进行横向扩展。简而言之,双路技术当时因为能够提供足够的核心数、内存容量及 I/O 来满足最高工作负载性能所需,而得到了大家的青睐。
现在,大家不再需要双路服务器来进行横向扩展,并且大家青睐的技术也正在发生变化,原因有多种。现代基于 AMD EPYC(霄龙)处理器的单路服务器成为降低总体拥有成本 (TCO) 的全新利器。这一观点基于过去和新出现的变化,而这些因素正逐渐促成单路服务器更广泛的应用。今天的 EPYC(霄龙)处理器拥有足够的核心数、内存容量和 I/O,可满足大多数应用性能需求。
但是,买家需要注意的是,并非所有单路服务器都是“真正的单路服务器”,因为有些会在核心数、内存通道数、I/O 通道数、RAS 等方面偷工减料。要成为“真正的单路服务器”,它们的性能必须接近于双路服务器这位老大哥才行。
误解和传闻
一直以来,关于双路服务器的最大误解是冗余性。我们姑且把它称为一则“传闻”:在双路服务器中,如果一路发生故障,那么其上运行的所有应用将转移到另一路并继续运行。对于装有主流操作系统的主流双路服务器来说,这完全是错误的,但是在我的职业生涯中已经很多次听到过这种所谓的冗余性传言,次数多到数不胜数。
双路服务器与单路服务器对比的另一个误解是可靠性,因为可靠性是一个依赖于故障率的衰减概率函数。故障率与复杂性直接相关。换言之,服务器中的组件越多,故障率越高。单路服务器的组件更少,通常有更出色的功耗和散热特性,可以搭载服务器级 CPU 等,所有这些都指向更低的故障率。
关于单路与双路的对比,另一个误解是核心密度。这一传言称,服务器需要双路处理器来实现高核心密度和提供最高性能。对于有些厂家来说,可能确实如此;但 AMD EPYC(霄龙)处理器却并非如此。第四代 AMD EPYC(霄龙)处理器每路支持高达 128 个核心。
内存和 I/O 限制是关于双路和单路服务器的另外两个传闻。同样地,虽然这对某些厂家来说可能是一种限制,但 AMD 可以在单路服务器中实现具有 12 个 DDR5(最高可达 24 个 DIMM)通道以及 128 个 PCI Express® Gen5 通道。
单路在何时是适合的解决方案
在一些情况下,单路服务器常常优于双路服务器。不妨考虑一台基于 AMD EPYC(霄龙)9554P 处理器的单路服务器(总共提供 64 个核心)与一台使用 40 核处理器的双路服务器(总共 80 个核心)之间的对比。
乍看之下,似乎 80 核双路比 64 核单路系统更强。但是,只需进行少量调查便会发现情况并非如此。基于 AMD CPU 的单路服务器不仅性能出众,而且功耗、CPU 价格以及 NUMA 复杂性更低,可能会发生故障的部件也更少。1
利用单路配置,您可以获得出众的能效优势,同时不会牺牲性能。更重要的是,这种能效优势会扩大。例如,只需要 12 台基于单路 96 核 AMD EPYC(霄龙)9654P 处理器的服务器即可提供 10,000 单位的整数性能(这是一个衡量计算机速度的重要指标)。 选择 AMD EPYC(霄龙)解决方案,服务器数量更少并且能耗更低,因此能够降低总体拥有成本。如今,随着能源成本不断上涨,加之各个公司都在尝试充分利用投资,减少能源成本和使用量变得至关重要且具有挑战性。
由于客户看到了单路服务器的优势,因此部署量持续增加。实际上,一些客户已经全盘接受并为大多数新部署选择“真正的单路服务器”。
这不禁让我想起“破釜沉舟”这个词。孙子在他的《孙子兵法》一书中教导军队在进入新的阵地时要烧船断桥。他主张,无路可退的士兵更有可能击败敌人。将大多数新部署迁移到“真正的单路服务器”听起来无疑像是“破釜沉舟”。
这并不是双路技术的终结
当然,这并不意味着双路服务器的终结;单路服务器只是应当考虑的另一个工具。当公司需要最高性能并愿意为硬件、能耗和数据中心场地花费更多时,双路服务器是正确选择。这类密集型应用包括客户关系管理、内容交付系统及其他。单路服务器非常适合标准业务应用:网络和安全、大多数数据库应用、企业资源管理、客户业务应用、供应链管理、人力资源应用等。双路服务器不会一统天下;更可能出现的情况是四路服务器融合为双路,而一部分双路将转换为单路。但纵观全局,自从计算的兴起,世界正在从多路转向更少路,加上双路多年来一直是主力军,因此从多路到双路再到单路只是优化过程的一部分,顺应趋势才是制胜策略。
现在考虑采用“真正的单路服务器”的十大原因是什么?
1,在性能上不做妥协:单路服务器有高核心数,也有高性能核心:AMD 单路服务器 EPYC(霄龙)9654 处理器具有 96 个核心,而 EPYC(霄龙)9754 处理器具有 128 个核心。
2,无需增加路数即可实现内存扩展:第四代 EPYC(霄龙)单路服务器支持 12 个 DDR5 通道以及多达 24 个 DIMM,内存容量可达 6TB。
3,在实现 I/O 扩展的同时不会影响性能:AMD EPYC(霄龙)处理器的独特架构可在单路和双路设计中提供强大的 I/O 性能,因此客户不必购买更多 CPU 即可满足 I/O 需求。
4,复杂性降低:由于单路设计不存在双路 NUMA 复杂性,因此更容易在机群中部署和安排工作负载,同时不必担心 NUMA 的影响。
5,整合成本降低:服务器的复杂性降低使得部署、管理、服务和升级变得更加容易。
6,弹性集群的可靠性和成本效益:很多云原生应用都需要最低数量的节点来实现弹性集群。单路服务器可以降低弹性集群的成本,从而实现最低服务器节点数量。
7,避免出现数据中心“热点”:很多数据中心都面临电力和散热方面的挑战。通过部署单路服务器,可以在整个数据中心内均匀分布电力和散热。
8,提高能效:事实已多次证明,更高的集成度能够带来更高的能效并降低整体功耗。2过去,通过在整个双路中共享更多资源,双路设计在整体能效上具备 SPECpower® 优势。在 AMD EPYC(霄龙)问世后,这一优势已不复存在。
9,更出色的许可成本模式(仅限部分软件):一些软件仍然按路数计费。避免使用双路服务器可以降低部分软件的许可成本。甚至在核心许可模式中,部署高核心数服务器(单路或双路)的成本更低,从而可以在多个核心之间分摊基础设施成本。
10,转向多主机基础设施:现代基础设施正在转变为将大多数操作系统和管理程序软件堆栈转移到 DPU/SmartNIC。AMD Pensando 等 DPU 支持在多台服务器之间进行 DPU 共享。单路服务器非常适合这种新部署模式,即将多个单路服务器连接到一个 DPU。
单路解决方案:适合之选
“真正的单路服务器”是双路配置的良好替代方案,并且往往在很多情况下都是最佳替代。它们不仅能够提高能效,还可以实现非凡的系统性能,为 IT 带来了更多现代数据中心优化选择。对用户来说,运行 AMD 单路服务器能够提供类似双路的性能,但功耗和成本要低得多4。在其他情况下,双路服务器是最佳选择。AMD 提供了更适合的选择。
如需详细了解第四代 AMD EPYC(霄龙)处理器,请访问:https://www.amd.com/zh-cn/products/processors/server/epyc/4th-generation...
备注:
1,SPECrate®2017_int_base 估算基于截至 2022 年 11 月 10 日 AMD 内部参考平台的测量值以及 www.spec.org 发布的分数。单路 AMD EPYC(霄龙)9554P(得分 631 SPECrate®2017_int_base,400W 总热设计功耗 (TDP),总计 64 个核心)。 SPEC®、SPEC CPU® 和 SPECrate® 是 Standard Performance Evaluation Corporation 的注册商标。请访问 www.spec.org 了解更多信息。OEM 发布的分数会因系统配置和使用的确定性模式(默认 cTDP 性能配置文件)而异。
2,基于截至 2023 年 9 月 12 日的已发布结果。运行 SPECpower® 的单路 EPYC(霄龙)9754 的功耗范围是 59W 到 329W,在 100% 负载下提供最大 12.5M ssj_ops(每瓦 30,602 整体 ssj_ops,2U,https://spec.org/power_ssj2008/results/res2023q3/power_ssj2008-20230523-...)。 SPEC® 和 SPECpower_ssj® 是 Standard Performance Evaluation Corporation 的注册商标。请访问 www.spec.org 了解更多信息。
文章来源:EPYC芯伙伴微信公众号