虽然AMD在去年底就发布了覆盖16核心到96核心,1P到2P配置的新一代EPYC 9004系列处理器,但由于巨大的计算市场涵盖了众多不同的应用需求与场景,比如高性能计算要求的产品往往对单核心性能、并行性能、内存带宽等要求很高,云计算厂商则更在乎核心数量、数据带宽等,要求计算环境高效、敏捷、可扩展能力强。所以为满足云计算市场用户的需求,AMD在今年6月发布了EPYC 9004系列处理器的新产品:采用Zen 4c核心架构,代号“Bergamo”的三款新处理器:EPYC 9754、EPYC 9754S与EPYC 9734。与之前的产品相比,这三款处理器的核心数量更多,最高可以达到128核心,区别在于它们采用的是Zen 4c核心,相比拥有更大L3缓存容量,采用Zen 4核心设计的其他EPYC 9004系列处理器,它们在多核心计算上是否真的更有优势呢?
降低三级缓存容量、核心数更多
与EPYC 9654、EPYC 9554等处理器采用的Zen 4处理器架构相比,新的Zen 4c核心在TSMC 5nm工艺下,只有2.48平方毫米的面积,相比之前的Zen 4的3.84平方毫米,缩减了35%,这样将使得AMD有条件在1个CCD中集成16颗Zen 4c核心,并使用8个CCD完成128核心的配置。AMD的数据显示,拥有16个Zen 4c核心的CCD面积为72.7平方毫米,而8个Zen 4核心的CCD是66.3平方毫米,AMD使用仅多9.6%的面积空间,使得核心数量翻倍。
Zen 4c的核心面积相比Zen 4更小
同时两款处理器架构在LDQ、STP、微指令缓存、L1、L2、L2 TLB、L2延迟、L3延迟以及执行端的整数性能、浮点性能、ROB、复杂指令计算延迟(FADD、FUML、FMA)、L1 BTB、L2 BTB等方面,均无差别。唯一的差别在于,Zen 4c的L3缓存每核心配置只有2MB,而不是Zen 4的4MB。对需要极高计算密度的客户而言,更大的L3缓存虽然可以提升性能,但是显然没有更多的核心数量更重要,并且L3缓存是每8个核心一起使用16MB。
Zen 4c的架构变化,仅有L3缓存减半一条,其余维持不变。
Zen 4c处理器架构图,每个CCD中可集成16颗Zen 4c核心,2×16MB三级缓存,每个核心拥有1MB L2二级缓存。
目前AMD推出了3款采用Zen 4c核心的EPYC 97X4处理器,具体型号包含:EPYC 9754、EPYC 9754S和EPYC 9734。这三款处理器都拥有256MB L3缓存,均支持12个DDR5内存通道,可以提供128条PCIe 5.0通道。
EPYC 97X4系列处理器、规格一览
不同之处在于,虽然EPYC 9754和EPYC 9754S的核心数量都是128个,默认功耗设置均为360W,基础频率均为2.25GHz,加速频率也都为3.1GHz。但EPYC 9754S不支持SMT同步多线程技术,因此只有128个线程,而EPYC 9754则支持SMT,拥有多达256个线程。
定位最低的EPYC 9734则关闭了一组CCD,有112个核心和224个线程,且基础频率与加速频率分别小幅降低到2.2GHz、3.0GHz,默认功耗设置也降低为340W,相比EPYC 9754的360W更低一些。此外这三款处理器也可以根据用户需求、散热条件等进行配置,比如功耗可以配置到320W~400W之间。
基于Zen 4c核心的AMD EPYC 9754(上图)依然为SP5 LGA6096封装,与基于Zen 4核心的EPYC 9654(下图)相同,采用接近正方形的外观设计,相比第三代EPYC处理器面积更大。
根据AMD之前的测试显示,以至强铂金8490H和8480+(分别有56个和60个CPU核心)为对比对象,128核心、256线程的EPYC 9754在云计算方面的性能最高可以达到对比处理器的2.65倍,最低也能达到1.49倍之多。
EPYC 9754在云计算方面的性能最高可以达到至强铂金8490H和8480+处理器的最高2.65倍,Ampere Altra 128核心的最高3.7倍。
如果对比已经上市、针对云计算设计的处理器也就是Ampere Altra 128核心的话(采用ARM Neoverse-N1核心),EPYC 9754的性能胜出幅度就更大了,其性能最高可以达到前者的3.7倍,毕竟Ampere Altra 128甚至都不是英特尔至强铂金8490系列处理器的对手。
在其他性能方面,比如线程性能,容器能力、每瓦特性能方面,AMD都给出了相关的测试数据,EPYC 9754处理器基本上都是以遥遥领先的态势出现。
不过与采用Zen 4架构的EPYC处理器相比,基于Zen 4c核心的EPYC 97X4系列处理器是否依然具备优势呢?为此我们特别采用在之前测试中表现出彩的EPYC 9004系列处理器中的旗舰:96核心、192线程设计的EPYC 9654处理器与EPYC 9754处理器进行了对比,让我们看看拥有更多核心,但三级缓存容量有所减少的EPYC 9754处理器能否战胜核心数更少,但拥有更大三级缓存容量的EPYC 9654。
我们如何测试
本次测试统一考察的是双路系统的性能,因此EPYC 9754、EPYC 9654处理器都统一使用了AMD Titanite SP5 2P2U双路主板。内存方面,两款处理器单路支持12条内存通道,双路系统支持24条内存通道,因此我们也为它们采用了24通道内存配置。本次测试所使用的内存为三星DDR5 4800 64GB,内存总数量为24根,内存总容量为1.5TB,搭配美光9300系列企业级NVMe SSD。
本次测试统一考察的是双路系统的性能,EPYC 9754、EPYC 9654处理器统一采用了AMD Titanite SP5 2P2U双路主板,12通道、24条内存配置。
接下来我们在Ubuntu 22.04操作系统下,特别采用考察处理器浮点与整数性能、内存性能,以及光线追踪、渲染等10个专业软件、13个子项项目对两款处理器的性能进行了全面测试。
需要提及的是,为了让读者更好地了解这两款处理器在众多企业级产品中的性能水准,我们还在部分测试中引入了其他处理器已经测试过的成绩。它们是128核心、256线程配置的双路EPYC 9554系统,64核心、128线程配置的双路EPYC 9374F系统,以及128核心、256线程配置,使用DDR4 3200内存的双路EPYC 7763系统。后者隶属第三代EPYC霄龙处理器,采用Zen 3处理器架构、TSMC 7nm生产工艺。
第四代AMD EPYC处理器双路系统测试平台一览
处理器:EPYC 9754 ×2
EPYC 9654 ×2
内存: 三星DDR5 4800 64GB×24
主板: AMD Titanite
硬盘: 美光9300系列企业级NVMe SSD
系统: Ubuntu 22.04
性能测试:SPECrate 2017
SPECrate 2017测试的是单位时间的吞吐量或工作量,这是服务器采购时的主要性能指标,所以服务器厂商和处理器厂商通常提供的是这一测试成绩。在SPECrate 2017中包含SPECrate Integer和SPECrate Floating Point,前者测试的是整型并发性能,后者测试的是浮点并发性能。该软件的一个重要特性是可以调动处理器内的所有核心、线程数参与计算。
接下来我们重点关注了EPYC 9754与EPYC 9654在双路配置性能上的对比。测试显示,尽管双路EPYC 9654系统三级缓存容量更大,拥有192核心、384线程,并且轻松击败了其他核心数更少的产品,但由于核心、线程数不如EPYC 9754,因此最终拥有256核心、512线程的EPYC 9754双路系统在测试成绩上击败了EPYC 9654。其整数性能相对于EPYC 9654双路系统领先了多达12.1%,浮点运算性能领先了5.2%。对提供云服务的厂商而言,这是非常有意义的结果,毕竟任何云业务计算都需要占用大量CPU的运算能力,比如直播业务高峰期云服务器中的CPU占用率经常会达到90%以上,因此只有采用具有更强算力的处理器才能保证业务更流畅地在客户端运行。
性能测试:Stream-Triad
Stream是业界广为流行的综合性内存带宽实际性能测量工具之一。和硬件厂商提供的理论最大内存带宽不同,通过fortran、C两种高级且高效的语言编写完成的Stream,可以在测试中充分发挥出内存的能力。Stream一共包含Copy、Scale、Add 和Triad 这4种操作,其中Triad组合了前面3种操作,所以其测试成绩更具参考价值。
从测试结果可以看到,采用DDR5内存的两款EPYC双路系统都拥有很大的优势,毕竟这些系统每一路采用的都是规格大幅提升的12通道DDR5 4800内存系统,单路理论内存带宽就可以达到460.8GB/s,因此在内存性能测试上,EPYC 9754、EPYC 9654没有明显区别,差别很小。前者的测试成绩为743502MB/s,后者为741063MB/s,其双路内存带宽都在720GB/s以上,远远高于使用DDR4 3200内存的第三代EPYC处理器:双路EPYC 7763系统。
第三代双路EPYC系统每一路采用的都是8通道DDR4内存系统,在使用DDR4 3200内存时的带宽只有363GB/s左右。显然借助对12通道DDR5 4800内存的支持,采用Zen 4c小核心的EPYC 97X4系列处理器也具备颇为强大的内存性能。
性能测试:NAMD
NAMD是一种并行的分子动力学代码,由伊利诺伊大学厄巴纳- 香槟分校贝克曼高级科学与技术研究所的理论和计算生物物理学小组开发,它主要用于大型生物分子系统的高性能模拟。本次测试中,我们主要通过NAMD来考察参测处理器的浮点性能。
NAMD也是一个依赖处理器核心数量的科学计算,因此测试结果与SPECrate 2017非常类似,凭借更多的处理器核心数量,256核心、512线程配置的EPYC 9754双路系统比192核心、384线程配置的EPYC 9654双路系统快了12.5%,领先幅度较大。对于准备提供科研计算云服务的厂商来说,这也是非常值得关注的结果。目前随着处理器、GPU性能的快速提升,科研计算云服务器也成为一种强大的计算工具,被广泛应用于数据处理、人工智能、生物医学。如在生物医学领域,科学家们也在进行着类似NAMD这样的生物分子、基因数据运算,而且由于运算量非常大,往往需要借助云服务器来提高工作效率。
性能测试:OpenSSL
OpenSSL广泛用于保护服务器之间的通信,这是许多服务器堆栈中的重要协议。OpenSSL测试主要包含生成签名和验证签名两部分,我们在本次此时中主要进行了OpenSSL生成签名测试。
测试结果显示,OpenSSL测试同样是一个依赖处理器多线程运算性能的测试,两个不同核心数、线程数配置的双路系统在成绩上也有显著的区别。拥有256核心、512线程的EPYC 9754双路系统在签名效率上比192核心、384线程配置的EPYC 9654双路系统快了12.8%,Zen 4c架构处理器核心数更多的优势显而易见。对于云服务器商来说,这是一个很有意义的结果,因为OpenSSL一直是云计算中为应用程序提供信息安全的保障,但在不少服务器中由于硬件设备性能不济,用户数量增多等问题,使得运算速度不断降低。运营商如果采用EPYC 9754双路系统这样的高性能处理器,显然可以很好地解决这些问题,能够将OpenSSL的计算任务均衡分配给各个核心,达到提高资源利用率,工作效率的目的。
基准性能测试:UnixBench Dhrystone 2和Whetstone
UnixBench来源于BYTE UNIX基准测试套件,该工具的主要目的是提供服务器性能的基本指标。这是一个系统基准测试工具,拥有多个测试子项,而不仅仅是CPU、内存或磁盘基准测试工具。其结果不仅取决于硬件,还取决于操作系统、库甚至编译器。在本次测试中我们主要使用了体现整数性能的Dhrystone 2 using register variables和测试双精度浮点操作速度与效率的Double-Precision Whetstone。此外,在这两个测试项目均可选用单线程或多线程进行,本次测试我们选用的是多线程。
与SPECrate 2017相比,这两个测试更能体现处理器核心数量的重要性。首先EPYC 9754双路系统在双精度浮点性能运算上领先20%,在体现整数性能的Dhrystone 2 using register variables上更领先EPYC 9654双路系统高达23.5%,其优势非常明显。
性能测试:C-ray 1.1
C-ray是一种常用的光线追踪基准测试,可以显示多线程工作负载下处理器的差异,时间越短说明系统性能越强。在本次测试中,我们使用了4K和8K这两种分辨率进行测试,从而对比参测系统在不同负载下的性能差异。
从测试结果来看,使用处理器来完成光线追踪任务不仅需要处理器的计算能力,也比较依赖处理器的三级缓存容量,大容量缓存可以有效提高光线追踪性能,因为光线追踪计算过程中需要在内存和缓存中存储大量的场景几何信息、纹理和光线追踪过程中的中间结果等数值,所以缓存容量越大,就能减少处理器访问内存的时间,提高计算效率,所以最终缓存容量更大的192核心、384线程配置的EPYC 9654双路系统在这个测试中可以和256核心、512线程的EPYC 9754双路系统打平,两个测试系统都取得了完全相同的成绩。
性能测试:Sysbench CPU
Sysbench是一款被广泛使用的Linux基准测试,它可以对CPU进行性能测试,在测试中主要是通过CPU进行质数加法运算,质数极限为10000个。
同样对于提供云服务的厂商而言,这也是一个值得关注的结果,毕竟Linux是一种在服务器中广泛应用的操作系统,具有高度的稳定性、安全性、可扩展性、灵活性和定制性,被主要用在Web服务器、数据库服务器、云计算等领域。测试结果意味着,在Linux系统下进行处理器多核心运算测试的话,拥有256核心、512线程的EPYC 9754双路系统可以完全发挥出最大性能,每秒能完成922370.2轮运算,比EPYC 9654双路系统的成绩领先了12%。
性能测试:HPL
HPL的英文全称为“High-Performance Linpack”,Linpack是国际上一款用于测试高性能计算机系统浮点性能的基准测试工具。通过对高性能计算机采用高斯消元法求解一元N次稠密线性代数方程组的测试,考察高性能计算机的浮点性能。值得一提的是,该测试支持AVX-512指令集,在支持AVX-512技术的硬件上,可以使用AVX-512指令集运算来完成该测试。
结果令人欣喜,拥有更多计算核心的EPYC 9754双路系统在该测试中轻松战胜了EPYC 9654双路系统,领先幅度达到17.7%。由于云计算服务器的一个重要作用是向用户提供计算力,评价一款服务器总体计算力的方法就是采用统一标准作为评判,而Linpack测试就是其中之一,包括世界最快500台巨型机系统的排名都采用了这一标准,因此EPYC 9754双路系统的胜出意味着它的算力的确要更胜一筹。
性能测试:DGEMM
DGEMM是一个基于双精度矩阵乘法例行程序的快速基准测试,可计算以下乘积:C←αAB+βC。其中A、B和C是包含双精度浮点值的矩阵,α和β是标量。AMD的开源DGEMM基准使用了AOCL 4.0的AMD BLIS组件,其结果最终会反馈出一个Gflops值,该值将接近于可实现的最大系统吞吐量。同样这个测试也可以使用AVX-512指令集运算,可以体现处理器在支持AVX-512指令集后的性能优势。
HPL的Linpack测试类似,DGEMM也是体现处理器总体算力的一个基准测试,因此256核心、512线程配置的EPYC 9754双路系统并不意外地在这个测试中获得了领先,其测试成绩突破11000Gflops,而EPYC 9654双路系统尽管明显领先其他核心数更少的双路系统,但面对EPYC 9754双路系统,它那9282.5Gflops的成绩还是明显落后。
性能测试:V-RAY 5.02
VRay是业内非常受欢迎的一款渲染引擎。基于V-Ray内核开发的有VRay for 3ds max、Maya、Sketchup、Rhino等诸多版本,为不同领域的优秀3D建模软件提供了高质量的图片和动画渲染,方便使用者渲染各种图片。目前通过V-Ray渲染引擎提供云渲染服务的平台也很多,显然如果服务器内部的处理器、GPU要进行这类渲染作业,就必须具备很高的性能,因此V-Ray引擎的开发公司Chaos特别推出了V-Ray Benchmark。这是一款独立的渲染速度测试软件,可以用于测试处理器、GPU的渲染速度。
长久以来,渲染应用对多核心处理器、多线程技术都有很好的支持,毕竟只有高效地将渲染任务分配给多个线程,每个线程都同时处理一部分渲染任务,才能大大提高渲染时的速度和效率。因此256核心、512线程配置的EPYC 9754双路系统也毫无悬念地战胜了192核心、384线程配置的EPYC 9654双路系统,其每分钟可以渲染217416 vsamples,领先EPYC 9654双路系统约4.1%。
更多核心带来更强大的算力
综合以上测试,可以看到EPYC 9754双路系统几乎在所有项目中取得了领先,最大领先幅度可以达到23.5%,这也体现出EPYC 9754处理器的128颗Zen 4c核心的确拥有不凡的算力,能够在与云计算相关的应用与运算中大显身手,如科学计算、OpenSSL生成签名、图形渲染等应用中EPYC 9754都具备明显的优势。
第四代EPYC处理器包含三大不同系列的处理器,分别面向不同的应用领域。
更值得一提的是,EPYC 9754的售价相对于96核心、192线程的EPYC 9654并没有贵多少,EPYC 9754的官方售价在11900美元左右,而EPYC 9654的官方售价在11805美元左右,以高了不到100美元的差价,就能获得额外32颗核心,显然非常超值。相对于竞争对手的同类产品如至强8490H,EPYC 9754更拥有碾压级的性价比优势,目前仅采用60核心、120线程设计的至强8490H售价就高达17000美元。不过需要注意的是,EPYC 9754的出现也并不意味着它可以替代EPYC 9654这样使用Zen 4核心,拥有更大L3缓存容量的第四代EPYC霄龙处理器。毕竟有部分应用如测试中的C-ray光线追踪也非常依赖处理器的缓存容量,在这些应用中,缓存容量更多的EPYC 9654这类处理器会有更好的表现。
总之,EPYC 9754、EPYC 9754S、EPYC 9734处理器的出现只是AMD进一步细分市场,削减了处理器缓存容量,拥有更多核心数量,专门针对云计算推出的产品,它们将和EPYC 9654、EPYC 9554等处理器,以及最新采用3D缓存技术的EPYC 9084X系列处理器,分别在云计算、数据中心、技术计算领域各显神通,为不同类型的企业级用户带来更高的工作效率,创造更多的价值。
本文转载自:微型计算机杂志