第五代AMD EPYC处理器推动AI、云计算和企业计算不断发展

全新第五代 AMD EPYC(霄龙)处理器——AMD EPYC 9005 系列处理器专为加速数据中心、云计算和 AI 工作负载而设计,助力企业将计算性能提升到全新水平。

AMD EPYC处理器.png

面向 AI 的卓越 CPU1

AMD EPYC 9005 处理器性能卓越,全方位满足 AI 处理需求。  

  • 充分提升每台服务器性能

使用 AMD EPYC 9005 处理器,在机架数量减少多达 86% 的情况下仍能实现与原有硬件相当的整数性能2,大幅减少了物理占用空间、功耗和所需软件许可证数量,从而为运行全新或扩展的 AI 工作负载腾出空间。

  • 卓越的 AI 推理性能

基于 AMD EPYC 9005 CPU 的纯 CPU 型服务器能够高效处理大量 AI 工作负载,如具有 130 亿个及以下参数的语言模型、图像和欺诈分析或推荐系统。与上一代产品相比,运行两个第五代 AMD EPYC 9965 CPU 的服务器可实现高达 2 倍的推理吞吐量提升。3

  • 充分助力 GPU 加速

AMD EPYC 9005 系列中的有些型号经过专门优化,在搭载 GPU 的系统中用作主机 CPU 时可帮助提高特定 AI 工作负载的性能,从而提高每台 GPU 服务器的投资回报率。例如,运行 Llama3.1-70B 时,在相同情况下使用高频 AMD EPYC 9575F 处理器且搭载 8 个 GPU 的服务器在系统性能上可提升高达 20%。4

  • 经过优化的企业级性能

AMD EPYC 9005 处理器在提供出色性能的同时实现卓越能效和总体拥有成本 (TCO) 价值,可解决企业迫在眉睫的关键需求。

  • 业界卓越的整数性能

基于 AMD EPYC 9005 CPU 的服务器借助全新“Zen 5”核心在主要性能指标上表现出色,其中整数性能是同类产品的 2.7 倍。5

  • 专为云计算而生

AMD EPYC 9005 系列处理器兼具卓越密度和性能,非常适合云计算工作负载。旗舰级 AMD EPYC 9965 处理器拥有 192 个核心,能够支持更多的虚拟 CPU (vCPU) (1 个 vCPU 对应 1 个核心)。

  • 卓越能效和 TCO 优势

如今,数据中心对能源的需求远超以往。AMD EPYC 9005 处理器继承了 AMD EPYC处理器的传统优势,带来出色的能效和总体拥有成本 (TCO)。 

AMD EPYC 9005系列处理器的高级特性包括

  • 领先的核心数选择,每CPU可选8至192核心

  • “Zen 5”和“Zen 5c”核心架构

  • 每CPU支持12通道DDR5内存

  • 最高支持DDR5-6400MT/s内存速率

  • 领先的加速频率最高可达5GHz

  • 支持AVX-512指令集,具有完整的512b数据路径

  • 支持可信I/O的机密计算,系列中每个部件均在进行FIPS认证

从为企业提供各种AI支持计划,到为大规模云基础设施赋能,再到托管最严苛的关键业务应用,现代数据中心运行着各种各样的工作负载。全新第五代AMD EPYC处理器为当今那些驱动着企业IT发展的各种服务器工作负载提供了领先的性能和能力。点击此处,详细了解AMD EPYC 9005系列处理器

脚注:

1.9xx5-012:TPCx-AI @SF30 多实例 32 核心实例大小吞吐量测试结果基于截至 2024 年 9 月 5 日的 AMD 内部测试,测试中运行了多个 VM 实例。综合端到端 AI 吞吐量测试结果源自 TPCx-AI 基准测试,与已发布的 TPCx-AI 结果不具有可比性,因为端到端 AI 吞吐量测试结果不符合 TPCx-AI 规范。

双路 AMD EPYC(霄龙)9965(总计 384 个核心),12 个 32 核心实例,NPS1,1.5TB 24x64GB DDR5-6400(速率 6000 MT/s),1DPC,1.0 Gbps NetXtreme BCM5720 千兆以太网 PCIe,3.5 TB Samsung MZWLO3T8HCLS-00A07 NVMe®,Ubuntu® 22.04.4 LTS,6.8.0-40-generic(tuned-adm profile throughput-performance、ulimit -l 198096812、ulimit -n 1024、ulimit -s 8192),BIOS RVOT1000C(SMT=off、Determinism=Power、Turbo Boost=Enabled)

双路 AMD EPYC(霄龙)9755(总计 256 个核心),8 个 32 核心实例,NPS1,1.5TB 24x64GB DDR5-6400(速率 6000 MT/s),1DPC,1.0 Gbps NetXtreme BCM5720 千兆以太网 PCIe,3.5 TB Samsung MZWLO3T8HCLS-00A07 NVMe®,Ubuntu 22.04.4 LTS,6.8.0-40-generic(tuned-adm profile throughput-performance、ulimit -l 198096812、ulimit -n 1024、ulimit -s 8192),BIOS RVOT0090F(SMT=off、Determinism=Power、Turbo Boost=Enabled)

双路 AMD EPYC(霄龙)9654(总计 192 个核心),6 个 32 核心实例,NPS1,1.5TB 24x64GB DDR5-4800,1DPC,2 个 1.92 TB Samsung MZQL21T9HCJR-00A07 NVMe,Ubuntu 22.04.3 LTS,BIOS 1006C(SMT=off、Determinism=Power)

结果:

CPU、吞吐量中值、相对于基准的提升幅度、代际提升幅度

Turin(192 个核心,12 个实例)、6067.531、3.775、2.278

Turin(128 个核心,8 个实例)、4091.85、2.546、1.536

Genoa(96 个核心,6 个实例)、2663.14、1.657、1

参照基准(64 个核心,4 个实例)、1607.417、1、不适用

结果可能会因系统配置、软件版本和 BIOS 设置等因素而有所不同。TPC、TPC 基准测试和 TPC-C 是 Transaction Processing Performance Council 的商标。

2.9xx5TCO-001B:此场景包含许多假设和估计,尽管基于 AMD 内部研究和最佳逼近原则,但应视为一个示例,仅供参考,不能用作实际测试的决策依据。通过 AMD 服务器和温室气体排放总体拥有成本 (TCO) 估算工具 1.12 版,评估了实现总计 39100 个单位的 SPECrate2017_int_base 性能所需的特定 AMD EPYC(霄龙)服务器解决方案和相应的参照解决方案,采用了截至 2024 年 10 月 10 日发布的分数。在此测试场景中,基于双路 EPYC(霄龙)9965(192 核)的服务器获得 3000 分 (https://www.spec.org/cpu2017/results/res2024q4/cpu2017-20240923-44837.pdf),明显高于参照解决方案的得分。双路 EPYC(霄龙)9965 的实际 SPECrate®2017_int_base 分数因 OEM 发布的数据而异。我们利用这些数据,并采用“2024 年全球电力排放系数 10 – 2024 年 7 月”中的国家/地区特定电力系数、美国国家环境保护局“温室气体当量计算器”,对环境影响进行了评估。

3.9xx5-040A:XGBoost(每小时运行次数)吞吐量测试结果基于截至 2024 年 9 月 5 日的 AMD 内部测试。XGBoost 配置:v2.2.1,Higgs 数据集,32 核心实例,FP32 双路 AMD EPYC(霄龙)9965(总计 384 个核心),12 个 32 核心实例,1.5TB 24x64GB DDR5-6400(速率 6000 MT/s),1.0 Gbps NetXtreme BCM5720 千兆以太网 PCIe,3.5 TB Samsung MZWLO3T8HCLS-00A07 NVMe®,Ubuntu® 22.04.4 LTS,6.8.0-45-generic(tuned-adm profile throughput-performance、ulimit -l 198078840、ulimit -n 1024、ulimit -s 8192),BIOS RVOT1000C(SMT=off、Determinism=Power、Turbo Boost=Enabled),NPS=1;双路 AMD EPYC(霄龙)9755(总计 256 个核心),1.5TB 24x64GB DDR5-6400(速率 6000 MT/s),1DPC,1.0 Gbps NetXtreme BCM5720 千兆以太网 PCIe,3.5 TB Samsung MZWLO3T8HCLS-00A07 NVMe®,Ubuntu 22.04.4 LTS,6.8.0-40-generic(tuned-adm profile throughput-performance、ulimit -l 198094956、ulimit -n 1024、ulimit -s 8192),BIOS RVOT0090F(SMT=off、Determinism=Power、Turbo Boost=Enabled),NPS=1;双路 AMD EPYC(霄龙)9654(总计 192 个核心),1.5TB 24x64GB DDR5-4800,1DPC,2 个 1.92 TB Samsung MZQL21T9HCJR-00A07 NVMe®,Ubuntu 22.04.4 LTS,6.8.0-40-generic(tuned-adm profile throughput-performance、ulimit -l 198120988、ulimit -n 1024、ulimit -s 8192),BIOS TTI100BA(SMT=off、Determinism=Power),NPS=1。结果如下:CPU、第 1 次运行吞吐量、第 2 次运行吞吐量、第 3 次运行吞吐量、吞吐量中值、相对于基准的提升幅度、代际提升幅度 双路 Turin(192 核,NPS1)、1565.217、1537.367、1553.957、1553.957、3、2.41 双路 Turin(128 核,NPS1)、1103.448、1138.34、1111.969、1111.969、2.147、1.725 双路 Genoa(96 核,NPS1)、662.577、644.776、640.95、644.776、1.245、1 参照基准(64 核)、517.986、421.053、553.846、517.986、1、不适用 结果可能会因系统配置、软件版本和 BIOS 设置等因素而有所不同。

4.9xx5-014:  Llama3.1-70B 推理吞吐量测试结果基于截至 2024 年 9 月 1 日的 AMD 内部测试。

Llama3.1-70B 配置:TensorRT-LLM 0.9.0,nvidia/cuda 12.5.0-devel-ubuntu22.04,FP8,输入/输出 token 配置(应用场景):[BS=1024 I/O=128/128,BS=1024 I/O=128/2048,BS=96 I/O=2048/128,BS=64 I/O=2048/2048]。结果以“token/秒”为单位。

双路 AMD EPYC(霄龙)9575F(总计 128 个核心),8 个 NVIDIA H100 80GB HBM3,1.5TB 24x64GB DDR5-6000,1.0 Gbps 3TB Micron_9300_MTFDHAL3T8TDP NVMe®,BIOS T20240805173113(Determinism=Power、SR-IOV=On),Ubuntu 22.04.3 LTS,kernel=5.15.0-117-generic(mitigations=off、cpupower frequency-set -g performance、cpupower idle-set -d 2、echo 3> /proc/syss/vm/drop_caches);

I/O token、批次大小、参照系统的吞吐量、Turin 吞吐量、提升幅度:

128/128、1024、814.678、1101.966、1.353

128/2048、1024、2120.664、2331.776、1.1

2048/128、96、114.954、146.187、1.272

2048/2048、64、333.325、354.208、1.063

吞吐量平均提升幅度为 1.197 倍。

结果可能会因系统配置、软件版本和 BIOS 设置等因素而有所不同。

5. 9xx5-002D:SPECrate®2017_int_base 性能评估基于截至 2024 年 10 月 10 日 www.spec.org 网站发布的分数。双路 AMD EPYC(霄龙)9965(SPECrate®2017_int_base 得分为 3000,总计 384 个核心,500W 热设计功耗 (TDP),CPU 总成本为 $14,813,SPECrate®2017_int_base 得分与 CPU 功耗比为 6.060,SPECrate®2017_int_base 得分与 CPU 成本比为 0.205,https://www.spec.org/cpu2017/results/res2024q4/cpu2017-20240923-44837.html);双路 AMD EPYC(霄龙)9755(SPECrate®2017_int_base 得分为 2720,总计 256 个核心,500W 热设计功耗 (TDP),CPU 总成本为 $12,984,SPECrate®2017_int_base 得分与 CPU 功耗比为 5.440,SPECrate®2017_int_base 得分与 CPU 成本比为 0.209,https://www.spec.org/cpu2017/results/res2024q4/cpu2017-20240923-44824.html);双路 AMD EPYC(霄龙)9754(SPECrate®2017_int_base 得分为 1950,总计 256 个核心,360W 热设计功耗 (TDP),CPU 总成本为 $11,900,SPECrate®2017_int_base 得分与 CPU 功耗比为 5.417,SPECrate®2017_int_base 得分与 CPU 成本比为 0.164,https://www.spec.org/cpu2017/results/res2023q2/cpu2017-20230522-36617.html);双路 AMD EPYC(霄龙)9654(SPECrate®2017_int_base 得分为 1810,总计 192 个核心,360W 热设计功耗 (TDP),CPU 总成本为 $11,805,SPECrate®2017_int_base 得分与 CPU 功耗比为 5.028,SPECrate®2017_int_base 得分与 CPU 成本比为 0.153,https://www.spec.org/cpu2017/results/res2024q1/cpu2017-20240129-40896.html)。SPEC®、SPEC CPU® 和 SPECrate® 是 Standard Performance Evaluation Corporation 的注册商标。如需了解更多信息,请访问 www.spec.org

最新文章

最新文章