AMD的革命性芯片

周四, 4 七月 2024 - 09:19

来源：内容由半导体行业观察（ID：icbank）编译自tomshardware，谢谢。

AMD Instinct MI300A APU 的工程师们发表了关于打造“百亿亿次异构处理”未来的研究成果。MI300A 是 El Capitan 的核心处理器，预计今年开始运行后将成为世界上速度最快的超级计算机。预计它的运行速度将达到每秒 2 百亿亿次浮点运算。

13 位 AMD 科学家在最近的研究论文中合作，建立了实现百亿亿次浮点性能的方法和手段。上面来自 X的帖子提供了研究过程的绝佳鸟瞰图，由该论文的一位作者发布。虽然 MI300A 的存在无疑不是什么新鲜事，它于 2023 年 5 月首次为公众所知，但昨天在 ISCA 2024 上发表的新论文有助于揭示详细的制作过程——正是 AMD 的想法让他们优先考虑 APU 而不是专用 GPU 进行百亿亿次计算。

十多年前，美国能源部选择 AMD 参与超级计算机研究，Instinct MI300A 应运而生。美国能源部期待超级计算机以百亿亿次浮点运算的速度运行，但随着摩尔定律即将终结，它知道必须进行更深刻的创新才能实现这一目标。尽管功能强大，但 AMD 认为独立显卡会带来太多空间限制和功耗，无法实现可扩展和百亿亿次级。因此，它开始研究“百亿亿次级异构处理器”。EHP 项目基于打造一款能够与自身多个副本同步的强大企业级APU，它首先体现在 Frontier 中，这是世界上第一台达到百亿亿次浮点运算速度的超级计算机。

尽管 Frontier 超级计算机在首次推出时就取得了巨大成功，成为世界上速度最快的超级计算机，但 AMD 并未完全实现其 EHP 计划。Frontier 基于 EHP 研究的基础，但使用专用的 MI250X 图形加速器，而不是 AMD 希望的一体式 APU 解决方案。为了按时推出 Frontier，必须做出这种牺牲，因为 AMD 的 V-Cache 堆叠技术虽然前景光明，但尚未准备好迎接黄金时段。Frontier 期间计划的 EHP 第三次修订版需要在每个 GPU 芯片顶部堆叠 HBM 模块，以及其他当时不可能完成的任务。3D V-Cache 不得不等待更长时间，这意味着 Frontier 推出时状态并不完美，但功能强大。

最终，3D V-Cache 成为了如今的革命性技术，EHP 也准备好冲过终点线。这款新的 APU 是基于 Frontier 内部 EPYC 处理器的 CPU 架构而诞生的。借助统一的 Infinity Fabric 内存总线，MI300A 最终可以在其图形和处理核心之间实现以 TB/s 为单位的传输时间。

作为 EHP 项目的最终形态，MI300A 绝非玩笑。APU 拥有 24 个 Zen 4 x86 CPU 核心（分布在三个芯片中），以及 228 个 CDNA 3 GPU 计算单元和 128 GB 统一 HBM3 内存（运行速度为 5.2 GT/s），全部融入第四代 Infinity 架构中。其规格表上的数字似乎是拼写错误，峰值内存带宽为 5.3 TB/s，理论峰值 AI 性能为 3922 TFLOPS（此处插入三个不同的免责声明）。

MI300A APU 上的 GPU 性能大大高于 Frontier 中 MI250X 的专用 GPU 性能。在一系列 HPC 工作负载综合基准测试中，MI300A 的输出结果比 MI250X 快 1.25 倍到 2.75 倍。平均性能翻倍无疑证明了 AMD 和能源部争取 EHP 是正确的。

当然，MI300A 并非独立运行，因为它设计用于四个 APU 阵列。每个 APU 都有八个 128 GB/s Infinity Fabric 接口，可实现 1 TB/s 的双向连接。在四个 APU 的配置中，每个 APU 都可以快速通信，同时所有 APU 都具有 PCIe Gen5 x16 连接。将其扩展到超级计算机，能源部最新的玩具 El Capitan 估计可以以 2 exaFLOPS 的速度运行。

El Capitan 部署后将碾压全球顶级超级计算机。采用 AMD 技术的 Frontier 仍然是世界上最快的超级计算机，峰值速度为 1.2 exaFLOPS。只有一台计算机达到了 1 exaFLOPS，其余计算机的速度都在 500 teraFLOPS 或更低。El Capitan 的预期结果将轻松夺得第一，成为目前全球前 10 名排行榜上的第三台采用 AMD 技术的超级计算机。

参考链接：

https://www.tomshardware.com/pc-components/cpus/amd-revolutionary-exascale-apu-under-the-microscope

阅读推荐