来源:内容由半导体行业观察(ID:icbank)编译自tomshardware,谢谢。
AMD Instinct MI300A APU 的工程师们发表了关于打造“百亿亿次异构处理”未来的研究成果。MI300A 是 El Capitan 的核心处理器,预计今年开始运行后将成为世界上速度最快的超级计算机。预计它的运行速度将达到每秒 2 百亿亿次浮点运算。 13 位 AMD 科学家在最近的研究论文中合作,建立了实现百亿亿次浮点性能的方法和手段。上面来自 X的帖子提供了研究过程的绝佳鸟瞰图,由该论文的一位作者发布。虽然 MI300A 的存在无疑不是什么新鲜事,它于 2023 年 5 月首次为公众所知,但昨天在 ISCA 2024 上发表的新论文有助于揭示详细的制作过程——正是 AMD 的想法让他们优先考虑 APU 而不是专用 GPU 进行百亿亿次计算。 十多年前,美国能源部选择 AMD 参与超级计算机研究,Instinct MI300A 应运而生。美国能源部期待超级计算机以百亿亿次浮点运算的速度运行,但随着摩尔定律即将终结,它知道必须进行更深刻的创新才能实现这一目标。尽管功能强大,但 AMD 认为独立显卡会带来太多空间限制和功耗,无法实现可扩展和百亿亿次级。因此,它开始研究“百亿亿次级异构处理器”。EHP 项目基于打造一款能够与自身多个副本同步的强大企业级APU,它首先体现在 Frontier 中,这是世界上第一台达到百亿亿次浮点运算速度的超级计算机。
尽管 Frontier 超级计算机在首次推出时就取得了巨大成功,成为世界上速度最快的超级计算机,但 AMD 并未完全实现其 EHP 计划。Frontier 基于 EHP 研究的基础,但使用专用的 MI250X 图形加速器,而不是 AMD 希望的一体式 APU 解决方案。为了按时推出 Frontier,必须做出这种牺牲,因为 AMD 的 V-Cache 堆叠技术虽然前景光明,但尚未准备好迎接黄金时段。Frontier 期间计划的 EHP 第三次修订版需要在每个 GPU 芯片顶部堆叠 HBM 模块,以及其他当时不可能完成的任务。3D V-Cache 不得不等待更长时间,这意味着 Frontier 推出时状态并不完美,但功能强大。
最终,3D V-Cache 成为了如今的革命性技术,EHP 也准备好冲过终点线。这款新的 APU 是基于 Frontier 内部 EPYC 处理器的 CPU 架构而诞生的。借助统一的 Infinity Fabric 内存总线,MI300A 最终可以在其图形和处理核心之间实现以 TB/s 为单位的传输时间。
作为 EHP 项目的最终形态,MI300A 绝非玩笑。APU 拥有 24 个 Zen 4 x86 CPU 核心(分布在三个芯片中),以及 228 个 CDNA 3 GPU 计算单元和 128 GB 统一 HBM3 内存(运行速度为 5.2 GT/s),全部融入第四代 Infinity 架构中。其规格表上的数字似乎是拼写错误,峰值内存带宽为 5.3 TB/s,理论峰值 AI 性能为 3922 TFLOPS(此处插入三个不同的免责声明)。
MI300A APU 上的 GPU 性能大大高于 Frontier 中 MI250X 的专用 GPU 性能。在一系列 HPC 工作负载综合基准测试中,MI300A 的输出结果比 MI250X 快 1.25 倍到 2.75 倍。平均性能翻倍无疑证明了 AMD 和能源部争取 EHP 是正确的。
当然,MI300A 并非独立运行,因为它设计用于四个 APU 阵列。每个 APU 都有八个 128 GB/s Infinity Fabric 接口,可实现 1 TB/s 的双向连接。在四个 APU 的配置中,每个 APU 都可以快速通信,同时所有 APU 都具有 PCIe Gen5 x16 连接。将其扩展到超级计算机,能源部最新的玩具 El Capitan 估计可以以 2 exaFLOPS 的速度运行。
El Capitan 部署后将碾压全球顶级超级计算机。采用 AMD 技术的 Frontier 仍然是世界上最快的超级计算机,峰值速度为 1.2 exaFLOPS。只有一台计算机达到了 1 exaFLOPS,其余计算机的速度都在 500 teraFLOPS 或更低。El Capitan 的预期结果将轻松夺得第一,成为目前全球前 10 名排行榜上的第三台采用 AMD 技术的超级计算机。
参考链接:
https://www.tomshardware.com/pc-components/cpus/amd-revolutionary-exascale-apu-under-the-microscope