来源:内容由半导体行业观察(ID:icbank)编译自nextplatform,谢谢。
时机是一件有趣的事情。2006 年夏天,AMD 以 56 亿美元收购了 GPU 制造商 ATI Technologies,并在 CPU 领域与英特尔展开竞争,在 GPU 领域与 Nvidia 展开竞争,同年夏天,研究人员首次开始研究如何将单精度浮点数学运算从 CPU 卸载到 Nvidia GPU尝试加速 HPC 仿真和建模工作负载。
这个时机很偶然,它让 AMD 走上了第二种形式的数据中心计算之路,老实说,这对该公司来说一直是难以捉摸的,因为在封存 Opteron 服务器后,它在服务器 CPU 业务上有如此大的混乱需要清理。收购 ATI 几年后推出 CPU 产品线。
然而,在 Lisa Su 的指导下,AMD 并没有取消 Epyc 系列的服务器 CPU 业务,该业务目前正在销售第四代芯片,尽管服务器出现了普通的衰退(部分原因是需要花费巨额资金),但该业务的表现仍然相当不错在人工智能服务器上投入了大量资金——但它一直在断断续续地整合一系列可靠的 Instinct GPU,其架构与 Radeon 客户端 GPU 不同,可以在数据中心与 Nvidia 抗衡,并阻止大量初创公司兜售针对人工智能、有时是高性能计算和分析的矩阵数学引擎。
曾经被称为 Radeon Instinct 系列的崛起需要时间,而且可能比 AMD 想象的还要长。漫长的旅程始于“Graphics Core Next”架构,该架构与“Vega 10”Radeon 和 Radeon Instinct MI25 GPU一起首次亮相,这些 GPU 于 2018 年夏天推出,当时 Nvidia 在 2018 年占据了前百亿亿次系统交易的很大一部分。
五年前,GPU 上的机器学习已经超越了人类的图像识别能力,并且创建了模型来从速度到文本或图像到文本以及口语和书面语言之间的转换。此时,在数据中心的 GPU 计算方面,AMD 对 Nvidia 的威胁并不大,而 Nvidia 正准备推出自己的 CPU,以在这方面对英特尔和 AMD 构成威胁。
通过在 2018 年 SC18 超级计算大会之前推出的“Navi”Vega 20 GPU(用于 Instinct MI50 和 MI60 GPU 加速器),AMD 证明了它可以组装出可靠的 GPU,但我们从未真正看到过高端MI60 上市后,尽管这些设备提供了相当不错的性价比,但与 Nvidia CUDA 堆栈和库相比,Radeon Open eCosystem (ROCm) 软件堆栈还是一个玩具,而 Nvidia CUDA 堆栈和库当时已经发展了十年。
我们确实将 Vega 10 和 Vega 20 视为一项工作,有点跨越了几年,只是真正为 AMD 提供了一个开始真正 GPU 工作的基线。
通过在 SC20 上发布的“Arcturus”GPU,我们表示 AMD 正处于一个转折点,其 Instinct MI100 GPU使用了这款非常受人尊敬的 GPU 以及不断发展的 ROCm 堆栈,我们坚持这一评估。一年后,在 SC21 之前,AMD 推出了“Aldebaran”GPU,它或多或少在一个封装中包含两个 Arcturus 单元,这是部署在“Instinct MI250X 加速器”中的核心 GPU。橡树岭国家实验室的 Frontier”超级计算机打破了百亿亿次计算障碍。(是的,这肯定是一个障碍。)
凭借“Antares”Instinct MI300系列,这是AMD数据中心GPU业务的第三次魅力,该公司正在准备拥有一个重要的GPU业务,该公司在完成第三季度财务报告时终于公布了一些数据结果。Antares 加速器的 MI300A 变体是一种混合设备,CPU 和 GPU 电机共享 128 GB HBM3 内存块,是目前安装在劳伦斯利弗莫尔国家实验室的“El Capitan”超级计算机的核心。El Capitan 预计将提供超过 2 exaflops 的总峰值 FP64 浮点性能,这将使其成为地球上最快的机器——至少在一段时间内是这样。Instinct MI300X 加速器是一款全 GPU 设备,配备 192 GB HBM3 内存,将推动超大规模数据中心和云构建商的销售,而且看起来将在 2024 年第一季度出现大幅增长。
AMD 将于 12 月 6 日在圣何塞推出 MI300 系列 GPU,但它无法抑制自己的热情,因为看起来它将从数据中心 GPU 销售中获得实质性且可持续的收入。
“基于我们在 AI 路线图执行方面取得的快速进展以及云客户的购买承诺,我们现在预计第四季度数据中心 GPU 收入约为 4 亿美元,随着全年收入的增长,到 2024 年将超过 20 亿美元。” AMD 首席执行官苏姿丰 (Lisa Su) 在与华尔街分析师讨论 2023 年第三季度财务业绩的电话会议上表示。“这种增长将使 MI300 成为 AMD 历史上销售额达到 10 亿美元最快的产品。”
确实如此,但该坡道的跑道是在 2015 年左右开始建造的——就像 Epyc CPU 坡道一样。但当时,AMD 规模太小、实力太弱,无法同时在 CPU 和 GPU 领域大放异彩。实际上,Epyc 的成功为 Instinct 的成功提供了资金支持。
更具体地说,Su 在后来的电话会议中表示,AMD 预计 Instinct 系列将在 2023 年第四季度带动约 4 亿美元的销售额,这主要是由 HPC 市场推动的,超大规模企业和云构建商的人工智能工作负载早期有所增加。如今,他们对任何类型的矩阵数学计算都有着巨大的兴趣。我们认为这 4 亿美元中的大约 3 亿美元将用于支付 El Capitan 机器中的 MI300A 混合 CPU-GPU 计算引擎。AMD 预计 Instinct 销售额将在 2024 年第一季度再增长 4 亿美元左右,主要由人工智能推动,一小部分来自 HPC 系统。(有时很难说这条线在哪里。)在 2024 年剩余时间里,Instinct 的销售额将大幅增长,并主要集中在人工智能工作负载上,最终全年收入约为 20 亿美元。
如果你计算一下,AMD 在 2024 年每个季度的数据中心 GPU 收入销售额将增加约 5000 万美元,达到 20 亿美元。2021 年第三季度,当 AMD 为 Frontier 系统预订了 MI250X GPU 销售额的很大一部分时,我们估计其数据中心 GPU 销售额为 1.64 亿美元,在我们的模型中,它在 2021 年第四季度又实现了 1.48 亿美元的销售额。因此,本季度和 2024 年第一季度的 4 亿美元不仅意味着 GPU 的价格上涨,而且意味着销量的大幅增加。
这也许是一个更好的比较。在 MI200 系列全面推广的前五个季度中,我们认为 AMD 的数据中心 GPU 销售额约为 3.15 亿美元,与 AMD 充满信心地告诉我们的 24 亿美元收入相比,这简直是小巫见大巫。因为我们认为它可以生产的所有 MI300 系列都已经分配给 OEM、云和超大规模厂商——它可以在未来五个季度内完成。这是收入增长 7.6 倍的一个因素。顺便说一句,我们认为 AMD 完全受到从台积电获得的 CoWoS 芯片封装的限制,而不是 Antares GPU 芯片产量,也不是 HBM3 内存可用性。如果台积电可以生产更多的 MI300 单元,那么 AMD 就可以销售更多的 MI300 单元。显然,AMD 的 CoWoS 将于 2024 年大幅增长,但鉴于其巨大的财富和主导地位,Nvidia 在 HBM3 内存和 CoWoS 上的支出可以超过 AMD。
尽管如此,尽管 Nvidia 拥有更大的数据中心 GPU 计算业务,但没有人能够声称 AMD 本身没有在小芯片和堆栈内存等方面进行创新,并且它没有在这方面拥有最聪明的头脑。Earth 现在渴望让他们的软件在 AMD GPU 上运行,这样他们就不会完全依赖 Nvidia GPU。市场已经完全摆脱了这种依赖,就像 2010 年代末英特尔在数据中心的霸主地位一样。
竞争不仅仅针对英伟达,而且已经到来。而且这种情况不会减弱。期间。
现在唯一的问题是,超大规模企业和云构建者能够以多快的速度创建和提升自己的 AI 定制 ASIC。Nvidia 将做出反应并进行创新,AMD 也会如此,但毫无疑问,Nvidia 在数据中心处于峰值控制和峰值定价。这就是为什么它可能会考虑使用自己的 Arm 芯片在客户端 CPU 市场上与英特尔和 AMD 展开竞争。如果有人在一条战线上攻击你,你就会在另一条战线上进行防御并发起战斗。
由于“Genoa”和“Bergamo”Epyc 服务器 CPU 的增加,以及云计算、超大规模企业和一些企业在人工智能系统之外的高端 CPU 上的一些新支出,以及 PC 支出的某种程度的复苏,AMD 第三季度的业绩并不如预期。与 2023 年前两个季度一样糟糕。AMD 总收入为 58 亿美元,增长 4.2%,净利润增长 4.5 倍,达到 2.99 亿美元。
销售 PC CPU 和 GPU 的 Client 集团销售额为 15.1 亿美元,增长 42.2%,去年同期销售额为 10.2 亿美元,营业亏损为 2600 万美元,今年营业收益为 1.4 亿美元周围,这有帮助。游戏销售(顾名思义,主要是针对游戏玩家的独立 GPU)销售额也达到 15.1 亿美元,但下降了 7.7%,尽管营业收入增长了 46.5% 至 2.08 亿美元。嵌入式部门主要是游戏机芯片加上与数据中心无关的赛灵思业务,其销售额为 12.4 亿美元,下降 4.6%,营业收入为 6.12 亿美元,下降 3.6%。
您可以明白为什么 AMD 为 Xilinx 支付了如此高的价格。该部门的营业收入几乎与数据中心、客户端和嵌入式部门的营业收入总和一样多。
现在让我们深入了解数据中心部门。第三季度,CPU、GPU、DPU 和少数其他产品的收入略低于 16 亿美元,同比下降了十分之七,但较 2023 年第二季度环比增长了 21%。营业收入据 AMD 称,该公司的营收下降了 29.4%,至 3.06 亿美元,这主要是由于对未来人工智能产品的投资造成的。
AMD在电话会议上表示,就Epyc CPU销量而言,客户已经达到了与Zen 4产品的交叉点,代号为Genoa、Genoa-X和Bergamo,以及Siena 。(如果您想深入了解,这些链接是我们对 Epyc CPU 发布的报道。)我们的模型显示,AMD 本季度的 Epyc CPU 销售额为 14.8 亿美元,与去年同期持平,而这比英特尔在同一季度遭受的重创要好得多,其数据中心和人工智能部门的销售额为 38.1 亿美元,下降 9.4%,出货量下降 35%,平均售价上涨 38%。AMD 没有提供任何有关 Epyc 出货量或 ASP 的指导。但我们会尝试一下我们认为相关的统计数据。
我们认为,第三季度,超大规模厂商和云构建商约占 Epyc CPU 销售额的 88%,收入略高于 13 亿美元,同比增长 10%,环比增长 45.3%。如果这是正确的,那么企业、电信公司、服务提供商、政府和学术界仅占 Epyc 销售额的 11%,即 1.78 亿美元,同比下降 40%。我们还认为,2023 年第三季度数据中心 GPU 销售额约为 5000 万美元,下降了 28.6%,因为客户等待 MI300 系列,并且主要是由客户购买 MI210 和 MI250X GPU 推动的。我们认为,数据中心 NIC 和 DPU 设备在 AMD 第三季度又带动了 1500 万美元的销售额,而数据中心的 Versal FPGA 设备可能又带动了 5200 万美元的销售额,并且根据我们的模型,2023 年迄今为止一直在连续下滑。
诚然,这都是很多猜测。但这些数字符合 AMD 在电话会议上所说的内容,并且没有违反华尔街人士的情感,他们也在构建模型,以及我们在构建模型时与他们交谈过的人。
参考文献
https://www.nextplatform.com/2023/11/01/amds-instinct-gpu-business-is-co...