性能提升了多少？AMD面向FPGA开发人员发布全新计算加速卡

judy 在周四, 06/06/2024 - 15:46 提交

AMD推出了其首款面向大规模市场的计算加速卡产品——Alveo V80。这款加速卡集成了Versal FPGA自适应SoC和HBM技术，旨在突破传统架构存储和网络访问的瓶颈……

随着数据量的激增，传统处理架构开始面临存储和网络访问的瓶颈，无论是横向扩展性还是带宽，都渐渐难以满足高性能计算日益迫切的需求。

为解决大数据和带宽问题，AMD推出了其第一款面向大规模市场的加速卡产品——Alveo V80，它采用了Versal FPGA自适应SoC和HBM技术，专门针对大数据集计算和内存密集型工作负载等高性能计算场景，在突破传统架构瓶颈的同时，帮助用户实现性能的最大化，并减少功耗、占板面积以及时延。

传统与创新的对撞

Alveo V80加速卡可以应对很多大数据工作负载，包括有基因组学和传感器处理、欺诈检测、医疗分析、供应链分析、金融风险分析和算法交易、数据包监控、存储压缩等，在AI计算领域，也支持如推荐引擎和大语言模型等等。那么其相对于传统的加速卡，像是GPU，优势主要体现在哪里？

一般来说，想要使用传统加速卡，都需要和本地的CPU进行连接，这会限制能够使用的加速卡的数量，而Alveo V80作为一种网络附接加速卡，可以实现低时延处理传入的网络数据，避开CPU至加速器的PCle瓶颈，消除分立式网络接口卡(NIC)，实现每服务器的卡数和计算密度最大化。

同时，由于Alveo V80使用了架构更为灵活的自适应计算技术，在计算附近分配内存，从而实现降低延迟和低功耗，并可灵活适应自定义数据类型和数据迁移，而传统架构是固定的缓存层次结构用于数据的读取和写入，在这个过程中不规则的访问模式会引起潜在的低效率。

性能提升了多少？

Alveo V80是Versal HBM系列家族最大的一个器件，全高、3/4长，能够提供260万个LUT的可编程逻辑，从而可以支持很多平行工作，采用的是PCle Gen5接口，能够支持64G传输速率，是前代的2倍，还有一个32GB的DDR4 DIMM扩展插槽，以及800G（4*200G或4*10/25/40/50G）的超大带宽，可以应对从10G到800G广泛工作负载。

Alveo V80芯片的关键特点包括：

超高的带宽，它是集成型的高带宽网络核心与加密引擎；
拥有10890个DSP计算逻辑片，提供较之前代产品至高2到3倍的DSP性能；
还有硬化与计算基础设施的连接，即所谓的超级通路，能实现轻松集成。

总的来说，对比于AMD的上一代产品AMD Alveo U55C，不论是存储器带宽(提升至高1.8倍)、逻辑密度(提升至高2倍)，还是网络带宽(提升至高4倍)、PCle带宽(提升至高2倍)，Alveo V80均迎来了全面的提升。

在实际的场景中应用

前文有讲到，Alveo V80适用于高性能计算、数据分析、金融科技、网络安全和存储等领域，可以满足各种复杂工作负载的需求，那么具体到实际应用中其表现又是怎样的呢？

传感器的处理——射电天文天线阵列

该项目作为全球最大的射电天文天线阵列，持续传感器数据传输速度能达到每秒15TB，使用AMD Alveo U55C加速卡的话需要420张，21台服务器，每年的功耗约为525千瓦时，而如果使用AMD Alveo V80加速卡仅需要140张，服务器数量可缩减为14台，每年功耗约为236千瓦时。也就是说，加速器减少最多66%，服务器减少最多33%，功耗降低最多55%，那么总拥有成本也降低最多21%。

压缩与数据分析功能的服务器存储节点

通过FPGA架构和AMD压缩IP可扩展存储节点，以及MCIO直接将FPGA架构连接至NVMe，并且整合额外的功能性(例如查询加速)，可以实现更快的执行速度和更低的时延。从总拥有成本角度来看，以10Pb的数据存储为例，没有压缩的话，需要55台服务器，1303个SSD驱动器，每年约427千瓦时的功耗，而如果进行压缩，只需要21台服务器，504个SSD驱动器，以及每年约233千瓦时的功耗。根据AMD官方的介绍，使用42张AMD Alveo V80加速卡进行压缩，总拥有成本三年以上至高可以达到56%的降低，而且服务器的数量、服务器成本以及功耗也都有非常显著的降低。

网络安全

现在的企业用户普遍都很重视网络安全问题，都希望能够有非常稳健的网络安全保障，来保护数据、防范攻击，下一代防火墙也要在确保安全的同时，进一步提高能力。Alveo V80加速卡的HBM可以用于缓冲和流量表存储来加强安全性能，同时Versal芯片因为能提供硬化的IP包括加密引擎，可实现至高800G的内嵌 IPSec。

金融建模和算法交易

依赖于FPGA Alveo V80加速卡可以实现建模、仿真与回测，用于密集计算的架构与DSP，同时利用低时延算法交易，它可以加速交易策略和期权定价，另外还有752Mb的RAM可用于定价数据、交易记录，而高带宽的HBM不仅能用于大数据集以及历史定价数据，还能用于订单信息。

总结

据介绍，AMD Alveo V80主要面向传统的FPGA开发人员，因为它有很多的设计采用的就是原来的Vivado设计套件，这可以让对于硬件更为熟悉的相关设计开发人员更快上手。同时，它也可以支持定制和优化，AMD推出了用于快速启动项目的示例设计，可以简化Alveo硬件设计框架硬件的开发。

作为一款具有硬件灵活性，适用于内存密集型工作负载，为大数据集提供支持的产品，AMD Alveo V80在时延、可扩展性、能效，自定义方面的优越表现，还有更大的存储器带宽等等，在高性能计算快速发展的新时代，或许能给用户带来很多新的可能。