性能提升了多少?AMD面向FPGA开发人员发布全新计算加速卡

作者: 谢宇恒,来源:EDN电子技术设计

AMD推出了其首款面向大规模市场的计算加速卡产品——Alveo V80。这款加速卡集成了Versal FPGA自适应SoC和HBM技术,旨在突破传统架构存储和网络访问的瓶颈……

随着数据量的激增,传统处理架构开始面临存储和网络访问的瓶颈,无论是横向扩展性还是带宽,都渐渐难以满足高性能计算日益迫切的需求。

1.png

为解决大数据和带宽问题,AMD推出了其第一款面向大规模市场的加速卡产品——Alveo V80,它采用了Versal FPGA自适应SoC和HBM技术,专门针对大数据集计算和内存密集型工作负载等高性能计算场景,在突破传统架构瓶颈的同时,帮助用户实现性能的最大化,并减少功耗、占板面积以及时延。

2.png

传统与创新的对撞

Alveo V80加速卡可以应对很多大数据工作负载,包括有基因组学和传感器处理、欺诈检测、医疗分析、供应链分析、金融风险分析和算法交易、数据包监控、存储压缩等,在AI计算领域,也支持如推荐引擎和大语言模型等等。那么其相对于传统的加速卡,像是GPU,优势主要体现在哪里?

3.png

一般来说,想要使用传统加速卡,都需要和本地的CPU进行连接,这会限制能够使用的加速卡的数量,而Alveo V80作为一种网络附接加速卡,可以实现低时延处理传入的网络数据,避开CPU至加速器的PCle瓶颈,消除分立式网络接口卡(NIC),实现每服务器的卡数和计算密度最大化。

4.png

同时,由于Alveo V80使用了架构更为灵活的自适应计算技术,在计算附近分配内存,从而实现降低延迟和低功耗,并可灵活适应自定义数据类型和数据迁移,而传统架构是固定的缓存层次结构用于数据的读取和写入,在这个过程中不规则的访问模式会引起潜在的低效率。

5.png

性能提升了多少?

Alveo V80是Versal HBM系列家族最大的一个器件,全高、3/4长,能够提供260万个LUT的可编程逻辑,从而可以支持很多平行工作,采用的是PCle Gen5接口,能够支持64G传输速率,是前代的2倍,还有一个32GB的DDR4 DIMM扩展插槽,以及800G(4*200G或4*10/25/40/50G)的超大带宽,可以应对从10G到800G广泛工作负载。

6.png

Alveo V80芯片的关键特点包括:
  • 超高的带宽,它是集成型的高带宽网络核心与加密引擎;
  • 拥有10890个DSP计算逻辑片,提供较之前代产品至高2到3倍的DSP性能;
  • 还有硬化与计算基础设施的连接,即所谓的超级通路,能实现轻松集成。

7.png

总的来说,对比于AMD的上一代产品AMD Alveo U55C,不论是存储器带宽(提升至高1.8倍)、逻辑密度(提升至高2倍),还是网络带宽(提升至高4倍)、PCle带宽(提升至高2倍),Alveo V80均迎来了全面的提升。

8.png

在实际的场景中应用

前文有讲到,Alveo V80适用于高性能计算、数据分析、金融科技、网络安全和存储等领域,可以满足各种复杂工作负载的需求,那么具体到实际应用中其表现又是怎样的呢?
传感器的处理——射电天文天线阵列

该项目作为全球最大的射电天文天线阵列,持续传感器数据传输速度能达到每秒15TB,使用AMD Alveo U55C加速卡的话需要420张,21台服务器,每年的功耗约为525千瓦时,而如果使用AMD Alveo V80加速卡仅需要140张,服务器数量可缩减为14台,每年功耗约为236千瓦时。也就是说,加速器减少最多66%,服务器减少最多33%,功耗降低最多55%,那么总拥有成本也降低最多21%。
9.png
压缩与数据分析功能的服务器存储节点

通过FPGA架构和AMD压缩IP可扩展存储节点,以及MCIO直接将FPGA架构连接至NVMe,并且整合额外的功能性(例如查询加速),可以实现更快的执行速度和更低的时延。从总拥有成本角度来看,以10Pb的数据存储为例,没有压缩的话,需要55台服务器,1303个SSD驱动器,每年约427千瓦时的功耗,而如果进行压缩,只需要21台服务器,504个SSD驱动器,以及每年约233千瓦时的功耗。根据AMD官方的介绍,使用42张AMD Alveo V80加速卡进行压缩,总拥有成本三年以上至高可以达到56%的降低,而且服务器的数量、服务器成本以及功耗也都有非常显著的降低。

10.png

网络安全

现在的企业用户普遍都很重视网络安全问题,都希望能够有非常稳健的网络安全保障,来保护数据、防范攻击,下一代防火墙也要在确保安全的同时,进一步提高能力。Alveo V80加速卡的HBM可以用于缓冲和流量表存储来加强安全性能,同时Versal芯片因为能提供硬化的IP包括加密引擎,可实现至高800G的内嵌 IPSec。
11.png
金融建模和算法交易

依赖于FPGA Alveo V80加速卡可以实现建模、仿真与回测,用于密集计算的架构与DSP,同时利用低时延算法交易,它可以加速交易策略和期权定价,另外还有752Mb的RAM可用于定价数据、交易记录,而高带宽的HBM不仅能用于大数据集以及历史定价数据,还能用于订单信息。

12.png

总结

据介绍,AMD Alveo V80主要面向传统的FPGA开发人员,因为它有很多的设计采用的就是原来的Vivado设计套件,这可以让对于硬件更为熟悉的相关设计开发人员更快上手。同时,它也可以支持定制和优化,AMD推出了用于快速启动项目的示例设计,可以简化Alveo硬件设计框架硬件的开发。

13.png

作为一款具有硬件灵活性,适用于内存密集型工作负载,为大数据集提供支持的产品,AMD Alveo V80在时延、可扩展性、能效,自定义方面的优越表现,还有更大的存储器带宽等等,在高性能计算快速发展的新时代,或许能给用户带来很多新的可能。

最新文章

最新文章