中国信通院《数据中心白皮书2022》报告显示,2021年全球数据中心市场规模超过679亿美元,较2020年增长9.8%。随着数据视频化趋势加强,以及远程办公普及程度提高,数据中心市场呈现出稳健增长的趋势。但这也带来联网数据的爆炸式增长,对数据中心的数据处理能力提出巨大挑战。各种加速方案因而成为数据中心不可或缺的应用。
在数据中心里,加速芯片主要应用于三个方面:计算、存储和网络。其中,传统的GPU芯片,以及新兴的DPU、APU等加速芯片能够解决一部分需求,剩下很大一部分加速需求都是基于FPGA来解决。
根据Semico Research在2019年提出的预测,2018年-2023年全球数据中心加速卡市场规模将从28.4亿美元增长至211.9亿美元,年复合增长率高达49.47%,FPGA是其中增速最快的细分产品,需求主要来自企业级工作负载加速应用。
本文我们就来具体看一下,为什么FPGA能够在数据中心加速领域领跑?具体的优势有哪些?并为大家推荐贸泽电子官网在售的可用于数据中心加速的FPG产品。
为何FPGA适合数据中心加速
在传统数据中心部署方案中,计算和数据处理都是由CPU完成,存储和网络资源也是围绕CPU进行部署。然而,由于人工智能和物联网市场的爆发,云端数据量呈指数级增长,CPU便成为系统规模和效率提升的瓶颈,GPU、FPGA、ASIC等高性能芯片开始涌入数据中心市场,其中FPGA的典型产品形态就是加速卡。
不过,对于FPGA产品而言,数据中心算是一个比较新的应用领域。比如,已经被AMD收购的赛灵思在2018年伊始才正式宣布“数据中心优先”的发展战略。但是,凭借着高吞吐和低延迟的天然优势,再加上部署灵活,FPGA在数据中心一经采用便迅速成为主流加速方案。
在数据中心应用里,FPGA能够全面减轻CPU的任务负担,包括计算、存储和网络。传统数据中心的模型是基于CPU集群构建,宝贵的CPU内核被消耗殆尽,围绕CPU配备的网络接口控制器(NIC)等初步缓解资源也无法解决根本问题。基于FPGA的异构计算体系此时开始显现出优势,根据微软Catapult项目公布的数据,通过FPGA对应用于必应搜索引擎文件排名运算的服务器做加速,获得了95%的吞吐量提升,处理必应的自定义算法速度提高了40倍,加速效果显著。
图1:FPGA加速必应的搜索排序过程
(图源:微软技术白皮书)
剖析微软Catapult项目能够发现,数据中心的硬件加速器需要满足几个条件:
一、需要具备灵活性和可扩展性,以云计算为主要服务方式的数据中心,其需要处理的任务是不固定的,面向不同的任务,加速器要全部能够自如地应对;二、需要具备硬件资源虚拟化的能力,以完成和现有数据中心的同构并行,而不需要对现有架构进行大刀阔斧的修改;
三、需要具备分析推理的能力,提升较大应用模型部署的容错率。
方案商在评估各种硬件加速器之后发现,FPGA相较于其他硬件,可以提供更高的性能,更好的实时性,以及足够的灵活性,可以根据未来算法与需求变更及时做调整。并且,FPGA虚拟化的软件架构和接口资源大幅提升了和现有运算体系的同构属性,在方案升级时具备明显的成本优势。
我们再看一个具有代表性的例子——亚马逊AWS F1,基于FPGA对公有云进行加速服务。AWS F1实例进一步优化了FPGA在云服务加速方面的软硬件功能,主要原因是公有云的用户并不像私有云用户一样,具备强大的技术研发实力,并能够得到FPGA厂商的一定支持。因此,在AWS F1项目里,亚马逊将底层FPGA的逻辑资源抽象化,使得用户不需要去担心接口资源和IP部署等细节问题,同时以完整的FPGA开发配套工具帮助用户实现对应用方案的加速。
亚马逊AWS F1更好地体现了FPGA的高度定制化,这其实也是FPGA的天然优势,这种可编辑的特性也就是上面提到的灵活性,单个FPGA可以根据各种不用的应用重新配置,无需将特定的硬件变成ASIC,用户可以在机器学习、网络、安全等各个关键环节使用FPGA。
除了国际厂商,在中国云服务市场,FPGA也广受欢迎。目前,阿里云、腾讯云、百度云等国内云服务公司都已经在硬件加速方面选用FPGA。比如,我们看到腾讯于2017年就曾推出国内首款高性能异构计算基础设施FPGA云服务器,这款采用异构计算架构的云服务器相较于传统CPU服务器,性能提升在30倍以上。和亚马逊的理念类似,通过这种FPGA云服务器,腾讯将只有大公司才能够长期部署的FPGA带入到大众市场。目前,在腾讯云的硬件基础设施里,FPGA已经在计算、网络、存储三大重要节点充当加速器角色。
主流云服务大厂对FPGA的支持使得FPGA在国内数据中心市场快速崛起。
根据Frost&Sullivan数据,2020年中国应用于数据中心领域的FPGA芯片市场规模约 16.1亿元,占中国FPGA芯片市场份额的10.7%,预计2021年-2025年的年均复合增速将达到16.6%。能够看到,随着FPGA的加速性能在数据中心获得认可,未来该领域的市场增速非常快。
当然,必须要说明的是,在数据中心市场,FPGA以及其他所有硬件加速器都不是CPU的“革命者”,而是协作者。未来随着数据中心计算体量和复杂度提升,CPU的精力会越来越多集中在复杂任务的调度和处理上,重复性和局部性的任务将更大规模地从CPU上转移。而FPGA凭借上述提到的可编程、高吞吐、低延迟的特性,将承担更多的加速任务,为机器学习等典型的人工智能应用赋能。
与FPGA灵活性类似的是,贸泽电子也为工程师提供了灵活多样的检索与支付方式,帮助工程师更快地购置好产品开发所需的元器件,从而提升研发效率。接下来,我们为大家推荐几款贸泽电子平台在售的FPGA产品,它们都是硬件加速方面的好手。
业界首款FPGA加速卡支持软件定义硬件
在数据中心领域,FPGA加速卡是一种典型的产品形态,实现了基于FPGA的系统集成。和传统的FPGA开发板不同,FPGA加速卡是更加完整的系统级方案。我们为大家带来的第一款产品就是来自制造商AMD的Alveo™ SN1000 SmartNIC加速卡,贸泽电子官网上,该器件的料号为A-SN1022-P4E-PQ。
图2:SN1022-P4E-PQ
(图源:贸泽电子)
Alveo™ SN1000 SmartNIC加速度卡是一款提供软件定义硬件加速的SmartNIC,在单一解决方案中集成有网络连接、计算和存储加速功能,实现面向数据中心领域的任务负担转移。并且,由于FPGA的可编程特性,这款加速卡支持各种广泛的定制卸载,包括支持客户构建和第三方卸载。
Alveo™ SN1000加速卡提供的硬件资源包括:
PCIe Gen 4 x8或Gen 3 x16
100G QSFP28 DA铜缆或光纤收发器
基于XCU26(XCU26-L2VSVA1365E)FPGA,采用Xilinx 16nm UltraScale+架构
板载CPU:16个64位Arm Cortex-A72内核,频率为2.0GHz,具有8MB缓存
1个4GB x 72 DDR4-2666(处理器)
2个4GB x 72 DDR4-2666(FPGA)
总智能卡负载:75W
70W热设计功耗(TDP)
被动散热
在可编程方面,Alveo™ SN1000加速卡支持全面协议级卸载加速定制、专用数据路径以及便捷的P4高级语言编程,并提供P4工具套件Vitis Networks,可让客户自定义卸载和调整现有卸载,以处理新协议和应用,而无需更换硬件。这些定制性的硬件加速包括:开放式vSwitch和虚拟化加速(Virtio.net)的网络加速;IPsec、kTLS和SSL/TLS安全加速;Virtio.blk、基于TCP的NVMe™、Ceph、压缩和加密服务类型的存储加速。通过这些加速功能,Alveo™ SN1000加速卡帮助数据中心更好地应对机器学习、数据分析、视频转码、视频和图像处理、基因组学、安全、金融计算等方面的加速需求。
高性能和高效率的Alveo™ U50加速卡
第二款推荐产品同样是一款来自AMD的FPGA加速卡——Alveo™ U50加速卡,贸泽电子官网上该器件的料号为A-U50-P00G-LV-G。
图3:A-U50-P00G-LV-G
(图源:贸泽电子)
Alveo™ U50数据中心加速器卡基于UltraScale+™ 架构打造,率先使用半高半长的外形尺寸和低于75W的低包络功耗。该加速卡的产品规格如下:
UltraScale+架构
半高、半长、单插槽薄型外形尺寸
查找表数量:872,000
HBM2内存:8GB
HBM2带宽:316GB/s1
网络接口:1个QSFP28(100GbE)
时钟精度:IEEE 1588
PCI express:PCIe Gen3 x 16、双PCIe;Gen4 x 8、CCIX
被动散热解决方案
功耗(TDP):75W
首先是高性能和高效率,8GB HBM2、100GbE网络和PCI Express 4.0为这款加速卡带来了高速度,并通过支持4x10GbE、4x 25GbE或1x 40GbE、1x 100GbE的100G网络,实现了低时延网络功能; 其次是灵活应变,可全面应对计算、存储和网络方面的任务负载,随着工作负载和算法通过可重新配置的架构(与固定架构不同)不断发展,能够以更大幅度地提高应用性能; 最后是方便易用,Alveo™ U50加速卡经过精心构建,可为在云端或本地部署(可互换)的解决方案扩展架构。
借助这三大典型的产品优势,Alveo™ U50加速卡可为金融计算、机器学习、计算存储以及数据搜索和分析领域的任务负载提供加速支持。
可用于10G至100G网络的Virtex®-7 FPGA
随着流量的不断激增,各大数据中心如何经济、平滑地提升网络带宽性能,成为产业关注的热门话题,以求在路由、交换、安全等方面实现全面调优。接下来,我们为大家推荐一款可用于10G至100G网络的Virtex®-7 FPGA,同样是来自制造商AMD,贸泽电子官网上该器件的料号为XC7VX485T-1FFG1761C。
Virtex®-7 FPGA是AMD 7系列FPGA中的一个系列,基于低功耗(HPL)、28nm、高K金属栅极(HKMG)工艺技术打造,提供高达2M逻辑单元,具有出色的功耗性能比架构、DSP性能以及I/O带宽。Virtex®-7 FPGA提供超高端连接带宽,总串行带宽高达2.8TB/s,最多支持96 x 13.1G GT、16 x 28.05G GT、5,335 GMAC、68Mb BRAM、DDR3-1866。
表1:AMD 7系列FPGA产品参数表
(图源:AMD)
Virtex®-7 FPGA适合小尺寸、成本敏感、大容量应用,比如100GE线路卡。
帮助数据中心应对复杂多变的新场景
随着数据中心里面的数据体量越来越大,并且行业应用对于低时延的要求越来越苛刻,FPGA通过对数据中心计算效能的提升,对通信网络的持续优化,推动了数据中心的智能化升级,并帮助其应对愈加复杂的新场景、新AI模型,最终帮助社会各行业实现更深层的数字化运营。在贸泽电子官网上,无论是FPGA产品还是基于FPGA实现的加速卡,都有丰富的产品选择,借助这些高性能器件,开发人员可以为数据中心加速再加速。
Xilinx相关技术资源
Alveo™ SN1000 SmartNIC加速度卡,了解详情>>
Alveo™ U50数据中心加速器卡,了解详情>>
Virtex® -7 现场可编程门阵列(FPGA),了解详情>>
本文转载自: 贸泽电子