不久前,一位朋友跟笔者讲了这样一个故事:去年底,曾有人问他为什么说赛灵思(Xilinx)是百度这样的互联网公司的“爸爸”?他表示,起初还真不知道如何回答这个问题。恰好有一场赛灵思的线下活动,他们就一起来到活动现场。在亲眼目睹赛灵思展示的数据中心加速方案后,尤其是看到服务器中因插入赛灵思那张红色的Alveo加速器卡,数据处理能力立刻有了惊人的提升,他们顿时有了自己的答案。
我们知道,所谓的万物互联,就是无数的电子设备与互联网进行连接,从而创造一个魔幻的数字世界,与此同时,也产生了海量的数据。根据IDC的预测,从2018年至2025年,全球的数据增长量达到5倍以上,将从2018年的32 ZB增至2025年的175 ZB。中国将在2025年以48.6ZB的数据量及27.8%的占比成为全球最大的数据汇集地。然而,这些数据的分析和使用必须借助数据中心强大的计算平台来完成,对数据中心而言,这是难得的机遇,更是前所未有的挑战。
图1 :2010年至2025年全球数据量增长情况(图片来源:IDC)
数据中心蕴含巨大的市场潜力
现在,企业和专业用户越来越意识到从物理和虚拟世界收集到的大量数据蕴含的价值。随着数据量继续呈指数级增长,对数据分析的需求也将以类似的速度增长。为此,数据中心必须加速转型,以达到增加网络带宽,优化人工智能等工作负载的目的,同时还要保证较低的功耗以及提供新服务的能力。综合技术与成本等因素,数据中心加速器有助于显著提高数据中心的性能。
在数据中心加速器市场,深度学习训练(Deep Learning Training)在应用方面占有重要份额。根据BMRC的预测,到2025年,深度学习训练市场将达到233.8亿美元,2018年和2025年复合年增长率为40.16%。数据中心又如何支持这一巨大需求呢?
在回答这个问题之前,我们先来看一看各大咨询机构对数据中心发展潜力的研判。
根据调研机构Gartner的分析结果,预计全球公有云服务市场在2020年将增长17%,达到2664亿美元。其中,软件即服务(SaaS)仍将是最大的细分市场,预计该市场将在2020年增长至1160亿美元。第二大市场则是基础设施即服务(IaaS),2020年的市场规模将达到500亿美元。
图2:全球公共云服务收入预测(单位:十亿美元)(图片来源:Gartner)
数据中心硬件加速势在必行
数据量的爆炸性增长和工作负载的复杂性,已经超过了现有数据中心计算平台的性能。面对如此情形,无论是公有云、私有云还是混合云,大幅提升数据中心的利用率、性能和能效,降低运营成本和总成本,实现数据中心的转型升级成为当务之急。
高性能计算(HPC)领域的专家一直致力于推动新平台的开发,通过异构体系架构实现硬件加速,将传统CPU、图形处理单元(GPU)和现场可编程门阵列(FPGA)等进行灵活组合。随着新一代计算加速器的出现,数据中心在性能和能效上均有了大幅提升。
那么,究竟从何时开始数据中心的服务器需要增加FPGA、GPU等加速器呢?这要从摩尔定律开始讲起。
根据摩尔定律,集成电路中每平方英寸的晶体管数量每隔18个月就会翻一番。然而到了2020年,业界关于摩尔定律即将失效的讨论越来越多。2015年4月,英特尔表示,通过开发7nm和5nm制程工艺,摩尔定律仍将得以延续。然而,进一步减小处理器的尺寸将非常困难,因为这样做会减少电子和空穴之间的空间,进而出现电流泄漏和过热等问题,最终导致芯片的性能下降、功耗大、耐久性降低。因此,必须寻找其他替代方案来提高芯片的计算能力。
按处理器类型划分的数据中心加速器市场,目前主要有三种方案,即通过GPU、FPGA、ASIC来加速,其中,GPU在数据中心加速器市场的占比较大。英伟达是数据中心GPU加速器市场的主要推动者,在数据中心市场与英特尔形成了激烈的竞争。随着摩尔定律的放缓,GPU加速器有望在深度学习、训练和推理应用方面取得重大成功。
图3:英伟达HGX™ A100支持标准化的高性能服务器(图片来源:英伟达)
现在,一个典型的通用处理器已经无法维持分析应用程序增加的计算复杂度,基于FPGA的异构体系结构使计算密集型和重复性任务能够从主CPU上卸载。与其他平台相比,FPGA可以提供更高的性能,并且具有足够的适应性,能够满足未来的需求和未来的算法,进而有望成为高效执行数据分析的主要平台。
为什么看好FPGA加速器?
FPGA(现场可编程门阵列)是一种集成可重构器件,具有运算速度快、功耗低等优点,在计算密集型应用中得到广泛的应用。与GPU和多核CPU相比,FPGA具有更好的能量效率,并且可以达到11x和57x的速度。此外,对于某些类型的图像处理应用,如立体视觉应用,FPGA可以说是非常好的选择。FPGA的不足也很明显,比如设计一个FPGA架构需要很长时间,需要设计人员有较强的软硬件开发技能。
现在,数据中心在其基础设施中部署FPGA有两种主要方法,一种是FPGA与CPU紧密耦合,另一种是FPGA作为独立组件。
方法一
将FPGA作为协处理器,FPGA与CPU物理连接在一起,此时的FPGA既是加速器又是数据中心的一部分。但是,数据中心的FPGA数量受CPU数量的限制,不能作为独立的计算资源使用。在市场上,已经有Amazon提供的集成Xilinx Virtex UltraScale+的EC2 F1实例。F1实例易于编程,并且配备了开发、模拟、调试和编译硬件加速代码所需的各种资源,包括FPGA Developer AMI,并支持在云上进行硬件级开发。对于许多应用程序,使用 F1实例部署硬件加速都非常有用,可解决需要高带宽、增强型联网和超高计算能力的复杂科学、工程和业务问题。按照Amazon的信息,在EC2 F1实例上运行高性能计算几乎可以实现无限的容量来扩展基础设施。与CPU相比,Amazon EC2 F1实例可将速度提升高达100倍,适用于各种受计算限制的应用程序。
方法二
是将FPGA看作独立于CPU的单独组件,FPGA直接连接到网络。这种方法将网络和应用程序处理耦合在同一个FPGA器件中。因为应用程序可以独立于服务器数量来扩展FPGA的数量,所以系统的延迟和吞吐量都会有明显改善。
图4:赛灵思Alveo加速器卡大幅提升数据中心部署的标准服务器性能
在这场基于FPGA加速器的数据中心变革中,赛灵思可谓是一大受益者。该公司自2018年启动数据中心优先战略以来,在2019年就推出了Alveo加速器卡,大幅提升了云端和本地数据中心部署的标准服务器的性能。Alveo产品系列目前已扩展至Alveo U50、 U200、 U250、 U280四款产品,并已在美国、欧洲和中国市场得到广泛应用。
目前,中国的浪潮集团已基于主流FPGA芯片,开发出高密度、高性能、易编程的FPGA异构加速运算卡,并且在机器学习、视频分析、语音识别、文本搜索等场景得到了很好的落地应用。根据IDC最新数据,浪潮已经跻身全球服务器出货量前三,中国的AI服务器市场出货量第一。在浪潮提供的AI产品和解决方案中,包括全球首款内嵌HBM2高带宽内部存储的加速卡、面向视频监控领域的多通道视频AI加速卡等都内置了赛灵思的FPGA产品。
结语
随着数据量以指数级增长,对数据分析的需求也开始快度增长。原有的硬件和软件体系结构已经无法满足数据生成、存储和分析的需求,“加速”正在成为数据中心的当务之急。从目前的市场情况看,GPU在数据中心加速器市场占据较大比例,主要面向深度学习、AI训练和推理等应用。FPGA以其可配置性、灵活性、并行性和功耗效率,确保了数据处理工作负载的有效和高效加速,进而迅速成为众多互联网公司在云计算和AI业务上的重要支撑,为云服务提供了一个令人信服的替代方案。
本文转载自:贸泽电子