赛灵思微型化FPGA，GPU遇到敌手了

周二, 15 六月 2021 - 09:45

本文转载自：<a href="https://mp.weixin.qq.com/s?src=11&timestamp=1623721037&ver=3131&signatu…;半导体行业观察微信公众号</a>

近几年，边缘计算市场在快速增长，速度超过了数据中心。有统计显示，到2025年，边缘AI芯片的市场机遇是数据中心的3倍，规模将达到650亿美元。这样具有巨大发展潜力的市场，是所有能够参与到其中的芯片厂商特别关注的，无论是CPU、GPU，还是FPGA。作为FPGA行业龙头，赛灵思也已经准备好推出相应的器件，该公司已经推出了多款用于边缘端的产品，近期又发布了最新的可微型化的小尺寸方案Versal AI Edge。

据赛灵思Versal AI Edge系列高级产品线经理Rehan Tahir先生介绍，该公司在2018年引入了Versal ACAP，首先推出的是Versal Core和Prime系列，用于云端和网络，之后又推出了Versal Premium，用于高端的云和网络。在这基础上，又把这个架构带到了边缘端。

新一代的Versal AI Edge系列产品，是一种微型ACAP，能够在边缘端工作，实现优化的单位功耗性能，这很重要，因为在边缘应用中，有非常严格的热和功耗的限制，同时还要实现高性能。

同时，在边缘端应用，如智能视觉、无人机、协作机器人、ADAS与自动驾驶，还有医学成像，包括内窥镜和超声。这些对产品的微型化要求很高，这与FPGA在传统的数据中心和云计算应用场景有很大不同。

此外，越来越多的应用都得到了AI的支持，而且，有很多形式的AI可能都是我们之前没有想到的，比如无人机的导航和目标追踪，机器人和工人在工厂进行协作，还有半自动到全自动驾驶，AI在医学的应用，包括参与医学的诊断和分析。当下，AI应用随处可见。

AI Edge就可以满足以上应用需求，今年4月份，Versal AI的Core和Prime已经实现了7nm制程的量产。

优势

那么，Versal AI Edge ACAP的具体特点和优势有哪些呢？可以概括为以下三点：

1、借助AI引擎和存储器层级创新，AI单位功耗性能是GPU的四倍，而且这样的存储器层级创新是在业界首次推出的；

2、与之前的SoC产品相比，他能够实现十倍的计算密度，并且提供最高水平的安全与保密性；

3、能够为边缘和终端提供可扩展性且灵活应变的平台，实现很高的性能，这主要是在各个性能层级上有更多的器件，另外，ACAP的可编程性能提供更多的灵活性。
<center><img src="" alt=""></center>

对比GPU，Versal AI Edge实现了四倍的AI单位功耗性能。据Rehan Tahir介绍，这主要是赛灵思推出了新的AI引擎，专门为机器学习做了优化，简称为AIEML。AI引擎是一个新生事物，也是一个非常好的技术突破。

Rehan Tahir表示：“AI引擎有一个阵列，这个阵列里面有一个计算核心，与现有的产品不同，我们把乘法器翻倍，使得INT8的性能翻倍，另外，还提供了原生支持INT4和BFLOAT 16。除此之外，我们还使数据内存翻倍，每一块内存从32kB提升到了64kB，实现了数据和存储的本地化。所有的本地化存储都能够和AI阵列和块进行分享，还增加了全新的存储器块，整个AI引擎的阵列最大是38MB，可顺利分享网络，在数据流通的过程当中不会出现内存的瓶颈。基于此，我们能够实现软件的可编程、硬件的灵活应变，还有非常低的时延和功耗。”
<center><img src="" alt=""></center>

由于支持INT4和BFLOAT 16，还对乘法器进行了加倍处理，所以，这个产品在机器学习推断方面有非常出色的表现，能够支持CNN、RNN还有语言处理网络等。

另外一个创新是加速器RAM，他能够为大规模的带宽提供一个4MB的片上RAM，用于Versal AI Edge最小尺寸的器件。在机器学习推断过程中，有很多路径，比如可以使用DDR，但是DDR速度非常慢，有了加速器RAM之后，能够更快速地进行机器学习的处理。
<center><img src="" alt=""></center>

Versal AI Edge全系列都能够推出车规级的产品，也能够遵守严格的ISO 26262标准要求。

赛灵思将在2021下半年提供Versal AI Edge工具，2022上半年提供早期试样和量产芯片，在2022下半年提供Versal AI Edge ACAP的评估套件。
<center><img src="" alt=""></center>

灵活的软件支持

下面看一下支持应用的软件堆栈，据Rehan Tahir介绍，在汽车领域，Versal AI Edge支持Caffe、TensorFlow、PyTorch等平台，在机器人和工业领域也有很多，包括ROS、ROS2，还有发展势头很猛的GAZEBO。

另外，也可以用Versal AI对系统框架进行扩展，包括XRT，这是赛灵思的一个运行环境，包括很多底层库，如DSP和视觉库。

灵活性方面，主要体现在域架构，也就是DSA，还有动态的功能交换，叫做DFX。DSA就是对引擎进行区隔，来实施相应算法，在这样区隔的过程中能够确保不断适应未来一些技术的变化，能够实时更新，例如，激光雷达的更新换代非常迅速，有了DSA的支持，能够确保跟上最新的算法。
<center><img src="" alt=""></center>

这个机制是通过算法实现的，无论是硬件还是软件，都可以通过在线下载的方式更新，不仅更新软件，还可以对芯片进行重新配置来优化性能，有点像特斯拉，可以对车辆里程和速度直接做软件的在线升级，如果可以对硬件做这样的在线升级，则可以迅速适应未来的需求，这是一个非常大的提升。

DFX方面，假设有很多逻辑器件在同时使用，通过DFX能够对解决方案进行优化，节约大量的成本和功耗，这点，ASSP、GPU和CPU都是做不到的。
<center><img src="" alt=""></center>

竞品对比

与英伟达的Jetson对比，Versal AI Edge的优势体现在：前者只有低端和中端，没有高端产品，T4是一个数据中心的加速器卡，他仅仅关注高端，也没有低端产品。另外Orin是仅有高端和低端，而忽视了中间这一块的性能需求，也就是性能很高，但可以进行被动散热的这样一款产品，30瓦时，英伟达产品是需要主动散热的。

Rehan Tahir表示，英伟达给出的解决方案是同时使用两个器件来满足相应的标准，这当然是可以的，但是这样做会增加成本、功耗和系统设计的复杂性，如果用Versal AI Edge，只需要一个器件，在同样的软件生态系统，在同样的模式和同一个库的环境下均可使用，非常方便，而且更加经济。
<center><img src="" alt=""></center>

Rehan Tahir还提到，英伟达的专长是在人工智能的机器学习推断，他并不能够涵盖整个应用，但是赛灵思的器件有一个灵活应变的引擎，能够实现传感器的融合。另外还能传导到智能引擎，智能引擎再产生推断，然后通过操作系统来采取行动，是非常灵活易变的，而且能够通过实时下载更新的方式，在软件和硬件层面都实现灵活应变，不断更新。所以，瓶颈不是在机器学习的计算方面，而是在于传感器输入的传导，图像处理，与车辆和驾驶员进行沟通等。在这些环节，赛灵思都是有优势的。

可扩展性方面，Rehan Tahir表示，包括英特尔、TI（德州仪器）、恩智浦、高通等公司的平台，他们要么只关注低端，要么只关注高端，没有哪一家可以做到低中高的全覆盖。

赛灵思微型化FPGA，GPU遇到敌手了

阅读推荐