作者:刘洪 来源:PSD功率系统设计
而日渐普及的边缘AI在解决上述问题时具有明显优势。首先,边缘AI通过将计算和存储资源移动到网络边缘,大大缩短了数据处理距离,从而减少了数据传输需求;其次,边缘AI设备通常设计为低功耗,以适应各种环境和应用场景,通过优化算法和硬件设计,还可以进一步降低边缘设备能耗,从而减少对电力的依赖;另外,边缘AI的最大优势之一在于其低时延特性,边缘处理数据无需传输到远程服务器,从而大大减少了传输延迟,对于需要实时响应的应用场景至关重要。
嵌入式边缘AI解决方案可以通过边缘计算应对上述挑战。不过,目前的AI驱动型嵌入式系统实现端到端加速需要采用多芯片方法,为用户增加了很大的开销和设计复杂性。
继第一代Versal™ AI Edge自适应SoC之后,AMD又发布了第二代Versal™自适应SoC,为边缘计算打开了方便之门。新一代产品为AI驱动型嵌入式系统提供了单芯片智能,以单个器件实现端到端三个阶段的加速,客户可以利用更精巧、更高效的边缘应用和系统缩短产品上市进程。
AI驱动型嵌入式系统处理的困境
在日前的AMD第二代Versal™ 自适应SoC媒体发布会上,AMD自适应与嵌入式计算事业部(AECG)Versal产品营销总监Manuel Uhm表示:“现在的边缘也在发生一场革命,也有越来越多的挑战,因为边缘会面临更多限制,例如功耗和尺寸。”
他解释说:“嵌入式系统面临非常严格的操作限制,比如需要适应非常高的温度和热环境条件,有时高达125℃;由于很多系统用电池供电,电力供应也会受限;另外,由于很多边缘都使用很小的器件,对封装尺寸要求非常严格。”
此外,汽车等边缘应用必须做到实时响应,还需要实现信息安全、功能安全和可靠性,必须有很长的产品生命周期。无论是汽车还是工厂机器人,使用寿命可能都要达到10-15年。
他说,高性能嵌入式系统中的AI驱动型嵌入式处理包括三个阶段:预处理(传感器处理及融合、数据调节)、AI推理(感知、分析和情境感知)和后处理(决策、控制、反馈)。所有三个阶段都需要进行加速,才能胜任系统的高性能要求。
边缘应用的嵌入式系统需要与环境进行实时交互,而预处理是系统性能的关键决定因素。利用可编程逻辑能实现灵活的实时处理,包括连接到任意传感器和任意接口,降低时延并增强确定性,并利用现场可升级性。
不过,令人遗憾的是,没有一类处理器针对所有三个阶段进行了优化,这就是非自适应SoC面临的困境。
眼下的问题在于,现有的多芯片解决方案会带来巨大开销,包括:更高的功率需求和供电复杂性、更大的占板面积和终端系统尺寸、更高的外部内存需求、芯片间通信的时延增加、更多安全漏洞和可能的故障点。另外,更多的组件报废以及更多的板卡设计时间与工作量也不容忽视。
Manuel Uhm强调:“如果用单一器件实现三个阶段的加速,数据就不用移来移去,不仅能可以降低功耗,还能实现实时处理和低时延;另外,也不需要很大的系统或很多器件,所以紧凑的单芯片是解决这些问题的关键。”
自适应SoC释放更多智能
去年,AMD推出的第一代Versal Al Edge自适应SoC打破了这一瓶颈,释放了从传感器到AI再到控制的智能。相比GPU,作为一款搭载多样化处理器的异构平台,该系列实现了高达4倍的单位功耗性能,具有用于传感器融合的自适应引擎、用于AI计算的智能引擎和用于实时控制的标量引擎。
刚刚发布的第二代Versal™ 自适应SoC系列是面向经典嵌入式系统的创新之举,为嵌入式系统带来了单芯片的智能性。两款芯片分别是面向AI驱动型嵌入式系统的第二代Versal AI™ Edge系列和面向经典嵌入式系统的第二代Versal Prime系列。
Manuel Uhm介绍说,第二代Versal™自适应SoC可以在单个器件中实现端到端加速。其下一代AI引擎能实现高效AI推理,并利用高性能集成CPU进行后处理,标量计算能力增加了10倍;增强的功能安全与信息安全支持功能安全产品认证。业界领先的可编程逻辑可实现复杂的自适应计算,包括对传感器融合、数据调节以及硬图像/视频进行灵活的实时预处理。
关于自适应,他解释道:“与处理器不同,用户用第二代Versal™ 可以实现硬件编程,可以改变硬件,可以定制硬件。这样就可以适配不同的传感器,适配不同的性能,同时实现实时处理。利用可编程方式可以实现真正的灵活性。”
AMD凭借数十年为具有挑战性的嵌入式用例提供解决方案的经验,面向AI驱动型及经典嵌入式系统的中央计算,不断推出新产品,为汽车、机器人、工业物联网、医疗、机器视觉、专业音视频与广播等广泛的市场领域赋能。
Manuel Uhm进一步解释了在AI驱动型嵌入式系统三个处理阶段中AMD都做了什么。
预处理通常有两种方式:一是使用非自适应SoC或I/O接口,或硬ISP,但其数量非常有限,缺少灵活性,难以顾及不同传感器的不同类型数据,这时就必须通过外部内存做存储和缓存。这些处理器没有经过优化,所以效率较低,时延也较大。
AMD的做法是将预处理连接至标准或专用传感器,用可编程逻辑实现密集、灵活的定制传感器接口逻辑,以可编程I/O和硬ISP(图像信号处理器)支持广泛的速率、电压和工作模式。由于无需外部内存,也没有缓存需求和设置,执行时间非常短,时延也大大降低。
虽然,借助先进的可编程逻辑可降低时延并提高确定性,缩短预处理执行时间,包括传感器融合和数据调节,而新增加的硬图像和视频处理更可以省去可编程逻辑预处理,将资源用于传感器和其他数据处理应用。
推理面临的挑战主要是数据吞吐量大和高精度要求。采用下一代AI引擎的可编程逻辑高效AI推理,可以通过扩展的数据类型支持平衡分辨率与吞吐量。新的方法原生支持FP8、FP16、MX6、MX9数据类型,扩展了推理产品组合,还支持推理以外的其他功能。
与此同时,高效AI推理还有助于提高每瓦性能(高达3倍的每瓦TOPS),其工作负载可以从可编程逻辑完全卸载下来,将其用于中央计算。
Manuel Uhm强调说:“开源对于软件开发的快速上手很重要。对于推理软件,开发者可以使用其原来熟悉的开源工具,比如PyTorch、TensorFlow等,在Vitis™ AI中进行优化,然后进行推理,实现开发环境的快速模型部署。”
第三个阶段是后处理,第二代Versal™自适应SoC为复杂的后处理提供高达10倍的标量算力,其中包括:针对复杂决策与类似工作负载的应用处理单元(APU);针对控制功能的实时处理单元(RPU);ASIL D及SIL 3(随机故障)运算,这也是这款车规级认证芯片的一大特色。
两代Versal™ 有何不同?
与其他多芯片AI驱动型方案相比,第二代Versal™ Al Edge自适应SoC是以单芯片实现端到端嵌入式系统加速和增强的功能安全性,减少了对外部安全MCU的需求。这种卓越的集成可降低系统功耗、占板面积与复杂性。
关于第一代和第二代器件的不同,Manuel Uhm解释说,第二代是对第一代的补充,而不是取代第一代产品,实现了TOPS和DMIPS性能的提升,通过高性能标量计算扩展了Versal AI™产品组合。
“第一代边缘传感器实现了CPU卸载,第二代Versal AI™ Edge系列实现了中央计算。虽然第二代器件付出了比第一代更高的功耗,但如果要实现同样的DMIPS,用第一代产品还需要使用外部处理器,两者总功耗加起来就不如使用一个第二代产品。”他补充说。
第二代器件的典型应用案例
Manuel Uhm还介绍了将第二代器件用于基于摄像头3D感知视觉的案例。在L2和L3 ADAS系统中,由于加入了硬图像处理功能,实现了4倍图像处理能力,功耗却没有什么增加;在多视频智慧城市应用中,可以支持2倍视频流,将边缘AI设备缩小30%占板面积,每路视频流占板面积缩小65%,帧速率也大幅提升;在专业音视频和广播应用中,能够实现每秒60帧的高精度流量,与Zyng MPSoC相比,每路视频流占板面积缩小35%。
据了解,斯巴鲁下一代EyeSight系统采用了第二代Versal™自适应SoC,凭借低时延AI引擎架构的高级数据类型支持,可部署具有所需精度和吞吐量的A1模型;经过验证的功能安全能以锁步模式运行应用和实时处理器,以实现更高级别的ISO26262功能安全;可编程逻辑的灵活性允许修改立体摄像头处理算法,进一步强化了车辆的安全性能。这些功能正在帮助斯巴鲁向2030年实现零致命道路事故的目标迈进。
自适应SoC的未来
Manuel Uhm透露,面向着手采用第二代Versal™自适应SoC的客户,AMD已开始提供早期试用计划,目前正与主要客户接洽,为其提供第一代评估板和设计工具。他透露,新的芯片样片将于2025年上半年发布,评估套件和系统模块(SOM)将于2025年年中推出,量产芯片于2025年底面市。
关于产品路线图,他说:“AMD的技术组合包含来自赛灵思的可编程逻辑和ARM处理器。在芯片层面,有子芯片、高速接口、可编程逻辑、推理引擎,还有ARM和x86处理器和3D堆栈。我们有非常广泛的技术组合,这有助于我们不断创新,使产品始终走在技术发展的前沿,持续满足客户的需求。”
在生态系统方面,他坦言:“我们不仅要自己成功,还要把所有最优秀的人才汇集到我们的平台上开发产品,同样是为了满足客户需求。工具加上开源环境、硬件优化,最终达成嵌入式系统设计的目标。当然,这个过程中需要克服很多困难,包括使用电池或空间有限的系统,或者严苛的应用环境,但我们最后都能够实现想要的硬件,适应并推进未来的边缘处理。”