AMD:嵌入式边缘 AI 需要体现价值并便于部署

本文原载于《电子设计与芯片应用》5月刊

随着人工智能( AI )技术广泛应用于各行各业,从云到边缘的解决方案逐渐成为信息技术领域新的热点。嵌入式边缘 AI 在当今的各种边缘应用中能够大幅提升作业人员的生产力,带动整个 AI 技术在各个领域的全面落地。边缘 AI 的价值在于将计算和存储资源移动到网络边缘,缩短传输距离降低传输要求,大幅提升数据反馈的速度,降低了对系统云端计算能力的需求。边缘处理数据无需传输到远程服务器,从而大大减少了传输延迟,对于需要实时响应的应用场景至关重要。此外,嵌入式边缘 AI 结构相对处理效率更高,通过优化算法和硬件设计,可以大幅降低系统处理所需的功耗。

目前的 AI 驱动型嵌入式系统实现端到端加速需要采用多芯片方法,为用户增加了很大的开销和设计复杂性。针对这一现状,AMD 工业、视觉、医疗与科学市场视觉业务主管 Yingyu Xia认为,全面采用嵌入式边缘 AI 技术仍然存在障碍,包括技能人才短缺、AI 系统的复杂性以及对失业的担忧。为了更广泛地推广此类应用,不仅需要展示 AI 在各个应用任务中的价值,而且还需要确保其便于部署,作为拥有多种嵌入式处理器产品的厂商,这恰是 AMD 最突出的竞争优势所在。

Yingyu Xia.png

Yingyu Xia

AMD 工业、视觉、医疗与科学市场视觉业务主管 

在边缘智能的应用中,需要重点关注的就是不同处理器发挥各自的处理优势从而更好地提升边缘智能系统的运行效率。为了支持嵌入式设备上的生成式 AI 模型,Yingyu Xia 表示计算平台需要确保高算力的同时具有高效率,采用处理器异构计算平台以及一个编译器,能够高效地在应用处理器( PS )、图形处理单元( GPU )、神经处理单元( NPU )和现场可编程门阵列( FPGA )之间分配各种工作负载。此外,它们应该提供易于使用的软件开发工具套件( SDK ),帮助嵌入式工程师将其模型无缝部署到硬件平台上。NPU 对于高效处理标准 AI 模型至关重要,有助于加速 AI 任务并最大限度降低功耗;与此同时,PS 和 GPU 对于处理尚未针对 NPU 进行优化的更高级别的模型也提供了必要支持;FPGA 则有助于集成多种传感器模态,以利用多模态模型并确保传感器同步。此外,FPGA 可以被编程以建立定制、优化的数据路径,从而实现系统组件之间的有效数据传输。

KV Thanjavur Bhaaskar.png

KV Thanjavur Bhaaskar

AMD 工业、视觉、医疗与科学市场机器人业务主管

针对各个处理器在边缘 AI 应用中的作用,AMD 工业、视觉、医疗与科学市场机器人业务主管 KV Thanjavur Bhaaskar 介绍,CPU 一直以来都是功能强大的通用计算引擎,相对于许多其他计算平台,在可提供支持的广泛软件生态系统方面具有优势。嵌入式处理器集成了用于渲染、可视化和显示的 CPU 和图形。随着边缘智能的快速增长,近来的一种趋势是 CPU 除了通用计算和图形功能外,还具有专用的 AI 计算引擎。

迄今为止,设计人员必须在设计中引入加速器才能实现高性能的 AI 推理。将专用的 AI 计算引擎引入到 CPU 中,可提供灵活的架构选择,减小占板面积并提高能效。就新应用而言,边缘智能已经无处不在,所以可以想象在以前只有 CPU 的地方现在都具备了 AI 功能,比如具有 AI 路径规划的机器人控制器、具有诊断或感兴趣区域功能的医学成像等。正在出现的主要设计要求是在满足整体解决方案需求的情况下选择正确的引擎进行正确的任务,因为计算工作负载的多样性、处理器以有效处理它们的方式、以及系统中这种处理能力的可用性都发生了显著变化。在为传统 CPU 增加 AI 功能之外,异构处理架构的出现能够更好的去提升边缘 AI 在功耗和效率方面的表现。KV Thanjavur Bhaaskar 强调,处理器的选择取决于特定的系统级别,一个解决方案可能是选择适合特定任务的正确引擎,因为这将为解决系统中的特定计算任务提供最节能的方式。AMD 提供的器件结合了不同技术,包括 FPGA、处理子系统(包括 Arm 和 RISC-V )、基于 x86 的 CPU、GPU、AI 引擎,构成了可扩展性很强的产品系列,从成本优化的嵌入式器件一直到针对数据中心市场的高端器件。

Omdia预测

Omdia  预测.png

2027 年营收前 10 的嵌入式 AI 应用 ( Alexander Harrowell, Omdia, 2022 ) 

Omdia 预测了到 2027 年预计将产生最高收入的前 10 个嵌入式 AI 应用(如图所示),这些应用通常展示了上述因素中的两个或更多,呈现出业界采用嵌入式 AI 的目标领域。以工厂自动化为例,工厂中的拾取和放置机器人,需要实现对目标对象的毫米级准确识别并最小化对机械臂的干扰,这需要结合 3D 视觉、点云处理、嵌入式 AI 和传感器致动器融合。最大限度降低时延对于保持高生产力至关重要,也有助于确保产量和整体效率的提升。这方面许多人所熟悉的另一个例子是智能结账系统,不仅可通过实时监控扫描商品来增强结账体验,而且还能检测购物者的不当行为,例如将较便宜的商品(如香蕉)替换为较昂贵的商品(如牛排)。这一功能不仅鼓励顾客使用自助结账,减少零售商的担忧,还解决了不断上升的劳动力成本问题。此外,还可以参考智能交通摄像头,其需要针对速度高达 200 公里/小时的车辆采集图像信息。要实现这一点,需要集成各种传感器。然而,全天候持续传输视频将产生极高的成本。

统一 AI 模型的潜在发展趋势

随着 AI 模型及其参数的复杂性日益提高,对系统内部更有效的数据传输机制的需求也在增长。统一 AI 模型是最突出的潜在发展趋势。与为同一背景下的各种任务管理多个专门的 AI 模型不同,统一模型可用于处理多种视觉任务。这种方法在嵌入式边缘中提供了更有效地资源利用的可能性,尤其是在分布式 AI 架构中更为明显。预计在这个领域会进行进一步的研究,以提高统一模型的准确性。

Yingyu Xia 特别提到

当前一个值得关注的趋势,即业界出现了能够在有限标记数据下进行有效泛化的模型。这一策略在数据采集不便和需要频繁数据训练的场景中具有极大的价值。由于仅需要最少量的数据进行重新训练,这一趋势降低了所需的技术专长,并节省了 AI 训练时间。

此外,大型语言模型( LLM )的普及使得与 AI 的交互更类似于与人类对话。只需提出一个问题,AI 就能够理解背景语义并像咨询专家一样作出回应。目前一种趋势是在嵌入式边缘部署的 AI 模型中提升对视觉场景的理解。这一发展有助于作业人员更清晰地理解视觉场景,在一次视频搜索的调查过程中,它能够以自然的人类语言提供洞察和建议。除了评估 AI 引擎的能力外,Yingyu Xia 认为嵌入式 AI 系统还在高速和大量数据涌入的实时环境中运行。确保实时操作需要硬件平台具备高效的数据同步和前后处理流水线,以有效地管理数据流。在选择嵌入式平台时,不仅要考虑 AI 引擎的效率,还要考虑它与其他关键部分的兼容性。AI 引擎只是嵌入式系统的一个组成部分,为了实现最佳功能,必须通过其它重要因素进行补充,理想的平台应该是根据嵌入式用例需求可以满足下列大部分要求的平台。

AMD Embedded+

面向边缘 AI 应用市场,AMD 最近发布了加速嵌入式边缘 AI 开发的 Embedded+ 架构,该架构将 AMD Ryzen(锐龙)嵌入式处理器与 AMD Versal AI Edge 自适应 SoC 集成在一块板卡上。KV Thanjavur Bhaaskar 强调,自适应计算在确定性、低时延处理方面表现出色,而 AI 引擎则能够提升高每瓦性能推理。在这种异构处理器架构中,Ryzen 嵌入式处理器提供了 Zen+ x86 核心,并且具备广泛的软件生态系统支持,Radeon 显卡用于渲染和显示功能。Versal AI Edge 自适应 SoC 提供了基于 Arm Cortex-A72 内核处理器的子系统用于应用处理,R5-F 用于实时处理,FPGA 用于低时延和确定性,AI 引擎用于 AI 推理,最重要的是可编程 I/O,支持用户将各种传感器直接连接到平台。在自动化系统中,传感器数据的价值会随时间推移而递减,而这些数据必须根据尽可能最新的信息运行,才能实现最低时延和确定性响应。在工业和医疗应用中许多决策需要在几毫秒内做出,这就是嵌入式边缘 AI 最适合的方向。Embedded+ 能最大限度发挥合作伙伴和客户数据价值,其高能效和高性能算力使合作伙伴与客户能够专注于满足客户和市场需求。

AMD Embedded.png

AMD Embedded+ 架构将传统的嵌入式 PC 转变为优化的工业和医疗 PC。低时延处理和高每瓦性能推理的结合可为关键任务实现高性能,包括将自适应计算与灵活的 I/O、用于 AI 推理的 AI 引擎以及 AMD Radeon 显卡实时集成到单个解决方案中,发挥每项技术的最大优势。Embedded+ 架构作为一种可扩展的方法,可以通过 AMD 的任何器件组合进行更新,就在近期,AMD 推出了具有专用AI引擎的锐龙 8000G 系列 CPU 和第二代 Versal AI Edge 系列,这些产品可以用于新一代基于 Embedded+ 的主板,以应对边缘智能不断变化的需求。

KV Thanjavur Bhaaskar 特别提到


AMD 在边缘和云计算领域拥有广泛的产品组合。AMD 不仅将 AI 功能添加到最新发布的相关器件中,同时还将提高已有器件的 AI 能力,考虑到功率效率与成本方面因素,预计这种趋势将持续下去。

  • AMD 嵌入式行业解决方案可为工业和商业应用打造高性能、高性价比的系统。

  • 凭借一系列灵活、可扩展的处理器,AMD 为客户带来更出色的计算性能、先进安全性和各种连接选项。

  • AMD 嵌入式行业解决方案可满足游戏、医疗、运输、自动化等工业和商业应用的苛刻需求。

嵌入式环境中实现 AI 的分布式架构

在针对嵌入式环境中实现 AI 的分布式架构中,Yingyu Xia总结的关键是考虑嵌入式边缘设备的限制性资源、功耗、实时要求和安全性等因素。考虑到每个 AI 参数需要 4 字节( 32 位)的数据,部署原始大小的 32 位浮点模型大多是不可行的。例如,如果有 1.7 万亿个参数,嵌入式设备上的存储需求将达到 1.7 * 10^12 * 4 = 6.8 TB。因此,采用 BFLOAT16、FLOAT16、INT8 等新颖的数据格式以最小化所需的内存占用是至关重要的。通常,量化器可以帮助将来自浮点 32 模型的数据精度降低到量化模型。此外,可以利用 AI 分析工具来识别导致最重要瓶颈的层,这有助于嵌入式 AI 工程师在边缘优化其模型。而且,关键在于需要开发特定领域的模型以简化模型复杂性,从而减少模型层数,使其更容易部署到嵌入式 AI 模型中。

作为一家可以同时提供 x86、GPU、FPGA 和自适应 SoC 技术的行业领导者,AMD 的嵌入式边缘 AI 技术聚焦在汽车、工业、智能家居和智慧城市以及网络与存储等应用,帮助客户快速构建面向物联网网关、边缘基础设施、迷你电脑、瘦客户端等智能边缘应用的经济高效的产品和解决方案。

文章来源:Xilinx赛灵思官微

最新文章

最新文章