以第二代 Versal AI Edge 为视觉、安全和零售应用实现实时 AI 性能

周三, 11 九月 2024 - 09:19

嵌入式软件工程师在打造应用时要应对许多相互冲突的需求。他们面临的挑战不仅包括实现应用的实时端到端性能，还包括确保模型准确性。此外，他们还必须针对功率、工作条件等各种系统需求进行优化，所有这些都要在严苛的开发计划内完成。他们也越来越多地面临着与各种传感器连接以进行数据采集和与执行器连接以进行控制的需求，而这就需要实时数据同步。

第二代 Versal™ AI Edge 系列自适应 SoC 旨在通过增强的处理器系统、功耗优化的下一代 AI 引擎以及 AMD 全球领先的可编程逻辑来提升 AI 驱动型应用的系统级性能，以实现最大的灵活性和低时延处理。通过添加集成 IP 模块，包括视频处理管线（ VPP ）、视频编解码器单元（ VCU ）、图像信号处理器（ ISP ）和 GPU，系统级功率效率得到了进一步增强。器件架构则整合了多个高速且灵活应变的 I/O 接口。参考设计有助于实时数据同步并简化设计流程。

亮点

借助下一代处理器系统实现至高 10 倍的标量算力¹

8 核 Arm® Cortex®-A78E 具备至高 200,000 DMIPS 的内核，可提供至关重要的计算能力，以满足日益增长的密集型工作负载需求
10 核 Arm Cortex-R52 中额外增加至多 23,000 DMIPS
利用增加的 DDR 带宽实现更高的神经网络推理和信号处理工作负载性能

下一代高性能 AI 引擎

与前代相比至高 3 倍的每瓦 TOPS2
增加对 MX6、MX9、FP8 和 FP16 数据类型的支持
利用增加的 DDR 带宽实现更高的神经网络推理和信号处理工作负载性能

集成的视频处理

图像信号处理器（ ISP ）
视频处理管线（ VPP ）
视频编解码器单元（ VCU ）用于4k60 HEVC/AVC3
图形处理单元（ GPU ）支持至高 256 GFLOPS

快速 AI 模型部署

PyTorch、TensorFlow、ONNX 等行业标准框架
支持广泛的模型和运算符，包括 CNN 和 ViT
全面的开发人员工具、培训文档和参考设计
高效 AI 推理——高吞吐量和低时延
借助 AMD Unified AI Stack 2.0，AMD 可实现跨数据中心、边缘和端点的异构硬件环境

目标应用

安全运营与设施管理

确保人们在家中、工作场所或公共场所的安全与健康至关重要。无论是优化停车管理还是加强公共场所或住宅区的安全性，紧凑型器件对增强分析的需求日益增长。升级的 8 核 Arm Cortex-A78E 处理器系统、覆盖完整视频处理管线的专用硬件引擎以及下一代 AI 引擎，令第二代 Versal AI Edge 系列成为嵌入式边缘 AI 应用的强大解决方案。

智慧城市交通

城市规划很大程度上依赖于对交通统计数据的理解并确保行人安全，从而实现更高效的交通网络。在各种户外条件下获取可靠数据对于明智的决策至关重要。许多应用在源端集成不同的传感器输入，以实现精确的数据同步。第二代 Versal AI Edge 系列提供了灵活应变的接口，如 MIPI 4.0、以太网、USB 3.2、GMSL 3.0 等，非常适合摄像头、激光雷达、雷达、超声波传感器、龙门式执行器以及外设。其灵活的高性能 I/O 利用可编程逻辑、DSP 片和块 RAM 高效收集和处理传感器数据，从而实现端点同步以获得最高精度。

智慧农业与零售

确定蔬菜的大小和健康状况对于确定最佳收获时间以最大程度提高产量至关重要。通过利用 AI 解决方案和集成各种传感器，机器可以准确判断水果是否适合收获。借助第二代 Versal AI Edge 系列技术及其灵活的 I/O 功能，连接到多个传感器和控制器可实现实时电机控制，促进高效的收获流程。

下一步

如欲了解有关第二代 Versal AI Edge 系列的更多信息，请访问产品专区
请联系您本地的 AMD 销售代表
关注第二代 Versal AI Edge 系列 SOM 评估平台，开启您的开发之旅

1. 基于 AMD 内部对采用 8 个 2.2 Ghz 的Arm Cortex-A78AE 应用核心和 10 个 1.05 Ghz 的Arm Cortex-R52 实时核心配置的第二代 Versal AI Edge 系列和 Versal Prime 系列处理系统的总 DMIPS 的硅前性能估计，与发布的第一代 Versal AI Edge 系列和 Versal Prime 系列处理系统的总 DMIPS 进行比较。第二代 Versal AI Edge 系列和 Prime 系列工作条件：最高可用速度等级、0.88V PS 工作电压、分离模式操作、支持的最大工作频率。第一代 Versal AI Edge 系列和 Prime 系列工作条件：最高可用速度等级、0.88V PS 工作电压、支持的最大工作频率。实际 DMIPS 性能将在最终产品的市场发布时有所不同。(VER-027)

2. 基于 AMD 内部对使用 MX6 数据类型的第二代 Versal AI Edge 系列 AIE-ML v2 计算块架构的性能和功耗预测，与使用 INT8 数据类型的第一代 Versal AI Edge 系列 AIE-ML 计算块架构的性能规范和 AMD 电源设计管理器功耗结果进行比较。假设：2 行 8 列子阵列。工作条件：1 GHz FMAX、0.7V AIE 工作电压、100℃ 结温、典型工艺、60% 矢量负载、激活%= 0 < 10%。实际性能将在最终产品的市场发布时有所不同。性能预测截至 2024 年 3 月。(VER-023)

3. 视频编解码器加速（至少包括 HEVC (H.265)、H.264、VP9 和 AV1 编解码器）在不包含/未安装兼容媒体播放器的情况下受限而且无法运行。(GD-176)

文章来源：Xilinx赛灵思官微

以第二代 Versal AI Edge 为视觉、安全和零售应用实现实时 AI 性能

阅读推荐