作者:Scott Turnbull,Fidus Systems 首席技术官
解锁 AMD Versal SoC 的全部潜力
为了实现具有严格吞吐量和延迟要求的自适应系统,工程师可以使用 AMD Versal 自适应 SoC。Versal 提供了可编程逻辑(含 DSP 单元)、各种硬核处理元素、AI 引擎以及片上网络(NoC),以实现快速高效的数据传输。
图片来源:Fidus Systems
Fidus Systems 专注于 FPGA 和 ASIC 的设计、验证与验证服务,致力于高度复杂的嵌入式系统。例如,Fidus 成功在一个严格吞吐量需求下实现了无线电信号分类算法的部署,充分利用了 Versal 的 AI 引擎。本文将探讨优化数据传输、AI 引擎加速以及动态功能交换(DFX)的关键技术,以全面释放 AMD Versal SoC 的潜能。
使用 Versal 的 NoC 优化数据传输
在高速计算中,数据传输瓶颈是最大挑战之一。AMD Versal 自适应 SoC 集成了片上网络(NoC),这是一种高速互连结构,能在硬件计算单元、内存与 I/O 之间高效地传输数据。
NoC 的优势包括:
✔ 128 位数据总线上高达 1GHz 的传输速率;
✔ 多级服务质量(QoS)支持,实现带宽优先级调度;
✔ PL、AI 引擎与 DDR/HBM 内存之间的优化连接。
在 Fidus,我们利用 NoC 的带宽优先级配置技术,优化了一套实时 8K 视频处理系统。通过配置等时 QoS 设置,我们确保了 48Gbps 视频流以极低延迟运行。
加速 AI 工作负载:MUSIC 算法
MUSIC(多重信号分类)是一种高分辨率算法,用于通过天线阵列的一次快照测量来估计信号到达方向。该算法广泛用于雷达/声纳系统及智能天线。它还可与其他信息采集方法(如多普勒、测距)配合使用,增强智能感知能力。
Fidus 利用 Versal 的 AI 引擎和强大算力,实现了对单次快照数据的 MUSIC 算法处理。数据采样率为 128MHz,形成一个 128×8 的复数矩阵,在 1ms 的处理时间要求内完成计算。
我们的 AI 引擎架构优化包括:
在 157 个 AI 计算单元上并行展开循环和深度流水线处理,实现高并发;
各流水线阶段通过本地工作存储器进行数据共享;
AI 内核算法优化,避免重复计算。
动态功能交换(DFX):实时重配置
Versal SoC 的一大优势在于其支持 动态功能交换(DFX),可在不中断整个系统的前提下对 FPGA 的特定区域进行重配置。
在 Fidus,我们成功应用 DFX 技术动态加载不同的 AI 模型,从而在自适应 AI 应用中优化硬件资源利用。这种方法在雷达和视频分析等实时变化的负载场景中尤其重要。
面向下一代性能的 FPGA 优化
在 AMD Versal 自适应 SoC 上实现最佳性能,需要多层次的优化策略,包括:
高速 NoC 调优,实现高效数据流动;
AI 引擎加速,最大化计算效率;
动态功能交换(DFX),实现实时灵活性。
Fidus 始终站在 FPGA 与 AI 引擎创新的前沿,不断刷新性能基准。如果你正在开发高性能 FPGA 设计,欢迎联系我们进行设计咨询,一起优化你的下一代项目。
* 致谢:感谢 Fidus Systems 的系统与算法架构师 Bachir Berkane 以及高级嵌入式软件工程师 Peifang Zhou 对本文做出的重要贡献。
作者介绍:
Scott Turnbull 是 Fidus Systems 的首席技术官,主导公司在嵌入式系统设计中的技术创新与战略方向。
Fidus Systems 是高性能 FPGA、AI 与嵌入式系统设计的领先方案提供商,曾被评为 AMD 年度合作伙伴,专注于硬件加速、AI 引擎优化与高速数据处理,拥有超过 25 年行业经验,助力企业加速创新、优化性能,将前沿技术快速推向市场。了解更多,请访问:www.fidus.com 或预约设计咨询。
本文翻译自:Embedded