深入理解DNN加速器中的基本单元——DSP
judy 在 周二, 07/20/2021 - 09:34 提交
DNN加速器的设计一直在两个方面使力:通用架构和高效性能。通用性需要自顶向下的设计,首先综合各种神经网络的算子设计一套标准的指令集,然后根据硬件平台的特点,考察计算资源,存储资源以及带宽,进行硬件的模块化设计,在指令集以及硬件的特殊结构基础上,再去构建工具链。
DNN加速器的设计一直在两个方面使力:通用架构和高效性能。通用性需要自顶向下的设计,首先综合各种神经网络的算子设计一套标准的指令集,然后根据硬件平台的特点,考察计算资源,存储资源以及带宽,进行硬件的模块化设计,在指令集以及硬件的特殊结构基础上,再去构建工具链。
为专用硬件架构设计神经网络,是近年来的热门话题,特别是在边缘器件上。在本次演讲视频中,您将了解如何借助 Once-for-All 神经网络,以低成本形式为 Xilinx 普及型 AI 平台 Vitis AI 搜索和部署高效率模型。
Xilinx Kintex®-7 系列 FPGA 采用 28 nm 工艺,提供业界最高的性价比和低功耗,同时提供高 DSP 比率和高性价比封装,支持 PCIe Gen3 和 10 Gbps Ethernet 等主流标准。Kintex®-7 系列是各种应用的理想选择,比如 3G/4G 无线、平板显示器和 IP 视频解决方案。
以太网技术继续向更高、更优的性能和功能水平不断迈进。万兆以太网 (GbE) 有望满足苛刻的市场需求,提升性能并仍能兼容之前的各种变型。它可以满足高性能实时系统、云计算、零延迟传输系统和高性能嵌入式计算 (HPEC) 的苛刻需求。它也是高速处理器之间和 I/O 通信的可行性选择。
Xilinx Artix®-7 系列的成本优化型 FPGA ,提供具有业界最高性能功耗比的结构、收发器线速、DSP 处理能力和 AMS 集成。该系列产品采用 MicroBlaze™ 嵌入式软核,支持 1066Mb/s DDR3,特别适用于各种成本功耗敏感型应用,比如软件定义无线电、机器视觉相机和低端无线回传。大电流型号适合 > 4A 的设计,小电流型号适合 < 4A 的设计。
环境条件,首先需要安装opencv3.x版本,这个opencv是在执行test bench的时候才有用,个人理解就是能够生成处理后的图片,方便对比处理效果。不安装并不影响生成RTL kernel。
Xilinx 器件及 Vitis/Vitis AI 解决方案可为众多应用加速,包括视频处理、图像预处理、AI 推断以及内存带宽优化等。在本视频中,我们将演示如何使用 Xilinx ZCU104 开发人体检测应用。
在本篇博文中,我们将在“猫和狗”数据库上重复先前第 2 部分中已完成的过程,并且我们将添加一些其它内容。
前提环境:开发板上电后,JTAG模式启动,SD卡已烧写系统文件,JTAG 和UART已连接主机。首先 下载驱动Linux_3.x.x_4.x.x_VCP_Driver_Source.zip
Xilinx 推出 Versal™ HBM 系列,在单个平台上融合了高速存储器、安全连接和自适应计算,面向计算最密集、内存受限、高带宽应用。