TVM | FPGA 开发圈

TVM学习（十）从relay到TOPI

judy 在周一, 05/24/2021 - 09:42 提交

Lower操作完成从高级算子（relay）到低级算子（TOPI）的转化。Lower开始于以下代码(src/relay/backend/graph_runtime_codegen.cc)

TVM编译器

judy 在周二, 03/30/2021 - 10:18 提交

TVM最大的特点是基于图和算符结构来优化指令生成，最大化硬件执行效率。其中使用了很多方法来改善硬件执行速度，包括算符融合、数据规划、基于机器学习的优化器等。它向上对接Tensorflow、Pytorch等深度学习框架，向下兼容GPU、CPU、ARM、TPU等硬件设备。

TVM学习（八）pass总结

judy 在周一, 03/22/2021 - 10:06 提交

Pass是TVM中基于relay IR进行的优化，目的是去除冗余算子，进行硬件友好的算子转换，最终能够提高硬件运行效率。由tensorflow等深度学习框架生成的图机构中，含有很多可以优化的算子，比如expand_dim，len等，其实在编译阶段完全可以优化掉，从而能够减少硬件的计算，以及避免出现硬件不支持的算子。

TVM学习（七）算子

judy 在周二, 02/23/2021 - 10:58 提交

上一章梳理了一遍TVM前端流程，前端完成了tensorflow算子到TVM算子的转换。这一章CNN网络中最普遍的卷积运算为例，看一下relay算子的表示

TVM学习（六）细读前端

judy 在周一, 01/25/2021 - 11:29 提交

用了几章的篇幅写了一些粗读TVM代码的收获，虽然读了一点皮毛，但是还是掌握了TVM的基本架构和代码组成，算是给以后的精读打下了一点基础吧。从这章开始再从头捋一遍TVM代码，顺序是frontend-build-optimize-lower-target

TVM学习（五）schedule

judy 在周一, 01/04/2021 - 15:37 提交

Schedule是和硬件体系结构相关的一些列优化，Halide在其文章中对其做了以下定义,第一条是描述了数据计算顺序对性能的影响，第二条是数据的存储位置对性能影响，最后一条是多线程处理过程中，不同线程数据应该如何进行交互。

TVM学习（四）codegen

judy 在周一, 12/28/2020 - 15:15 提交

接着上一章继续深入代码，在BuildRelay中会调用Codegen函数。这个函数实现在src/relay/backend/graph_runtime_codegen.cc中。Codegen实现了内存的分配，IR节点到TIR节点的转换，tir图节点的一个调度优化。

TVM学习（三）编译流程

judy 在周二, 12/22/2020 - 09:43 提交

TVM主要的编译过程如下图：Import：将tensorflow，onnx，pytorch等构建的深度学习模型导入，转化成TVM的中间层表示IR。Lower：将高层IR表示转化成低阶TIR表示。Codegen：内存分配和硬件可执行程序生成。

TVM学习（二）：算符融合

judy 在周五, 12/18/2020 - 15:21 提交

算符融合将多个计算单元揉进一个计算核中进行，减少了中间数据的搬移，节省了计算时间。TVM中将计算算符分成四种：

1 injective。一一映射函数，比如加法，点乘等。

2 reduction。输入到输出具有降维性质的，比如sum。

3 complex-out。这是计算比较复杂的，比如卷积运算等。

4 opaque。无法被融合的算符，比如sort。

TVM学习（一）

judy 在周二, 12/08/2020 - 14:28 提交

使用FPGA进行神经网络加速需要编译器的支持，因为一个复杂的神经网络会产生大量的指令，手写指令不能满足通用化要求，费时又费力。编译器依据神经网络的图结构，产生硬件可执行指令序列。从广义上讲，编译器包括了前端和后端，前端主要实现从tensorflow等深度学习框架描述的网络结构形式到新表示的转化

精彩推荐

3DIC EDA之二 | 基于芯粒的存储架构演进

存储芯粒从传统2D DRAM瓶颈出发，经3D堆叠（HBM/HMC）提升带宽，演进至近存/存内计算架构，将算力移至数据旁以突破“存储墙”不断突破实现高能效处理。

Versal Gen2连载第五篇--KPL3858 PS 10GbE/1GbE及PL ETH介绍和测试

开普勒KPL3858评估板搭载AMD Versal AI Edge Series Gen 2器件（2VE3858），板上共有四个以太网接口，本篇逐一介绍这四个接口的硬件架构和测试方法。

芯片设计的“翻译官”与“优化师”：揭秘逻辑综合

在我们谈论智能手机、人工智能芯片等现代科技奇迹时，其核心都是一块指甲盖大小的芯片。这块芯片上布满了数十亿甚至上百亿个晶体管

从PetaLinux到EDF迁移开发指南

AMD嵌入式开发框架(EDF)是一个完整的开源环境，旨在帮助嵌入式工程师基于AMD自适应SoC高效评估、开发和部署应用。

在 Versal Gen2上通过 JTAG 启动 EDF镜像并刷写 UFS 的流程

本文基于 EDF 2025.11 版本进行测试，记录了在 VEK385 开发板上，如何：通过 JTAG 模式启动 EDF 镜像；使用 TFTP 引导 Linux 内核与 rootfs；

在 ZCU102 上使用 PS AXI性能监视器（APM）测量 PS内部的DDR 带宽

本文提出了一种基于 PS的AXI 性能监视器（APM）在 ZCU102 开发板上实现的硬件级 PS内部DDR 带宽监控解决方案。

如何在VHK158上使用PL DDR控制器

本文介绍在VHK158开发板上，如何使用Versal Soft Memory Controller，替代默认的NoC方案。

XDMA 多通道传输实战

在实际开发测试中，会出现单通传输正常的情况下多通道传输异常的情况。本文以实际调试时遇到的问题进行总结。