TVM | FPGA 开发圈

TVM学习（十）从relay到TOPI

judy 在周一, 05/24/2021 - 09:42 提交

Lower操作完成从高级算子（relay）到低级算子（TOPI）的转化。Lower开始于以下代码(src/relay/backend/graph_runtime_codegen.cc)

TVM编译器

judy 在周二, 03/30/2021 - 10:18 提交

TVM最大的特点是基于图和算符结构来优化指令生成，最大化硬件执行效率。其中使用了很多方法来改善硬件执行速度，包括算符融合、数据规划、基于机器学习的优化器等。它向上对接Tensorflow、Pytorch等深度学习框架，向下兼容GPU、CPU、ARM、TPU等硬件设备。

TVM学习（八）pass总结

judy 在周一, 03/22/2021 - 10:06 提交

Pass是TVM中基于relay IR进行的优化，目的是去除冗余算子，进行硬件友好的算子转换，最终能够提高硬件运行效率。由tensorflow等深度学习框架生成的图机构中，含有很多可以优化的算子，比如expand_dim，len等，其实在编译阶段完全可以优化掉，从而能够减少硬件的计算，以及避免出现硬件不支持的算子。

TVM学习（七）算子

judy 在周二, 02/23/2021 - 10:58 提交

上一章梳理了一遍TVM前端流程，前端完成了tensorflow算子到TVM算子的转换。这一章CNN网络中最普遍的卷积运算为例，看一下relay算子的表示

TVM学习（六）细读前端

judy 在周一, 01/25/2021 - 11:29 提交

用了几章的篇幅写了一些粗读TVM代码的收获，虽然读了一点皮毛，但是还是掌握了TVM的基本架构和代码组成，算是给以后的精读打下了一点基础吧。从这章开始再从头捋一遍TVM代码，顺序是frontend-build-optimize-lower-target

TVM学习（五）schedule

judy 在周一, 01/04/2021 - 15:37 提交

Schedule是和硬件体系结构相关的一些列优化，Halide在其文章中对其做了以下定义,第一条是描述了数据计算顺序对性能的影响，第二条是数据的存储位置对性能影响，最后一条是多线程处理过程中，不同线程数据应该如何进行交互。

TVM学习（四）codegen

judy 在周一, 12/28/2020 - 15:15 提交

接着上一章继续深入代码，在BuildRelay中会调用Codegen函数。这个函数实现在src/relay/backend/graph_runtime_codegen.cc中。Codegen实现了内存的分配，IR节点到TIR节点的转换，tir图节点的一个调度优化。

TVM学习（三）编译流程

judy 在周二, 12/22/2020 - 09:43 提交

TVM主要的编译过程如下图：Import：将tensorflow，onnx，pytorch等构建的深度学习模型导入，转化成TVM的中间层表示IR。Lower：将高层IR表示转化成低阶TIR表示。Codegen：内存分配和硬件可执行程序生成。

TVM学习（二）：算符融合

judy 在周五, 12/18/2020 - 15:21 提交

算符融合将多个计算单元揉进一个计算核中进行，减少了中间数据的搬移，节省了计算时间。TVM中将计算算符分成四种：

1 injective。一一映射函数，比如加法，点乘等。

2 reduction。输入到输出具有降维性质的，比如sum。

3 complex-out。这是计算比较复杂的，比如卷积运算等。

4 opaque。无法被融合的算符，比如sort。

TVM学习（一）

judy 在周二, 12/08/2020 - 14:28 提交

使用FPGA进行神经网络加速需要编译器的支持，因为一个复杂的神经网络会产生大量的指令，手写指令不能满足通用化要求，费时又费力。编译器依据神经网络的图结构，产生硬件可执行指令序列。从广义上讲，编译器包括了前端和后端，前端主要实现从tensorflow等深度学习框架描述的网络结构形式到新表示的转化

精彩推荐

SEM IP健康状态检查

SEM IP是一个非常‘安静’的IP。构建的时候，它的逻辑就是独立于用户系统设计的，并用区域约束做了一定的分割。对于它唯一的时钟信号，我们也是建议越独立越好。

如何在zcu102板卡上实现GEM的fixed-link配置

本文介绍了一种在两块zcu102开发板上实现GEM-GEM直连的一种方法。

Zynq MPSoC上AXI超时模块（ATB）的配置与测试方法

通过本文提供的方法，用户可以有效配置和测试Zynq MPSoC中的AXI超时模块，防止CPU挂死。

SystemC 仿真库的编译

AMD Vivado™ 设计套件以文件和库的形式提供仿真模型。仿真库包含器件和 IP 的行为和时序模型。编译后的库可供多个设计项目使用。

易灵思FPGA DSP源语使用方法

本文将重点解析易灵思 FPGA 中的 DSP 原语结构、功能特性及其在实际设计中的使用方法，帮助读者理解如何借助这些硬件资源构建高效的信号处理系统。

Hyperlynx仿真系列(一): Versal GTYP

本文简单介绍了如何用Hyperlynx来做GTYP的 IBIS AMI仿真，以及可以通过仿真输出文件来画出以帮助分析。

如何在KR260 starter kit上应用gmii2rgmii IP

很多客户希望在PL里把GMII接口转换为RGMII接口，这就会用到gmii2rgmii converter IP。经常看到客户在使用这个IP的过程中遇到一些问题，本文给出了基于KR260 starter kit板卡应用gmii2rgmii的范例。

FPGA软核生态全景对比：六大厂商工具解析与产业选型建议

本文将深度剖析当前六大主流FPGA厂商的软核开发工具及软核实现，帮助从业者在选型与应用中做出科学判断。