网络压缩一：二值化网络

judy 在周一, 08/05/2019 - 09:53 提交

作者：安平博，Xilinx高级工程师；来源：AI加速微信公众号

引言

网络压缩在AI加速中可以说起到“四两拨千斤”的作用，网络参数的减小不仅仅降低了存储和带宽，而且使计算逻辑简单，降低了LUT资源。从本篇开始，我们就一起挖掘一下网络压缩算法的类型，原理，实现，以及效果。写这类算法类文章，一是学习，二是希望能够令更多做FPGA的人，不再将眼光局限于RTL，仿真，调试，关心一下算法，定会发现FPGA的趣味和神通。

网络结构

二值化网络，顾名思义，就是网络参数只有两个数值，这两个数值是+1和-1。在DNN网络中主要是乘和加法运算，如果参数只有两个数值，那么乘法的实现就很简单，仅仅需要符号判断就可以了。比如输入数据A，如果和1乘，不变；和-1乘，变为负数。这用LUT很好实现，还节省了DSP的使用。相对于单精度浮点数，存储减小16倍，带宽也增加16倍。在计算单元数目相同情况下，比浮点运算速率提高了16倍。当然由于乘法和加法使用LUT数目减少，计算单元也会成倍增长，总的下来计算速率将大幅度提高。

网络训练中使用的都是浮点类型参数，这样做是为了保证训练的精度。那么这些浮点类型的参数如何量化的只有两个数值呢？论文中提出了两种方法，第一种是粗暴型，直接根据权重参数的正负，强行分出1和-1。即：

这里wb是二值参数，w是实际权重参数。量化可以看做在原来数据基础上增加了噪声，导致数据间最短距离变大。比如原来数据的分辨率为R0，如果增加一个高斯噪声s，那么其分辨率就增大了。这样在DNN中矩阵乘法中也引入了噪声，为：

数据分辨率的降低导致了有效信息的损失，但是在大量权重情形下，平均下来可以补偿一定的信息损失，即如果有：

那么在权重无穷多时，有：

图1.1 数据增加了噪声，导致数据分辨率降低

另外一种是随机型，即以一定概率来选择1和-1，论文中采用如下公式：

其中“hard sigmoid”函数为：

这实际上是对sigmoid函数进行了线性化，这样做的目的可以减少计算量。因为线性计算只有一个乘法和加法，而sigmoid函数有指数计算。使用随机量化更能均衡化量化引入的噪声，消除噪声造成的信息损失。粗暴型量化可能因为权重参数分布不同而发生较大的“不平衡”，比如负数权重较多，那么导致-1远远多于+1，这样就会出现权重偏移在负方向多一些。如果使用随机概率模型，即使负数权重多，也会有一定概率出现+1，弥补了+1较少的情况。