珠海錾芯EDA显著提升Transformer硬件PPA
judy 在 周二, 10/22/2024 - 10:34 提交珠海錾芯半导体基于自有EDA软件ZESTOPT显著提升Transformer硬件PPA(Power, Performance, Area)
珠海錾芯半导体基于自有EDA软件ZESTOPT显著提升Transformer硬件PPA(Power, Performance, Area)
最近两年,Transformer在NLP、CV领域都取得了非常好的成绩。结合相关文章,Transformer的底层也是矩阵运算。使用FPGA加速,也会取得很好的效果。
相比于训练后量化方法,将量化过程插入到训练中可以弥补量化产生的误差,但是带来的问题可能是增加了训练的时间。在tansformer的量化实现中,我们采用了训练中量化的方法,在网络前向传输中,对权重等参数进行线性量化。
AI芯片优化主要有三个方面:算法优化,编译器优化以及硬件优化。算法优化减少的是神经网络的算力,它确定了神经网络部署实现效率的上限。编译器优化和硬件优化在确定了算力的基础上,尽量最大化硬件的计算和带宽性能。经历了一年多的理论学习,开始第一次神经网络算法优化的尝试。之所以从一个FPGA开发者转向算法的学习,有几个原因