作者:Nick
该系列前两篇主要扯了扯Linux中GUI相关的DRI框架及相关组件实现方式。细想一下,对于GUI相关的加速能做的其实不多,开发一个2D或3D的显卡加速子模块对于一个DEMO教程的量级来说工作量太大,我们在这只实现一下简单的功能:
通过Zynq的PL部分实现对Qt视频播放器中待输出的Framebuffer的二值处理;
1、 简单的处理介绍
上述处理十分简单,对于一幅分辨率为M*N的灰度图像来说,二值化的处理如下:
,其中
表示图像上任意一点灰度值,
为二值化阈值,对于RGB图像来说(以RGB888为例),RGB转化为灰度图的表达式如下:
,对于此例不怎么严格的要求,采用16位的定点化精度足以,对应着表达式如下:
2、 FPGA加速方案
图像(预)处理的本质其实是二维数据的处理,常见的图像预处理分为以下几类:
1、 线性滤波,如噪声平滑,边缘增强;
2、 非线性滤波,如零交点检测等;
3、 形态学滤波,如膨胀腐蚀等;
4、 其它相对较复杂的图像处理;
上述几种图像处理在信号处理实现上来说都是局部滤波器的实现,以线性滤波为例,滤波器函数可表示为滑窗内像素的权值与像素值的乘加之和,此处权重指的是滑窗内各个算子的大小,表达如下:
其中其中
其中
为滑窗对应的算子,i,j的取值范围有滑窗大小决定。FPGA特别适合这类流水式的运算。,内部的DSP硬核或者由slice搭建生成的乘加器,是线性滤波的核心运算单元。以一个3X3的窗口为例,对应的滤波操作如下图所示:
对于上述的几点解释如下:
1、 粉色框对应着图像的缓存部分,对于线性滤波计算,滑窗的尺寸(算子的size)越大,所需要缓存的容量越大,缓存一般使用片内的block ram或distribute ram。当然,我们也可以使用片外存储,如DDR,但片数据片内外的搬运会造成较大的延时,因此,在设计之初我们就得在延时及滑窗size之间做好tradeoff。
2、 蓝色部分为最终输出的图像滤波结果。由于缓存的存在,整体的图像刷新输出会比输入延迟a*(W-1)+a-1个像素clk,其中a为滑窗的size,W为前篇中介绍的drm_framebuffer结构体中width值。
二值化的处理其实可以看做简化的滑窗滤波操作,此时的a=1,算子值为1,滑窗结果通过一个比较器输出二值化结果。影响二值化的参数为阈值大小,此处我们将这些需要配置的参数通过AXI_lite总线暴露给PS(ARM)端,让软件(运行在PS端的Qt上位机)动态配置。整个系统的结构如下:
3、 FPGA加速效果及性能分析
FPGA的处理速度取决于:
在本例中,处理速度取决于pixel的驱动时钟(本处50MHz),即大致60(FPS)*1080*720。
皮一下很开心,用海贼王的一小段打斗场面做了测试,效果请点击视频观看: https://v.vzuu.com/video/1095730086900211712?autoplay=false&useMSE=