Linux_GUI加速(3)——加速模块设计

作者:Nick

该系列前两篇主要扯了扯Linux中GUI相关的DRI框架及相关组件实现方式。细想一下,对于GUI相关的加速能做的其实不多,开发一个2D或3D的显卡加速子模块对于一个DEMO教程的量级来说工作量太大,我们在这只实现一下简单的功能:

通过Zynq的PL部分实现对Qt视频播放器中待输出的Framebuffer的二值处理;

1、 简单的处理介绍

上述处理十分简单,对于一幅分辨率为M*N的灰度图像来说,二值化的处理如下:

,其中

表示图像上任意一点灰度值,

为二值化阈值,对于RGB图像来说(以RGB888为例),RGB转化为灰度图的表达式如下:

,对于此例不怎么严格的要求,采用16位的定点化精度足以,对应着表达式如下:

2、 FPGA加速方案

图像(预)处理的本质其实是二维数据的处理,常见的图像预处理分为以下几类:

1、 线性滤波,如噪声平滑,边缘增强;

2、 非线性滤波,如零交点检测等;

3、 形态学滤波,如膨胀腐蚀等;

4、 其它相对较复杂的图像处理;

上述几种图像处理在信号处理实现上来说都是局部滤波器的实现,以线性滤波为例,滤波器函数可表示为滑窗内像素的权值与像素值的乘加之和,此处权重指的是滑窗内各个算子的大小,表达如下:

其中其中

其中

为滑窗对应的算子,i,j的取值范围有滑窗大小决定。FPGA特别适合这类流水式的运算。,内部的DSP硬核或者由slice搭建生成的乘加器,是线性滤波的核心运算单元。以一个3X3的窗口为例,对应的滤波操作如下图所示:

对于上述的几点解释如下:

1、 粉色框对应着图像的缓存部分,对于线性滤波计算,滑窗的尺寸(算子的size)越大,所需要缓存的容量越大,缓存一般使用片内的block ram或distribute ram。当然,我们也可以使用片外存储,如DDR,但片数据片内外的搬运会造成较大的延时,因此,在设计之初我们就得在延时及滑窗size之间做好tradeoff。

2、 蓝色部分为最终输出的图像滤波结果。由于缓存的存在,整体的图像刷新输出会比输入延迟a*(W-1)+a-1个像素clk,其中a为滑窗的size,W为前篇中介绍的drm_framebuffer结构体中width值。

二值化的处理其实可以看做简化的滑窗滤波操作,此时的a=1,算子值为1,滑窗结果通过一个比较器输出二值化结果。影响二值化的参数为阈值大小,此处我们将这些需要配置的参数通过AXI_lite总线暴露给PS(ARM)端,让软件(运行在PS端的Qt上位机)动态配置。整个系统的结构如下:

3、 FPGA加速效果及性能分析

FPGA的处理速度取决于:

  • 芯片速度等级(支持的最高频率);
  • 加速模块的设计方案(并行化设计、利用资源换时间);
  • 在本例中,处理速度取决于pixel的驱动时钟(本处50MHz),即大致60(FPS)*1080*720。

    皮一下很开心,用海贼王的一小段打斗场面做了测试,效果请点击视频观看: https://v.vzuu.com/video/1095730086900211712?autoplay=false&useMSE=


    文章转载自:https://zhuanlan.zhihu.com/p/60965312
    *本文由作者授权转发,如需转载请联系作者本人

    推荐阅读