基于分组卷积和空间注意力机制的单幅图像去雨方法
来源:用户上传
作者:
摘要:为更好地将图像去雨算法应用在户外监控、手机移动终端上,提出一种基于局部空间注意力机制的轻量级卷积神经网络。将图像去雨看作残差学习,既有利于从有雨图中去掉雨滴,又便于模型的训练与优化。深度可分离卷积作为模型提取特征的卷积操作,在不降低模型的性能情况下,显著降低模型的参数量与计算量。局部空问注意力模块利用空洞卷积提供较大的感受野来提取丰富的语义信息,有利于雨滴的检测与去除。在多个公开的数据集上进行对比与测试,证明模型去雨效果较好且速度较快。
关键词:单幅图像去雨;分组卷积;空洞卷积;空问注意力;残差学习
中图分类号:TP18 文献标识码:A
文章编号:1009-3044(2020)20-0028-04
Single Image De-Rain Method Based on Croup Convolution and Spatial Attention Mechanism
TAN Tai-zhe, BO Liu
(School of Computers, Guangdong University of Technology, Guangzhou 510000, China)
Abstract : In order to hetter apply the image de-raining algorithm to outdoor monitoring and mobile terminals , a lightweight convolu-tional neural network based on the local spatial attenticm mechanism is proposed. Taking the image to rain as residual learning isnot only beneficial for removing raindrops from the raining image, but also for training and optimization of the model. depthi~'iseconvolution. as a convolution operation for extracting features, significantly reduces the amount of parameters and calculations ofthe model without reducing the performance of the model. The local spatial attention module uses dilate convolution to provide alarger receptive fielcl to extract rich semantic information. which is conducive to the detection and removal of raindrops. Compari-son and testing on multiple public data sets prove that the model has better rain removal effect and faster speed.
Key words : single image derain;group convolution; dilate convolution; spatial attention: residual leaming
户外视频监控、无人驾驶、白然场景下的文本识别等基于计算机视觉算法的应用容易受到天气的影响,由于现有的算法设计以及训练模型所使用的數据集都基于天气情况较好这一假设,在如下雨、下雪、雾天等情况下算法的性能会有所降低。另一方面,随着手机等终端设备的普及,雨天拍摄的照片由于雨痕、雨滴、雨雾的存在影响拍照的主体,影响图像的美感,因此对基于视觉算法的应用而言去雨算法可以作为算法应用的预处理,提升算法在不良天下的性能,提升算法的鲁棒性。对人眼视觉感知而言,图像去雨可以将影响拍照主题的雨滴去除掉,恢复主体的信息。图像去雨可以分为单幅图像去雨和视频图像去雨,视频图像去雨因为有连续图像信息可以使用,相较于单幅图像难度较低,所以视频的去雨的研究较为成熟。但视频图像相较于单幅图像更难获取,视频图像去雨的算法也无法应用在单幅图像去雨的需求中、而单幅图像去雨由于不需要连续多帧图像的信息,使用场景更加丰富,既可以替代现有的视频图像去雨算法,又更符合只有单幅图像去雨的现实需求。近年来深度学习在高级视觉任务如识别、检测、分割中取得了显著的效果,针对底层视觉任如超分辨率、去噪、去模糊、去雨的卷积神经网络也不断被提出,基于深度学习的单幅图像去雨算法在近几年也得到了很好的发展,涌现了大量模型与数据集。图像去雨算法主要应用在计算资源有限的户外设备或手机等移动终端上,而现有的基于深度学习的去雨算法还未考虑模型的计算复杂度,导致已有的模型很难应用在实际场景中。
1相关工作
图像去雨分为基于视频的图像去雨和基于单幅图像的去雨,视频图像去雨可以利用前后帧的空间与运动信息来检测去除雨滴,相较于单幅图像去雨更加容易,因此很早便有人研究。最早是Garg和Nayar[1][2]通过给雨滴建模来检测并消除雨滴,使用雨滴的光学模型和动力学模型来检测有雨区域,对每个像素沿着时间轴方向进行K-means聚类,背景和雨滴各为一类,检测出背景和雨滴。Hase[3]用多帧的空间信息对每个像素点沿着时间方向进行均值滤波,来消除雨滴对图像的影响。J.Bossu[4]利用雨滴的大小、形状、雨痕方向来去雨。J.Liu[5]使用循环神经网络检测视频图像中的雨滴并且能很好地保留图像的细节。单幅图像去雨由于所获得的图像信息有限,雨滴的检测与去除难度较大,相较于视频图像去雨研究时间较晚。Zheng X[6]使用引导滤波来去除雨痕;假设雨滴的形状(椭圆)和雨痕的方向(垂直)来检测雨滴,使用非均值滤波去除雨痕。深度学习的出现极大地促进了单幅图像算法的研究,基于卷积神经网络的单幅图像去雨取得了较好的结果。Zhang H[7]提出带雨滴大小信息的数据集,融入雨滴大小信息来更好的修复不同大小雨情况下的雨滴图。Li X[8]使用循环神经网络将去雨分为多个阶段级联去雨。Li G[9]使用非局部神经网络去雨,能够很有效地保留原图的细节。 2本文涉及方法
2.1分组卷积 传统的卷积神经网络通过选择一定大小的卷积核进行卷积操作,全连接层是一种特殊的卷积操作,卷积核的大小为输入层的大小,由于图像尺寸大小往往很大,导致全连接层的计算量和参数量都很大,很难应用在计算资源有限的环境中。人对图像的视觉感知是由底层的局部特征到高层的语义特征,高层语义特征可以由底层的局部特征融合得到,卷积神经网络通常使用尺寸大小为3*3或5*5,通道数为输入特征图通道数的卷积核来提取局部空间特征,使用多层卷积层来融合底层特征提取高层特征,每个通道的特征图共享相同的卷积核参数,这种通过使用小卷积核与权值共享的方式既降低了模型的计算量与参数量,又能很好地符合人眼的视觉模型。虽然每次卷积提取特征只利用了输入特征图的空间局部信息,但由于卷积层的输入输出特征图的通道数过大,导致卷积操作计算量仍然过大。类似的可以选择输入特征图的部分通道作为卷积的输入,将输入特征图的通道数进行分组操作,极限情况下,每个组单独作为卷积核的输入进行卷积操作,这种分组卷积由于输入特征图被划分为多个组后分别单独进行卷积操作,相较于传统未分组的卷积操作,组间的信息未能得到有效的融合,导致模型的表达能力有限。为了融合组内信息,使用1*1大小、通道数为特征图大小的卷积进行通道融合,使用的是1*1大小的卷积可以利用较少的参数与计算达到组内信息融合的目的。分組卷积和点卷积充分考虑了空间和通道对卷积计算量与参数量的影响,相对于传统的卷积更加高效。
2.2局部空间注意力机制
在认知科学中,由于输入信息过于丰富,人类会选择性的关注所有信息中最重要的一部分。在人类视网膜不同位置具有不同程度的信息处理能力,在中央凹部位具有最强的敏锐度。为了合理利用有限的人眼视觉处理资源,人眼需要选择视觉区域中和任务相关的部分重点处理。在图像去雨任务中,根据像素所处的空间信息有助于判断该像素是否为雨滴,并且能利用上下文信息来指导去除雨滴,还原图像。使用注意力机制会增加模型的计算量与参数量,权衡了模型的效果和复杂度后,本文使用带空洞的分组卷积来提取空间局部注意力信息,既能增大空间注意力的范围便于检测雨滴并修复图像,也不会带来太大的参数与计算量。
2.3残差学习
带雨滴的图可以被看作是无雨滴的图加上雨滴图,那么图像去雨的目的就是求得雨滴图,再用带雨滴的图减去雨滴图就可以达到雨滴检测与去除的目的。雨滴图是有雨图和无雨图的残差,通过残差学习即可求得雨滴图,另外残差学习早以成为卷积神经网络基础结构,通过残差学习求得雨滴图既能解决检测雨滴修复图像的目的,又能促进模型的训练与优化,进一步提升模型的性能。
3模型与实验
3.1本文所提出模型
结合上述所提到相关方法,本文设计的模型以深度可分离卷积作为模型的卷积操作,融合局部空间注意力机制提升模型的效果,最后利用残差学习来检测并去除雨滴。如图l所示,模型的基础block由深度可分离卷积与局部空间注意力模块组成,输入特征F经过Depthwise conv得到F',F'经过Pointwiseconv得到F",F"经过LSAM的会得到与F"同样维度的Spatialattention,然后将Spatial attention与F"中元素对应相乘,得到block的输出M。如图2所示,LSAM的输入特征图首先依此经过批量归一化、激活函数relu和带空洞卷积的DepthWise conv再经过批量归一化得到特征图d,d中的每个元素进行e-d*d运算,这样得到值域为0到l的Spatial attention。LSAM所使用的空洞卷积核大小为3*3,空洞率为3,这样得到的特征图感受野较大而计算量比传统3*3卷积核计算量更少,另外还能得到丰富的语义信息用于雨滴的检测与去除。如图3所示,最后多个block级联,输出雨滴图,再由原图减去雨滴图即可得到无雨图。
3.2数据集
实验中使用DIDMDN[7]、DDN[10]、100L[11]、来衡量模型效果。DDN数据集有1000张无雨的原图,每张原图对应生成了14张不同大小和方向的有雨图DIDMDN数据集有4000张无雨原图,每张原图对应生成大雨、中雨、小雨三张有雨图,图片标签提供了合成雨滴的大小信息,本实验雨滴的大小信息不参与模型的训练。在人工合成的数据上上使用sslm和psnr有参指标作为图像去雨的客观评价,另外由于人眼对图像在YCbCr颜色空间中的Y通道最为敏感,因此在该颜色空间的Y通道下进行模型评价的计算。对于真实有雨图的去雨效果,由于没有与之对应参考的无雨图,只能通过视觉主观进行评价。
3.3模型训练与优化
使用L1loss作为模型学习的损失函数,学习有雨图与无雨图之间像数值的差异。训练时从图片中随机裁剪长宽都为224大小的图片作为训练,并对图像使用随机翻转来增加数据量,批处理大小为64,使用adam优化器,weight deCay 0.0001,初始学习率为0.0005,每个epoch训练loss降低且学习率大于0.0001时,学习率减少百分之十,模型速度测试环境CPU为i7-9700F,GPU为GTX 1060。
4实验结果
如表1所示,本文提卅的方法在公开数据集DDN-Data、RainIOOL相较于其他方法有明显效果提升,在DIDMDN-Data数据集中与DID-MDN数据集只有较小的差距。
如表2所示,比较三种不同结构的block对模型效果带来的影响。不使用局部空间注意力模块,局部空间注意力模块中的卷积操作使用9*9的分组卷积,以及局部空间注意力模块使用3*3空洞率为3的空洞卷积。使用局部注意力模块能提高模型的效果,且使用带空洞的卷积扩大感受野能达到和使用9*9大卷积核同样的效果。如表3所示,本文所提出的模型在速度上较其他方法在CPU与GPU上均有明显提高。由图四中的结果图可知,模型的去雨效果在人眼视觉上也能取得较好的结果。 5结束语
本文使用轻量化卷积结构作为特征提取的基本操作可以降低模型的计算量,使用局部空间注意力能进一步地提高模型的性能,基于残差学习的图像去雨模型既符合雨滴图和无雨图之间的关系,又便于模型的优化。本文提出的模型在有参评价指标PSNR和SSIM上均能取得较好的效果,且模型计算量低,图像去雨后的图像在人眼看来去雨效果明显。
参考文献:
[1] Garg K,Navar S K.Photorealistic rendering of rain streaks[J].ACM Transactions on Graphics, 2006,25(3):996-1002.
[2] Garg K,Nayar S K.Vision and rain[J].lntemational Journal ofComputer Vision. 2007.75(1):3-27.
[3] Hase H,Miyake K,Yoneda M.Real-time snowfall noise elimi-nation[C]/ICIP Proc 1999 Int Conf. IEEE2.1999:406-409.
[4] Bossu J,Hautiere N,Tarel J P.Rain or snow detection in imagesequences through use of a histogram of orientation of streaks[J]. International Journal of Computer Vision, 2011.93(3): 348-367.
[5]J.Liu, W. Yang,S.Yang, and Z.Guo. Erase or fill? deepjoint recurrent rain removal and reconstruction in videos[C]. inProc. lEEE Int'I Conf. Computer Vision and Pattem Recogni-tion. 2018:3233 3242.
[6] Zheng X H.Liao Y H.Cuo W,et aI.Single-image-based rainand snow removal using multi-guided filter[J].Neural Informa-tion Processing,2013.
[7]H.Zhang and V.M.Patel. DensiW-aware single image derain-ing using a multi-stream dense network[C]. in Proc. IEEEInt'I Conf. C.omputer Vision and Pattem Recognition, 2018.
[8] Li X,Wu J L,Lin Z C.et aI.Recurrent squeeze-and-excitationcontext aggregation net for singz;le image deraining[J].ComputerVision - ECCV 2018,2018: 262-277.
[9] G. Li, X. He. W. Zhang. H. Chang, L. Dong, and L. Lin. Non-locally enhanced encoder-decoder network for single imagede-raining[C]. in ACM Trans. Multimedia. ACM, 2018, pp.1056-1064.
[10] Xueyang Fu, Jiabin Huang, Delu Zeng, Yue Huang, XinghaoDing, and John Paisley. Removing Rain from Single Imagesvia a Deep Detail Nenvork[Cl. In Proceedings of the IEEEConference on Computer Vision and Pattern Recognition.2017:1715 - 1723.
[11] Wenhan Yang, Robby T. Tan, Jiashi Feng, Jiaying Liu, Zong-ming Guo, and Shuicheng Yan.. Deep Joint Rain Detectionand Removal from a Single Image[C]. In Proceedings of theIEEE Conference on Computer Vision and Pattern Recognition,2017.
[12] Yu Luo, Yong Xu, and Hui Ji. 2015. Removing Rain from aSingle Image via Discriminative Sparse Coding[C]. In IEEE In-temational Conference on Cc)mputer Vision. 3397-3405.
[13] Yu Li, Robhy T. Tan, Xiaojie Guo, Jiangbo Lu, and MichaelS. Brown. Rain Streak Removal Using Layer PriorsLCl. In Pro-ceedings of the IEEE conference on computer vision and pat-tern recognition,2016:2736-2744.
收稿日期:2020-03-25
作者簡介:谭台哲(1970—),男,山东人,副教授,主要研究方向为计算机视觉、图像处理。
转载注明来源:https://www.xzbu.com/8/view-15299974.htm