基于改进的注意力机制与纹理结构分层的生成对抗网络图像修复方法
来源:用户上传
作者:张剑飞 张洒
摘 要:构建一个以U-Net为基础的模型,通过引入注意力机制与纹理结构分层相融合的图像修复方法,在生成抗网络模型基础上,引入通道注意力并结合多尺度卷积模块,将图像下采样提取特征分为纹理特征与结构特征,采用改进的Res2Net 残差块并重构损失函数.实验结果表明,修复后图像的纹理和结构更统一,修复图像与原始图像在高级语义上更加接近.
关键词:图像修复;注意力机制;纹理结构;生成对抗网络
[ 中图分类号 ]TP391.4 [ 文献标志码 ] A
A Improved Generation Adversarial Network Image
Inpainting Method based on Attention Mechanism and
Texture Structure Stratification
ZHANG Jianfei,ZHANG Sa
(School of Computer &Information Engineering,Heilongjiang University of Science & Technology,
Harbin 150022,China)
Abstract:A model based on U-net is constructed,by introducing an image inpainting method that integrates attention mechanism and texture structure layering,on the basis of generating adversarial network model,channel attention is introduced and combined with a multi-scale convolution module to divide the image down sampling extraction features into texture features and structural features.The improved Res2Net residual block is adopted and the loss function is reconstructed.The experimental results show that the texture and structure of the inpainted image are more uniform,and the inpainted image is closer to the original image in high-level semantics.
Key words:image inpainting;attention mechanism;texture feature;generating adversarial network
图像修复是利用破损图像和训练图像,获取数据中的结构纹理信息,将破损图像进行填充.近年来被广泛应用于诸多专业技术领域,已成为智能图像处理、神经网络和计算机视觉等方面的研究热点.传统图像修复方法主要为基于纹理和基于样本块,经典模型有基于偏微分方程的BSCB模型,填充的Criminisi算法模型等.近年来,深度学习的图像修复方法取得了许多突破性进展,Goodfollow的上下文自动编码器(Content Encoder,CE)[1]首次将生成对抗网络[2]( Generative Adversarial Networks,GAN) 应用于图像修复,对图像上下文语义信息做出预测,但修复的图像存在明显伪影.为了更好地获取高级语义信息,Olaf Ranneberger [3]等提出了具有跨通道的U型结构(U-Net),其结构完全对称,采用叠加操作,有跳跃连接等特点,被广泛应用于计算机视觉中.Yan[4]等在 U-Net 的解码器中添加了一个转移连接层,即网络为Shift-Net,有效地结合图像中相隔较远的特征进行图像修复,但当破损孔洞过大时,存在细节纹理不清晰的问题.针对目前图像修复方法中高级语义不丰富、边缘纹理细节缺失和图像的整体结构相似度不足的问题,本文构建了一个以U-Net为基础的模型,通过引入注意力机制与纹理结构分层相融合的图像修复方法,获得具有高级语义和清晰纹理的修复图像.
1 基于改进的注意力机制与纹理结构分层融合的生成对抗网络图像修复方法
1.1 网络结构
基于改进的注意力机制与纹理结构分层融合的生成对抗网络图像修复方法,其网络结构针对图像修复方法中存在的问题,在生成对抗模型基础上,着重突出图像主要特征,添加通道注意力;为得到丰富的特征种类和数量,采用多尺度卷积,引入移位连接层;为在训练时加强对模型的约束,采用重建损失、指导损失、风格损失和WGAN-GP的对抗损失、感知损失函数联合对生成图像进行约束;为进一步提高图像的纹理边缘细节和图像的整体结构相似度,加快模型的收敛速度,将图像下采样提取特征分为纹理特征与结构特征,将浅层卷积得到的特征融合成新的纹理特征fte,深层卷积得到的特征融合成新的结构特征fst,并采用改进的Res2Net残差块.网络模型主要的结构包括预训练模块、生成网络、鉴别网络和纹理结构分层模块.
1.2 改进的SE Block模块
在原始的SE Block中,为解决当函数梯度为零,网络无法反向传播的问题,将激活函数从ReLu变为Leaky ReLu;为获得更多输入图像卷积下的不同尺度丰富特征,对输入图像进行多尺度并联和多尺度孔洞卷积并联,然后将多尺度并联和多尺度孔洞卷积并联得到的特征图串联.
nlc202211251443
1.3 纹理结构分层
Hongyu Liu[5]等提出的重新思考图像修复过程中的一个观点――认为越浅的卷积代表图像的纹理结构,越深的卷积越能体现图像的高级信息即图像结构信息.利用这种思想,将图像的纹理信息与结构信息,通过卷积将其分开来,使图像保持原有的纹理结构不会被越来越深的卷积钝化,失去其原有的特征.图像的细节与主体特征进行保留,使结果中结构和纹理保持一致.图像进行特征提取过程中,浅层卷积得到的特征分别为f1,f2和f3,深层卷积得到的特征分别为f4,f5和f6.将浅层卷积得到的特征融合成新的纹理特征fte,深层卷积得到的特征融合成新的结构特征fst,这样就将图像的纹理与结构特征分开.
1.4 改进残差块
为了加强整张图像中距离较远的特征信息之间的联系,扩大卷积感受野,获得更多图像整体信息,在网络结构中引入改进的残差块.(1)相对于原始Res2Net模型,x2组卷积以后的特征没有通过跨通道跟x3组的特征进行融合,主要原因是原始模型中经过3×3卷积,再对x3的通道特征进行串联后,又经过3×3卷积,其实际上就是一个5×5卷积,但是这样的尺度太小会导致图像不太平滑,图像中的噪声也较为明显.因此,就对x3组的图像先经过3×3的卷积,为扩大感受野在进行步长为2的3×3的空洞卷积,此时3×3的卷积串行一个步长为2的3×3的空洞卷积实际上等于一个7×7的卷积,目的是扩大感受野,使图像边缘更加平滑,图像中的噪声更少.(2)将原来x3组得到的特征先跟x4融合,再进行3×3的卷积,变成原来x3组得到的特征跟x4进行3×3的卷积后的特征进行融合,这样可以尽可能多得到图像的主要特征,减少无用特征.(3)在图像进行1×1的反卷积后对得到的图像加入通道注意力,均衡各个通道之间的权重,确保图像突出主要特征.通过改进,不仅保留了输入特征的独特性,扩大了感受野,增加了不同尺寸卷积下获得的特征,同时对残差块也进行了注意力机制中通道权重的调整,有助改善生成图像在训练时梯度爆炸问题.
1.5 重构损失函数
为了使修复图像语义更合理,纹理细节更清晰,加入重建损失、指导损失、风格损失、对抗损失、感知损失,最终将多种损失函数结合起来作为整体损失函数,定义为:
[Ltotal=λ1L1+λadvLadv+λgLg+λstyLstyle+λperLper .] (1)
式(1)中,[λ1]是重建损失权重,[λadv]是对抗损失权重,[λg]是指导损失权重,[λsty]风格损失权重,[λper]感知损失函数权重.
2 实验结果与分析
在Celeb A人脸数据集和Places365日常场景数据集上对网络进行训练与验证.模拟受损图像时,采用不规则掩码,添加与现实情况较为接近的随机掩码.对于图像的评价,分为视觉评估和客观评估.客观评估有PSNR,SSIM两个评价指标.
2.1 实验环境及数据项处理
搭建实验环境,硬件选用中央处理器Intel i7 10th Gen,显卡GPU GeForce 1650Ti,内存4 G,硬盘512 G,操作系统Windows10.运行使用Pycharm,使用Pytorch+Tensflow1.4作为支撑框架,搭配Python的多个库进行实验验证与分析.使用Adam进行参数优化,在优化算法的参数设定上,一阶矩阵的衰减指数[ρ1=0.9],一阶矩阵的衰减指数[ρ2=0.999],生成器G的学习率为0.001,鉴别器D的学习率为0.005,批处理参数batch-size=4,输入数据完成前向计算及反向传播的epoch=50,参数迭代次数iteration=200.
由于输入图像可能跟网络模型处理图像大小要求不相符,所以需要对输入图像进行裁剪.设定输入图像大小256×256,像素范围是[0,255],通道数为3.预处理根据输入图像的宽,截成一个以宽为边长的正方形,然后对其长宽进行裁剪得到符合模型输入标准的图像.标准图像紧接着用中值滤波器去噪,减小数字图像在传输过程中常受到设备与外噪声干扰,这样就完成了对图像简单的预处理.
2.2 评价指标
图像修复处理过程中,评价图像修复质量通常用两个指标,峰值信噪比(Peak Signal to Noise Ratio,PSNR)[6]和结构相似性[7](Structural Similarity,SSIM).峰值信噪比通常用于描述图像压缩后各种形式的信号质量属性,PSNR值越大,说明图像信号质量越高.PSNR的计算公式为:
[PSNR=10 logi2maxMSE=20 log(imaxMSE)]. (2)
式(2)中,[imax]是D像点颜色的最大值.一般用8位表示,就是255.每个采样点用n位线性脉冲编码调制表示,[imax]就是MSE,为均方差.两个m×n的单色图像I,K,则MSE可以表示为:
[MSE=1mni=0m?1j=0n?1Ii,j?K(i,j)2] . (3)
nlc202211251443
式(3)中,(m,n)是损失区域的位置坐标,[K(i,j)]是原来受损图像已有信息,[Ii,j]是修复后受损图像像素的任一点.(3)式是将修复图像减去原图像差的平方,看两个图像之间的差异.MSE[8]与PSNR之间,MSE越小,则PSNR越大,说明图像越接近原始图像,图像特征越丰富.
结构相似性是一种衡量两幅图像相似度的指标,对修复图像和原始图像进行结构相似性的判断.结构相似性的范围为[0,1],当两张图像一模一样时,SSIM的值为1,即当SSIM值越大图像相似性越高.SSIM主要通过亮度、对比度和结构方面对比.计算过程为:
将图像的平均灰度作为亮度测量估计:[μx=1H×Mi=1Hj=1MX(i,j)] . (4)
所以,两幅图的亮度对比函数为:[lx,y=2μxμy+C1μ2x+μ2y+C1] . (5)
⑼枷竦谋曜疾钭魑对比度测量估计:[σX=(1H+W?1i=1Hj=1MXi,j?μX2)12] . (6)
于是,两幅图像的对比度对比函数:[x,y=2σxσy+C2σ2x+σ2y+C2] . (7)
结构对比函数:[x,y=σxy+C3σxσy+C3 ]. (8)
最终,三个对比函数构成SSIM:
[SSIMx,y=flx,y,cx,y,sx,y=[lx,y]αcx,yβ[sx,y]γ] .
即 [SSIMx,y=(2μxμy+c1)(2σxy+c2)(μ2x+μ2y+c1)(σ2x+σ2y+c2) ]. (9)
式(5)(6)(7)(8)(9)中,x是真实图像,y是修复图像,[μx]是真实图像的均值,[μy]是修复图像的标准差,[σx]是真实图像的标准差,[σy]是修复图像的标准差,[σ2x]是真实图像的方差,[σ2y]是修复图像的方差.[c1],[c2]为常数,为了避免分母为零的情况,[c1],[c2]通常取值为0.012,0.032.
2.3 实验结果对比
采用视觉对比与量化对比.使用两种不同的数据集Celeb A和Places365与中心掩码结合模拟受损图像,通过对原始图像(Original Image,OI)和破损图像(Damaged image,DI),将采用上下文自动编码的方法(Context Encoders,CE)、Shift-Net方法和本文提出方法得到的修复图像进行对比,挑选有代表性的实验结果进行对比说明,实验结果见图1.
由图1可以看到,CE方法使用上下文自动编码器生成对抗网络,能够将人脸的五官信息修复出来,但对于大面积缺失图像,修复结果容易出现伪影,不能产生复杂的纹理结构,图像在有些地方有严重失真现象,无法修复高级语义信息.(图1-1c)修复的图像,在鼻子处有较为明显的模糊,无法修复出具有高级语义信息、与右侧对称的法令纹,修复后左侧脸颊上没有修复出.(图1-2c)修复的图像,修复的左侧瞳孔颜色为蓝色,与右侧为缺损区域瞳孔颜色不一致,左侧眼睛,山根处有些模糊.(图1-3c)修复的图像在原遮挡区域出现了明显的模糊,鼻子处非常模糊,看不到完整的鼻子结构,眼镜镜框在修复后下侧没有了边缘轮廓.
nlc202211251443
Shift-Net方法采用了移位连接层,通过跳跃连接,使特征图具有良好的全局性,修复图像看起来更加真实,但是对于细节处理过于简单,局部有小范围的伪影,图像的纹理结构不一致.(图1-1d)修复的图像,鼻子鼻头处有小部分伪影,其他修复基本看不出不合理处.(图1-2d)修复的图像,整体五官修复还可以,但是仔细观察修复出来的左眼与右眼大小不一样.(图1-3d)修偷耐枷瘢修复出的鼻子和眼镜框的下侧依旧有伪影.
本文提出的方法,可以基本修复人的五官,违和感程度较轻,修复区域的伪影很少,相比CE方法修复的图像纹理更加平滑,相比于Shift-Net方法修复的具有更多的细节特征,且修复后图像整体与原图更接近,能保持图像的高级语义基本一致.(图1-1e)修复的图像,整体图像符合人眼视觉,与原图在嘴型方面不同,牙齿颜色有差异,但这些都是通过训练网络模型依据自己经验给出多样化的答案,但如果没有原图,也不会觉得修复图像异样.(图1-2e)修复的图像,与原图较为相似.(图1-3e)修复的图像,符合人眼视觉,仅在鼻型和嘴型与原图略有不同,整体修复效果合理.
Celeb A测试集下,不同方法修复图像的修复质量评价指标见表1.通过PSNR和SSIM这两个图像质量的评价指标,对几种修复方法进行客观比较,判断图像修复的质量.选用Celeb A图像结合中心掩码模拟受损图像,选取其中的200张图像进行测试.可以看出本文方法与CE方法相比,PSNR提升了2.28,SSIM提升了0.022.本文方法与Shift-Net方法相比,PSNR提升了1.35,SSIM提升了0.015.以上数据表明,本文修复的图像与原始图像更为相似.综上在视觉与图像质量评价值,可以看出本章提出的CAMCC方法,在图像压缩后,图像的重建质量相对其他方法较好,原始图像与修复图像在结构相似度方面,相对其他方法较好.
不同数据集有不同的特点,为了验证模型的泛化性,在Places365数据集上对不同算法进行测试,修复结果图见2.
由图2可以看到,通过CE方法修复(图2-1c)(图2-2c)(图2-3c)的图像修复后,在原来的掩码处,都可以看到明显的正方形伪影.(图2-1c)修复的图像,房屋边缘结构非常平滑,不能体现建筑物的结构特征,修复区域与原区域的像素点颜色过渡非常跳跃,对比原图没有修复出左侧的窗户.(图2-2c)修复的图像,图像复原出了树干缺失部分和草地,但是填充的树干部分左右颜色不均衡,还有一些伪影.(图2-3c)修复的图像,阳台的隔断门,门框有一些弯曲,且原遮挡区域有明显的伪影.
通过Shift-Net方法修复的图像基本具有相对完整的纹理结构,但是在细节特征方面依旧有提升的空间.(图2-1d)修复的图像,基本修复除了房屋的外侧,结构上基本合理,但是没有比较高级的语义信息,没有根据右侧的窗户推测出左侧也应有窗户.(图2-2d)修复的图像相对于(图2-2c)来说伪影区域变小,对于草地修复部分伪影基本看不到.(图2-3d)修复的图像,对于阳台的隔断门的门框修复较为成功,但是在原遮挡处的阳台玻璃背景依旧有伪影,阳台上的被子未被注意到.
通过本文方法修复的结果很少出现伪影,结构也较为合理.(图2-1e)修复的图像,房屋的结构合理,左右窗户对称这样的高级语义信息都有所体现.对照原图可以发现,(图2-2e)较好地补全阳光下树木枝干及叶子的阴影,树干草地的像素填充与周围融为一体,不会有突兀感和不适感.(图2-3e)修复的图像,基本没有伪影的现象,细节处理的较好.
选用Places365图像结合中心掩码模拟破损图像,选取300张进行测试,得到的评价图像修复质量的结果如表2所示.由表2可以看出,本文方法与CE方法相比,PSNR提升了2.02,SSIM提升了0.023.本文方法与Shift-Net方法相比,PSNR提升了1.1,SSIM提升了0.011.
综上在视觉与图像质量评价值,可以看出本章提出的方法,在图像压缩后图像的重建质量,相对其他方法较好,原始图像与修复图像在结构相似度方面,相对其他方法较好,通过不同数据集对比,说明本文提出的方法有一定的泛化性.
3 结束语
本文以生成对抗网络为基础框架,生成器采用具有对称性的U-Net,引入通道注意力并结合多尺度卷积模块,将图像下采样提取特征分为纹理特征与结构特征,采用改进的Res2Net 残差块,并重构损失函数.对比实验结果表明,从图像恢复评价指标来看,在中心掩码遮挡下的Celeb A数据集中,本文提出的方法与Shift-Net方法相比,PSNR提升2.53,SSIM提升0.019;在随机掩码的遮挡下的Places365数据集上,本文提出的方法与Shift-Net方法相比相比,PSNR提升2.06,SSIM提升0.022.修复后图像的纹理和结构更统一,修复图像与原始图像在高级语义上更加接近.
参考文献
[1]Long J,Shelhamer E,et al.Fully convolutional networks for semantic segmentation[J].Computer Vision ECCV,2014,39: 640-651.
[2]Goodfollow I,Pouget-Abadie J,Mirza M,et al.Generative adverbial nets[C]//Advances in Neural Information Processing Systems.Montereal,Canada,2014:2672-2680.
[3]Ronneberger O,Fischer P,Brox T.U-net: Convolutional networks for biomedical image segmentation[C].International Conference on Medical image computing and computer-assisted intervention.Springer,Cham,2015: 234-241.
[4]YAN Z,LI X,LI M,et al.Shift-net: image inpainting via deep feature rearrangement[J].Computer Vision ECCV,2018,11218: 3-19.
[5]Liu H,Jiang B,Song Y,et al.Rethinking image inpainting via a mutual encoder-decoder with feature equalizations[C].European Conference on Computer Vision.Springer,Cham,2020: 725-741.
[6]褚江,陈强,杨曦晨.全参考图像质量评价综述[J].计算机应用研究,2014,31(01):13-22.
[7]贾亚飞,朱永利,王刘旺,等.基于VMD和多尺度熵的变压器内绝缘局部放电信号特征提取及分类[J].电工技术学报,2016,31(19):208-217.
[8]Johnson J,Alahi A,Fei-Fei L.Perceptual losses for real-time style transfer and super-resolution[C]//European conference on computer vision.Springer,Cham,2016: 694-711.
编辑:琳莉
nlc202211251443
转载注明来源:https://www.xzbu.com/1/view-15442552.htm