基于SRGAN改进的と肆惩枷癯分辨率重构算法研究
来源:用户上传
作者:于国庆 杨东瀚 睢丙东 李宏哲
摘要:本文研究基于SRGAN改进的人脸超分辨率重构算法,在生成器网络的残差单元中加入了自注意力卷积模块,以提高网络训练中高频特征提取能力,在判别器网络中引入PatchGAN思想,强化判别器网络对高频特征细节的判别能力,关注更多的局部纹理细节,提高重构人脸图像质量。同时将WN层替换原有GAN中的BN层,在保证网络训练速度的前提下提高网络模型的稳定性并恢复出更高质量的人脸图像。
关键词:SRGAN;自注意力卷积模块;PatchGAN[3]
人脸信息因其具有唯一性、普遍性等特点,在视频侦查、行动路径追踪以及身份信息对比等方面有着重要的研究意义。但是对于一些特殊环境如天气、光照等造成的人脸图像模糊等现象,影响因素导致后期对人员信息确认的影响,本文通过结合深度学习理论与方法,对低分辨率人脸图像的超分辨率重构提出一种新的优化算法。
1生成对抗网络的人脸图像超分辨率重构
SRGAN的提出是基于残差网络的图像超分辨率重构(SRResnet)的基础上加入了判别网络D,SRGAN由生成网络和判别网络组成,将低分辨率图像作为生成网络的输入,输出虚假的超分辨率图像,然后将虚假的超分辨率和原始高分辨率图像作判别网络的为输入、输出判别结果,生成网络和判别网络互相对抗,当判别网络无法区分高分辨率图像和虚假超分辨率图像时,SRGAN就完成了重构超分辨图像任务。
2改进的人脸超分辨率重构模型
2.1生成器网络的改进
将SA卷积模块加入生成器网络的残差单元中,面对人脸重构领域对于超高的人脸图像细节纹理的特征学习要求,有选择性地关注人脸局部区域的重点信息,改善重构出人脸图像在获取高感知质量的同时存在的局部失真和伪影问题。同时网络模型中所有BN都由WN层代替,针对传统SRGAN模型中BN层虽然能解决网络训练过程中训练数据分布的标准化,但是,在执行重构人脸图像的任务中,BN层则是一把双刃剑,BN层操作会破坏提取的人脸图像特征映射分布,发生人脸图像色彩会被归一化、原本的对比度信息改变等问题。改进的生成网络模型如图1所示:
2.2改进的判别器网络
在判别器网络部分,随着生成网络的对人脸图像细节纹理部分学习能力的提升,判别网络也需要同时增强对细节差异的判别能力,进一步改进重构效果。故引入的PatchGAN的思想,且仍然选择用WN层替换BN层操作。基于PatchGAN算法改进的判别器网络与传统GAN网络的判别器相比,并不是将输入映射为一个实数,而是映射为一个矩阵X的形式,矩阵中的每个元素对应输入N×N大小的Patch样本块为真的概率值,最后通过对由概率值组成的概率矩阵求均值得到判别器的最终输出。改进的判别器网络模型如图2所示:
3损失函数构建
损失函数的定义对于GAN网络的性能优劣不言而喻,SRGAN的特点之一就是引进了损失感知函数,由此提升了超分辨率之后的细节信息。SRGAN将对抗损失作为优化目标,并且用VGG特征图谱的损失函数取代了以MSE为基础的内容损失,整体的感知损失公式如式1所示,为内容损失和对抗损失成分的加权和。
lSR=lSRX内容损失+10-3lSRGen对抗损失(1)
式中,lSRX为内容损失,10-3lSRGen表示对抗损失。
4仿真实验和结果分析
4.1实验环境
本文的基于SRGAN改进的人脸图像超分辨率重构算法的实验环境如表1所示:
4.2实验数据集处理
本文实验的数据集选自拥有202599张人脸图像的CelebA(CelebFacesAttributes)公开数据集。在全部数据集中选择出20000张人脸图像,前19500张做训练集使用(图像编号00001~019500),剩下的500张做测试集使用(图像编号019501~020000)。
4.3训练过程与参数设置
本文实验模型的高分辨率图像采用128*128尺寸大小的图像块,低分辨率人脸图像32*32尺寸大小的图像块,采用OpenCV的双三次插值算法进行下采样预处理得到,采样因子r=4,每批次送入模型中训练的人脸图像为16张,生成网络中残差模块的残差单元的个数仍为16个,选用Adam优化器最小化损失函数,参数设置为β1=0.9。首先确定对SRResnet网络的参数,训练学习率为1e3,更新迭代次数为105。在训练SRGAN网络模型时,将预训练基于MSE损失函数的SRResnet模型的权重初始化SRGAN生成器的权重,避免训练SRGAN时出现局部最优的情况。对基于SRGAN改进的人脸超分辨率重构模型训练时,初始的学习率设置为1e3、1e4,更新迭代次数为205。重复训练生成器网络和判别器网络,直至判别器无法判断重构出图像是否为真伪,训练结束。
4.4主客观评价标准
主观评价主要是通过人眼观测来判断图像的质量。评价人员使用五级损伤评分尺度,对给定的图像进行打分,然后取平均分(MeanOpinionScore,MOS)。主观评价可以真实反映图像的视觉效果,而且没有技术障碍。
客观评价是指利用一定的数学公式定量的分析重建图像的质量。虽然客观评价计算过程复杂,但比主观评价说服力更强。主要有峰值信噪比(PeakSignaltoNoiseRatio,PSNR)、结构相似性(StructuralSimilarityIndex,SSIM)以及特征相似度(FeatureSimilarityIndex,FSIM)等方法,其中PSNR和SSIM是超分辨率重中常用的两种客观评价指标。
转载注明来源:https://www.xzbu.com/1/view-15424551.htm