您好, 访客   登录/注册

基于深度卷积神经网络的相机模式识别

来源:用户上传      作者:

  摘要:人工智能开始走进生活方方面面,并已经开始应用于各行各业。随着深度卷积神经网络的快速发展,深度卷积网络结构的优化、完善,深度卷积神经网络在图像识别、检测领域发挥着重要的作用。目前,给定相机图像来识别手机品牌的相机模式识别在图像溯源领域引起了很大的关注。本文首先应用当前流行的深度卷积神经网络(GoogLeNet、ResNet、DenseNet)在多种手机相机模式上进行识别,同时针对三种深度卷积网络在网络结构上、识别效果上进行分析比较,我们的实验结果证明了深度卷积神经网络在相机模式识别上的高效性。
  关键词:深度学习  卷积神经网络  相机模式识别  图像识别
  一、相关工作
  第一,随着社会的快速发展,科技的快速进步,各种各样的智能手机品牌相继出现,当然附带而来的是大量的“山寨”手机,这些仿制品在外观上完全仿照真牌机,往往难以辨别真假,给社会带来了很大困扰。那么能不能通过手机相机拍摄的图片来推断手机型号呢,这就演变成了一种图片溯源问题。目前,给定相机图像来识别手机品牌的相机模式识别在图像溯源领域引起了很大的关注,即图像溯源,通过对图像特征进行分析来验证图像的真实性和原始性。在之前的研究中,对相机图像进行低层次的分析,如镜头的特性、传感器的特性和CFA模式[1,2].传统的相机模型识别需要计算模型(光响应非均匀性(PRNU)[3])的方法,以识别相机并评估模型和测试图像之间的统计相似性。Lukas等人[4]提出了使用传感器图像噪声作为特征,用以识别相机设备。Choi等人[5]使用镜头径向变形来识别相机来源,因为每一种型号相机都有一个独特的径向变形模式,因此可以用来识别相机品牌。Dirik等人[6]使用数字单镜头反光相机中的传感器灰尘图案作为设备识别的手段。
  第二,相机溯源即根据相机图片的特征来判断相片所属的来源,那么我们可以通过提取到图片的有效信息特征来进行图片识别,这可以看成是图像识别问题。近来,随着计算机性能的提升,存储设备的快速发展,深度学习已经成为目前很热门的研究领域,其中之一的计算机视觉在多种领域得到应用,比如:图像识别、图像目标检测、图像描述等。从最开始的Alex网络、VGG网络、GoogLeNet,直至殘差网络、DenseNet网络的出现,网络的深度越来越深,网络的特征提取能力越来强,从而在图像识别上的效果也快速提升。在计算机视觉领域,随着深度学习技术的快速发展,卷积神经网络(CNN)已经成为了最主流的方法,比如最近的GoogLenet,VGG-19,Incepetion等模型。CNN史上的一个里程碑事件是残差网络的出现,残差网络可以训练得到更深的CNN模型,从而获得更高的精确度。我们知道深度卷积神经网络具有很强的特征提取能力,我们完全可以利用深度卷积神经网络来提取有用的特征来识别相机设备。与传统的方法相比,深度神经网络无需手工提取特征,深度卷积网络具有很强的特征提取能力,能够提取到最优的特征来识别相机。Barofio和Tuama[首次提到使用卷积神经网络(CNN)来识别相机源,后面随着深度卷积神经网络(ResNet)的出现,提出了使用ResNet来识别相机源。基于之前的研究,本文应用当前流行的深度卷积神经网络(GoogLeNet、ResNet、DenseNet)在多种手机相机模式上进行识别,同时针对两种网络在识别准确率、速度上进行分析比较。
  二、卷积神经网络应用于相机模式识别
  第一,卷积神经网络经过了快速的发展,目前,在图像识别领域已经达很高的准确率。文中主要应用GoogLeNet、ReseNet以及DenseNet来对相机相片进行特征提取,从而获得有效的信息特征来判断图片来源,即根据图识别相机。GoogLeNet是2014年Christian Szegedy等人[7]提出的一种全新的深度卷积网络,在ILSVRC14比赛中获得冠军的一个模型。GoogLeNet是一个22层的深度卷积网络。之前的AlexNet、VGG网络等结构都是通过增大网络的层数来得到更好的训练效果,但是层数的增加会带来很多的负作用,比如过拟合、梯度消失、梯度爆炸等问题。而GoogLeNet主要使用1x1大小的卷积进行升降维,从而大大的降低了网络的复杂度;再是多个尺寸上进行卷积再融合。GoogLeNet从特征多样性的角度研究了卷积神经网络,GoogLeNet的特征多样性是基于一种并行的使用多个不同尺的卷积核的单元来完成的。这样的结构能够高效的利用计算资源,在相同的计算量下能够提取到更多的特征,从而提升效果。
  第二,残差网络(ReseNet)是微软亚洲研究院的何恺明、孙剑等人[8]在2015年提出来的一种深层次的卷积神经网络,能够有效的解决了网络的退化问题,残差网络是由一些列的残差块组成的。一个残差块包括直接映射部分和残差部分。残差网络的出现给计算视觉领域带来了巨大的影响力,我们解决了之前的难题,网络的退化问题(随着网络的加深而效果衰退),利用这样的结构我们能够训练上千层的网络。我们知道网络越深我们获得语义信息越丰富,对于相机溯源来说,我们就可以有效的利用残差网络提取到的高效特征来进行识别。以便我们能够找到相片的来源。常用的残差网络的层数常为34、50以及101层,层数越多对Gpu的要求越高。ResNet是一种革命性的网络结构,不在局限于InceptionV2、InceptionV3的简单改进,而是从一种全新的残差的角度来提升训练效果。后续的DenseNets和Dual path网络都是在此基础上进行衍生,可以说残差网络开启了图像识别的一个全新的发展方向。文章中由于我们受计算机配置以及存储设备的限制,我们实验中采取的是34层的网络。这足以提取到有效的信息帮助进行识别。从我们能够有效的利用图片识别图片源。
  第三,DenseNet是黄高等人[9]提出来的一种高效卷积神经网络。它的思路类似于残差网络,但是它建立的是前面所有层与后面层的密集连接。DenseNet的后面层融合了前面的所有层的信息,它的一大特色就是通过在通道上的连接来实现特征重用。相比残差网络,DenseNet提出了一个更激进的密集连接机制,其网络结构主要由DenseBlock和Transition组成,在DenseBlock中,各个特征层特征图大小一致,可以在通道维度上进行连接,对于Transition层它是连接两个相邻的DenseBlock,并且降低特征图的大小。其每个层都会接受其前面所有层作为其额外的输入,对于一个L层的网络DenseNet共包含个连接,与残差网络相比这是一种密集连接。ResNet直接通过Sunmmation操作将特征加起来,一定程度上阻碍了网络中信息流;而DenseNet通过Concatenate操作来结合特征层,这可以使得特征重用,并且每一层都与其它层有关系,都有信息的融合,这种方式使得信息最大化。综合来说,DenseNet中的Dense connectivity就是一种升级版的Shortcut connection,提升网络的鲁棒性并且可以加快学习速度。这些特点使得DenseNet在更少的参数和计算成本的情况下实现比ReseNet更优的性能。因此我们可以利用DenseNet来提取有效的特征,这是在效果上优于残差网络的深度卷积神经网络。   三、实验分析
  第一,在实验中我们搜集了五种品牌手机的图片,这些图片来源于不同手机拍摄的自然图片,图片有多种光照下、多种清晰度图片。五种手机分别随机拍摄了1000张图片,总共5000张图片来进行试验。其中训练数据75%,25%用来进行测试。我们利用深度卷积网络来对对相机图片进行溯源,可以认为是一种分类问题,其中每一张照片都带有特属标签。首先在残差网络上进行训练,我们使用的34层的残差网络进行训练,首先将图片Resize成适合残差网络的输入尺寸(256X256)。最后同样的数据在DenseNet进行实验。我们使用的服务器为NIVDIA Geforce 1080 GPU,采用深度学习框架Tensorflow来搭建网络。我们分别使用75%的数据在GoogLeNet、ReseNet、DenseNet上进行训练,并利用训练好的模型在测试集上进行测试,比较试验结果。在训练前我们対训练数据进行数据预处理、比如添加噪声,来扩大训练数据集,一方面保证足够的训练数据,另外一方面可以使得样本多样性,增强网络的鲁棒性。
  第二,通过实验结果分析我们发现我们在DenseNet网络上取得最好的效果。与残差网络相比,DenseNet在同等参数大小时优于残差网络,在训练过程中发现DenseNet由于密集连接方式,DenseNet提升了梯度的方向传播,从而使得网络更易训练。DenseNet参数更小且计算更高效。主要是因为DenseNet是通过Concat特征来实现短路连接,实现了特征重用,且采用较小的Growth rate,每个层所独有的特征是比较小的。测试过程中我们找出了识别错误的数据,我们发现了大多清晰度较差、光照强度大的数据识别效果较差。从最终测试准率上看我们发现在残差网络以及DenseNet上都达到了99%以上的准确率。从而我们能够利用深度卷积神经网络来对相机图片进行溯源。文章仅在手机相机图片上进行溯源实验。相信也可以应用到其他的数码设备。
  参考文献:
  [1]S. Bayran H. Sencar,N.Memon,and I.Avcibas,“Source camera identification based on cfa interpolation,i”n IEEE International Conference on Image Processing,2005.
  [2]S. Milani,P.Bestagini,M.Tagliasacchi,and S.Tubaro,“Demosaicing strategy identification via eigenalgorithms,in” ICASSP,2014.
  [3]J.Lukas,J. Fridrich,and M.Goljan,“Determining digital image origin using sensor imperfections,”in Proc.SPIE,Image and Video Communications and Processing,2005.
  [4]J.Lukas,J. Fridrich,and M. Goljan,“Digital camera identification from sensor pattern noise,” IEEE Transations on Information Forensics and Security,vol. I,no.2,pp.205-214,2006.
  [5]Kai San Choi,Edmund Y Lam,and Kenneth KY Wong,“Source camera identification using footprints from lensaberration,”in Electronic Imaging 2006.International Society for Optics and Photonics,2006,pp.60690J—60690J.
  [6]A.E.Dirik,H.T.Sencar,and N.Memon,“Source camera identification based on sensor dust characteristics,”in IEEE Workshop on Signal Processing Applications for Public Security and Forensics,2007.
  [7]Christian Szegedy,wei Liu,Yangqing Jia,Pierre Sermanet,Scott Reed,Dragomir Anguelov,Dumitru Erhan,Vincent Vanhoucke,and Andrew Rabinovich,“Going deeper with convolutions,”in Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition,2015,pp.1-9
  [8]K.He,X.Zhang.S.Ren,and J.Sun,“Deep residual learning for image recognition,in IEEE Conference on Computer Vision and Pattern Recognition 2016.
  [9]Huang G,Liu Z,weinberger KQ,ET AL.“Densely connected convolutional networks”in CVPR,2017.
  (作者單位:华南理工大学数学学院)
转载注明来源:https://www.xzbu.com/3/view-14949536.htm