深度卷积神经网络模型发展综述
来源:用户上传
作者:
摘要:随着移动互联网与硬件处理器技术的不断发展,海量数据处理与计算能力不断提高,深度学习备受关注。卷积神经网络是深度学习模型中最重要的一种结构,可用于目标特征提取。介绍了为提高卷积神经网络性能,不断增加卷积网络深度的模型,以及因此带来的新问题和解决方法。
关键词:深度神经网络:特征提取:目标识别:网络结构
DOI: 10.11907/rjdk.191659
开放科学(资源服务)标识码(OSID):
中图分类号:TP3-0
文獻标识码:A
文章编号:1672-7800(2020)004-0084-05
Review of the Development of Deep Convolutional Neural Network Model
HONG Qi-feng, SHI Wei-bing, WU Di, LUO Li-y uan
(School of Optical-Electrical and Co mputer Erzgineering , University of Sh angh.ai for Science and Technology,Shangh ai 200093.China )Abstract: With the continuous developmenf of' mobile Internet. hardware processor and other aspects, and the continuous improve-ment of massive data and computing power, deep learning has attracted more and more attention of the world. Especially after LeeSedol foughf against Alphago, it attracted worldwide attenfion. Convolutional neural network is the most important structure in deeplearning model. which is used to extract target features. With the continuous development of the deep learning field , this paper intro-duces the improvement of the perf'ormance of' the convolutional neural network. the convolutional network models with increasingdepth,as well as the new problems and their solutions.Key Words : deep neural network;feature extraction; object identification; network structure
O 引言
卷积神经网络( Convolution Neural Network,CNN)用于特征提取,从最早期的尺度不变特征变换…(Scale invariantfeature transform,SIFT)、Harr、方向梯度直方图[2](Histo-gram of oriented gradients,HOG)演化发展至今。1998年LeCun[3]提出LeNet-5,将卷积与神经网络结合在一起,这是一个划时代、影响深远的卷积神经网络结构,卷积和池化两个全新概念由此提出。其后随着深度学习理论的发展,2012年Alex Krizhevshvy[4]提出AlexNet,这是一个8层深的卷积神经网络,该模型一举夺下2012年ImageNet比赛冠军。白AlexNet之后,研究者从不同网络结构出发,陆续提出了各种性能越来越好的卷积神经网络模型,其中比较著名的有计算机视觉几何组(Visual Geometry Group,VG-GNet)、GoogLeNet、深度残差网络(Deep Residual network,ResNet)等[5-7]
1 VGG模型
CNN模型基础架构如图l所示,从图1可以看出,CNN模型是由一系列层不断堆叠而成的,模型中的每一层都代表一种数学运算,如卷积、全连接是线性运算,池化、激活是非线性运算。
VGG模型于2014年由牛津大学VGG研究组提出,与AlexNet类似,也是一种卷积神经网络,在AlexNet的基础上,旨在通过加深网络提高性能。该模型在2014年ILS-VRC定位和分类两个比赛上分别取得了第一名和第二名。与之前的网络结构相比,VGG模型错误率大幅下降。同时,该模型拓展性很强,迁移到其它图片数据上的泛化性非常好。除应用于最常见的特征提取(Feature Extractor)外,还被广泛应用于图像协同定位(C o-localization)、物体候选框生成、细粒度图像定位( Fine-grained Object Local-ization)等方面。
VGGNet核心思想是利用较小的卷积核不断堆叠增加网络深度,以此提升整个网络架构性能。VGG网络结构非常简洁,整个网络全都使用同样大小的卷积核与最大池化核,利用卷积层与最大池化层不断堆叠的方式,组合成II-19层深的卷积神经网络。
VGGNet各级别网络结构如表1所示,VGGNet有5段卷积,每段卷积包含1-4个卷积层,每段卷积后面接一个最大池化层用来缩小feature map尺寸和增强特征,后面有3个全连接层,前两层均有4096个通道,第3层共1000个通道,对应l000个标签类别,最后一层为Softmax层。 同一段内的卷积层拥有相同数量的卷积核。所有卷积核大小为3*3,步长为1,填充padding为1。之所以采用3*3的卷积核是因为:①3*3是能够获得上、下、左、右和中心概念的最小尺寸;②两个3*3卷积堆叠相当于5*5的有效感受野,3个3*3卷积堆叠相当于7*7的有效感受野;③多个3*3卷积层堆叠比一个大尺寸卷积核的参数更少。假设3层3*3卷积层堆叠的输入与输出有C个通道,堆叠卷积层的参数是3*(32*C2) =27C2个权重。同时,单个7*7卷积层有72*C2=49C2个参数,即参数多8l%;④多個3*3的卷基层比一个大尺寸卷积层有更多的非线性,使判决函数更具判决性。
模型A-LRN与模型A的唯一区别在于多了一个局部响应归一化层LRN。通过实验表明,LRN会增加运行时间与内存消耗,且对改善模型性能没有帮助,所以在后续模型中被取消。模型C相比模型B多了1*1卷积层,1*1卷积核的意义在于对输入作线性变换,增加决策函数的非线性。模型D的3*3卷积核比模型C的1*1卷积核效果好,主要是因为卷积核越大,可以学习的空间特征越大。从表2可以发现,尽管从模型A到模型E的网络深度不断加深,但网络参数量并没有显著增加,这是因为参数主要消耗在最后的3个全连接层中,但在训练中依旧是卷积层部分比较耗时。模型D与模型E对应VGG16与VGG19。
2 GoogLeNet模型
在同一目标的不同图片中,目标所占大小不一,如图2所示,每张图片中狗的大小不一,因此特征尺度变换要求很大。由于特征尺度变换大,使得卷积操作选择合适的核尺寸困难很大。较大的目标适合较大的核,较小的目标适合较小的核。因此本文提出Inception模型,在同一层上采用多个不同尺寸的过滤器,使网络变得更宽。
GoogLeNet是2014年ILSVRC Classification比赛冠军,VGGNet是亚军,两个网络的TOP-5错误率接近。2014年GoogLeNet被称为Inception V1,这是一个22层深的网络,其网络结构比VGGNet更复杂。
一个优秀的网络模型通常做法是增加网络模型的深度(层数)和宽度(神经元数),但随之产生以下问题:①模型越深,宽度越宽,会导致网络模型参数越多,而供模型学习的训练数据却往往有限,这将引起过拟合问题;②增加网络复杂度需消耗大量计算资源;③网络越深,梯度在传播时越容易消失,因此模型性能下降,难以优化。
为了解决上述问题,GoogLeNet模型应运而生,GoogLeNet创新性提出一种Inception的网络结构,并去除了最后的全连接层,用全局平均池化层(Glohal averagePooling,GAP)代替。
2.1Inception V1
为了解决因网络深度和宽度导致模型参数过多的问题,GoogLeNet参考文献[8]中的MLP卷积层,提出一种既能保持网络结构稀疏性,又能利用密集矩阵高速计算的In-ception V1模型,如图3(b)所示。传统网络中卷积层主要通过增加输出通道数提升表达能力[9],每一个输出通道对应一个滤波器,但会增加计算量。MLP卷积层设计思想是允许输出通道之间组织信息,使每个卷积通道中包含一个微型多层网络,用一个网络代替原有计算过程。
如图3(a)所示,原始Inception模块由1*1、3*3、5*5的卷积并列而成,然后再将各个卷积结果作为层数进行维度合并,增加网络宽度。采用l*l、3*3、5*5的卷积并列可方便对齐,在步长stride=l时,只要设定填充padding=0、1、2,卷积之后即可得到相同特征的维度;另一方面采用不同大小的卷积核意味着不同大小的感受野,整个网络有3种不同尺寸的卷积核与一个最大池化,增加了网络对多尺度的适应性。之后的拼接使不同大小特征尺度得到融合。但网络本身是在多个Inception模块上不断叠加,相对之前的直接连接,参数仅小幅减少。而5*5卷积所需的计算量巨大,因此Inception V1在原始模型上进行改进,如图3(b)所示,在3*3和5;5卷积之前使用1;1卷积,一方面为进行降维,大幅减少参数量;另一方面可提高相关性,将同一位置但不同通道的特征连接在一起,并在l*1卷积层之后使用非线性激活增加网络非线性。Inception V1模型第一个分支上有一个单独的l*1卷积,既能跨通道组织信息,义能提高网络表达能力,该模型设计思路来源于NIN文章中的多层感知机(Multilaver Perceptron,MLP)。Inception V1模型第4个分支上有一个最大池化层,主要是为了增加网络对不同大小特征尺寸的适应性,增强卷积神经网络对不同大小目标的识别能力。模型4个分支上均有一个l*1卷积,或与其它卷积核一起连接使用,或单独成为一个分支。这是由于I*I卷积既能增加网络非线性和特征变换,义能减少网络参数量,而1*1卷积本身的计算量义特别小,所以性价比特别高。
2.2 Inception V2
Inception V2模型[10]在在2015年被提出,模型结构如图4所示。Inception V2相对VI主要在两方面进行了改进。一方面V2模型参考了VGG模型,用多个较小的卷积核代替一个较大的卷积核,具体指用两个3*3卷积核代替Vl模型中的5*5卷积,加深了网络深度,增加了网络非线性,且减少了很多参数;另一方面的改进是在每层输入之前引入著名的批量归一化[11]( Batch Nonnalization,BN)层,使输人满足均值为0、方差为1的分布。在V2模型引入BN之后,在2012年ILSVRC数据集上top-5错误率达到了4.82%。传统卷积神经网络的输入是变化的,训练难度大,因此对网络选择一个较小的学习率,而对每一层输入使用BN之后,可规范每一层输入,使其变化范围大幅缩小,学习率提高,训练时收敛更快,加快网络训练过程。 2.3 Inception V3
Inception V3[12]相对Inception V2没有显著改进,只是对原有网络模型结构进行卷积分解,用两个较小的卷积核l*n和n*1代替n*n,比如将7*7分解成l*7和7*l。优点是增加了网络非线性,减少过拟合与参数数量。其网络模型结构如图5所示。 3 残差网络ResNet
白AlexNet之后,卷积神经网络不断加深,网络拟合能力越来越强,但网络训练误差变大却是极不正常的。简单地堆叠网络层深度没有实质性作用,反而会使反向传播产生多个问题。反向传播的梯度计算是在上一层基础上进行的,网络深度加深会使梯度复乘,使梯度在多层反向传播时越来越小,最终导致梯度消失。因此网络层数越多,训练误差越大。
残差网络通过在标准的前馈神经网络上增加一个跳跃从而绕过一些层,实现快捷连接(Shortcut Connection),解决了以上问题。
3.1 高速路神经网络
残差网络创新点在于引进了恒等快捷链接(IdentitvShortcut C onnection),其设计是受瑞士教授Schmidhuher[13]提出的高速路神经网络(HighWay Network)启发。一般情况下认为增加网络深度可在一定情况下提高网络性能,但伴随着网络深度的增加,其训练难度也越来越大。Schmid -huber教授根据白己在1997年构建的长短期记忆网络(Long Short Term Memorv Network.LSTM)[14]中的门机制(gate)原理设计了HighWay Network。LSTM中的门结构负责控制某一单元的信息量,HighWay Network可通过类似LSTM中的门控单元控制网络中的信息流,即学习原始信息应保留的比例。
高速路神经网络的出现解决了深层神经网络难以训练的难题。假设常规卷积神经网络有K层,其中第i层(i∈l,2,…,K)的输入为X。卷积神经网络每层的激活函数均对输入X进行非线性映射变换,为了表述简单,本文忽略层数和偏置,则输出与输入之间的关系为:
v=H(X,WH)(1)
高速路神经网络修改了每一层的激活函数,在此基础上允许保留一定的原始输入X,则式(1)变为:
v=H(X,WH).T(X,WT)+X.C(X,Wc)(2)
其中T为变换系数,C为保留系数。令C=1-T,则:
y=H(X,WH).T(X,WT)+X.(1-T(X,WT》(3)
改进后的网络层比原始网络层灵活了很多,针对特定变换系数,式(2)变为:
一定比例的上一层信息可不经过矩阵乘法和非线性变换直接到达下一层,該结构仿佛是一条信息高速公路,因此命名为高速路神经网络。可以发现当变换系数T=O时,输出y与输入X为恒等映射v=X。
3.2 ResNet模型结构
图6是论文中的原图,通过图6可以发现,普通的卷积神经网络随着深度的增加,准确率达到饱和后迅速下降,随之出现了网络越深、错误率越高的退化现象。这是由网络增加过多层数造成的。
为了解决退化现象,残差网络引入了恒等快捷链接的核心思想,对于一个准确率已经接近饱和且较浅的神经网络,在后面加上几个恒等快捷映射(v=X)时,错误率不会因此增加,即网络深度的增加不会引起训练误差上升。加入恒等快捷连接的ResNet也与HighWay Network -样,将原始输入信息直接传输到后面。
卷积神经网络某一层输入为X,在经过网络传输处理之后,得到的期望输出是H(X)。与传统神经网络不同,残差网络引进恒等快捷连接,构造了残差模块。如图7所示,直接将输入X传人输出中并作为下一层的初始结果,则此时目标函数为:
残差模块的引入改变了网络学习目标,使其不再学习一个完整的输出H(X),而是学习输出与输入之间的差别,即残差。图8左侧是残差函数,右侧为对输入的恒等映射,这两支路径经过简单的整合(对应元素相加)后,再经过非线性变换(激活函数),最后形成一个完整的残差网络模块。
残差网络有很多旁路的支线直接将上一层网络的输出连接到下一层或下面多层网络中,这种连接方式被称为快捷( Shortcut)或跳跃连接(Skip Connections)。
在一个残差网络模块中,一般快捷连接会跳跃2-3层甚至更多,但如果仅跳跃一层则意义不大,实验效果也不理想,因为2-3层可以提供更多的非线性,拟合更复杂的F(X)。图8左侧是两层残差学习模块,由两个输出通道数一致(残差网络是输出减去输入,这要求输出与输入的维度由保持一致)的3*3卷积网络堆叠而成。但这种残差网络模块在实际中并不是十分有效。右侧是3层学习模块,依次由1*1、3*3、l*l这3个卷积层构成。先用I*l的卷积降维(通道数降低)后,再作3*3卷积,最后用l*l的卷积提升特征通道数。
残差网络解决了因为卷积网络深度持续加深而导致的退化问题,在残差网络提出不久之后,Google融合ResNet和Inception V3版本,得到Inception V4[15]和Incep -tion-ResNet-V2[16],创造了在ImageNet数据集上TOP-5错误率3.08%的新低。
4 结语
本文回顾了卷积神经网络模型在近年的发展,该模型已成为深度学习在图像与白然语言处理等[17-20]领域最重要的研究对象,常用的CNN模型总结如表3所示。
CNN模型研究者致力于不断提升模型计算效率与识别精度,面对不同数据集的泛化能力,近期还涌现出DenseNet[21]、DPN[22](Dual Path Network),MobileNet v2[23]等模型。随着人T智能的不断发展及应用场景的不断拓展,用户对CNN模型的要求也会越来越高,CNN必将遇到各种新挑战,今后很长一段时间内卷积神经网络依然是深度学习领域研究重点。 [1]LOWE D G. Distinctive image features from scale-invariant key-points [J].International Journal of Computer Vision, 2004 . 60 (2) :91-110.
[2]DALAI N , TRIGCS B. Histograms of oriented gradients for human de-tection [c] . IEEE Conference on Computer Vision and Pattern Recog-nitinn.2005.1:886-893.
[3]LECLN Y. BOTTOU L, BENClO Y, et al. Gradient-hase learning ap-plied to document recognition [Jl. Proceedings of the IEEE,1998. 86(11) : 2278-2324.
[4]KRIZHEVSKY A, SUTSKEVER I, HINTON G. Imagenet classifica-tion with deep convolutional neural networks[Cl. ProceedinCs of theAdvances in Neural Information Processing Systems, 2012: 1097-1 105.
[5]SIMONYAN K, ZISSERMAN A. Very deep comnlutional networks forlarge-scale image recognition [DB/OL]. https://arxiv.org/pdf/1409.1556.pdf
[6]SZEGEDY C,LILT W,JIA Y Q,et al. Going deeper,vith convolutions[C]. Proceedings of the IEEE Conferenc.e on Computer Visinn and Pat- tern Recognition.2015: 1-9.
[7]HE K, ZHANG X. REN S,et al. Deep residual learning for image recognition [c]. Proceedings of the IEEE conference on computer ri-sion and pattern recognition. 2016:770-778.
[8]LIhr M, CHEW Q, YAN S Network in network[C]International Con-ference on Learning Representations, 2014: 1-10
[9]黃文坚,唐源.TensorFlow实战[M].北京:电子工业出版社,2017.
[10]IOFFE S, SZECEDY C.Batch norrnalization: ac:celerating deep net-work training by reducing internal cox'ariate shift[C] InternatinnalConference nn International Conference on Machine Learning. JMLR.org, 2015:1-9.
[11]BECK 0,PL RWINS H. Com-nlutional neural net works with hatchnormalization for classifying hi-hat, snare. and bass percussionsound samplesEC].Proceedings of the Audio Mosth, 2016:111-115.
[12]SZECEDY C. VANHOLiCKE V, IOFFE S,et al. Rethinking the In-ception architecture for computer rision[C]. Proceedings of theIEEE Conference on Computer Vision and Pattern Recognition,2016:2818-2826.
[13]RLPESH K S,GREFF K. JURGEhr S. Training very deep networks[C]. Proceedings of the Conference and yrorkshop on Neural Information Processing Systems,2017: 2377-2385
[14]HOCHREITER S,SCHMIDHL: BER J. Long short-term memory [J].Neural Computation,1997,9(8):1735-1780
[15]SZEGEDY C. IOFFE S,VANHOLCKE V. et al. Inception-v4, In-ception-Resnet and the impact of residual connections on learning[C]. Processdings of AAAl Conference on Artificial Intelligence,2017:4-12.
[16]XIE S, CIRSHICK R,DOLLAR P, et al. Aggregated residu al transfor-mations for deep neural networks[C].Pmceedings of the IEEE Con-ference on Computer Vision and Pattern Recognition, 2017:5987-5995. [17]吴汉钊基于孪生卷积神经网络的人脸追踪[J].计算机工程与应用,2018, 54( 14): 175-179.
[18]庞亮,兰艳艳,徐君,等深度文本匹配综述[j].计算机学报,2017.40(4):985-1003.
[19] 李味味,章新友,仵倚,等.基于BP神经网络中药复方功效的预测研究[J].中医药导报,2016.22 16):38-41.
[20]高学,王有旺基于CNN和随机弹性形变的相似手写汉字识别[J].华南理工大学学报(自然科学版),2014(1):72-76.
[21] HUANG G,LIU Z. MAATEN L V D,et al. Denselv connected convo-lutional networks[C].Proceedings of the IEEE Conference on Com-puter Vision and Pattern Recognitinn, 2017: 1-9.
[22]CHEN Y, LI J, XIAO H. et al. Dual path networks[C]. Proceedingsof the IEEE Conference on Computer Vision and Pattern Recogni-tion.2017:4470-4478
[23]SANDIER M, HOWARD A. ZHU M. et al. MobilehretV2: invertedresiduals and linear bottlenecks[C].2018 IEEE/CVF Conference onComputer Vision and Pattern Recognition, 2018: 1-14
(責任编辑:江艳)
收稿日期:2019-05-27
作者简介:洪奇峰(1992-),男,上海理工大学光电信息与计算机工程学院硕士研究生,研究方向为深度学习、目标检测;施伟斌(1967-),男,上海理工大学光电信息与计算机工程学院副教授,研究方向为无线传感器网络、通信协议;吴迪(1995-),男,上海理工大学光电信息与计算机工程学院硕士研究生,研究方向为抗干扰通信协议;罗力源(1996-),女,上海理工大学光电信息与计算机工程学院硕士研究生,研究方向为低功耗通信。
转载注明来源:https://www.xzbu.com/8/view-15247958.htm