您好, 访客   登录/注册

基于卷积神经网络的植物图像分类方法研究

来源:用户上传      作者:

  摘 要:近年来,卷积神经网络已经成为图像分类领域的应用研究热点,其对图像特征进行自提取、自学习,解决了以往图像分类方法的图像低层特征到高层概念之间存在的语义鸿沟。为了解决植物图像的自动分类问题,该文提出一种基于卷积神经网络(CNN)的植物图像分类方法,以植物图像为研究对象,将经典卷积神经网络VGG16与全卷积网络(FCN)相结合,把VGG16中两个通道数为4 096的全连接层改为卷积层,构造一个新的VGG16模型为植物图像分类模型。文中制作了一个由43类每类500张总共21 500张植物图像组成的图像数据集,作为植物图像分类模型的训练数据集。实验结果表明,所提方法在植物的图像分类上的准确率达到97.23%。应用文中提出的卷积神经网络对植物图像进行分类可以取得目前最好的植物图像分类效果。
  关键词:卷积神经网络;图像特征;图像分类;全卷积网络;植物图像;数据集
  中图分类号:TP305 文献标识码:A 文章编号:2095-1302(2020)03-00-04
  0 引 言
  植物是地球上生命存在的主要形态之一,是人类生产生活中不可或缺的一部分,植物种类繁多,在判断植物类别时,给研究人员也带来了诸多不便。传统的植物分类识别,主要依靠植物相关的从业人员或植物专家的从业经验和专业知识去判别植物的种类,而不同从业人员对植物物种的认識是有限的,植物的分类识别仍是一个问题。
  近年来,深度学习发展迅猛,深度学习及卷积神经网络被广泛应用于语音识别、目标检测、图像分类等领域。而植物图像分类属于图像分类的范畴,研究如何通过深度学习及卷积神经网络对植物图像进行快速准确的识别分类,在帮助人们认识植物及植物分类方面具有重要的意义。图像分类利用图像中所体现的图像信息,将不同的类别进行区分,是计算机视觉与图像处理领域的基础性研究问题。植物是地球上不可缺少的生物,研究植物图像的快速识别分类具有很高的学术价值和科技应用价值。
  20世纪80年代,图像分类的研究取得重要进展,出现SIFT,HOG等图像特征提取算法,随着对机器学习理论的研究,植物图像的分类算法也日渐发展。1993年,Guyer等人对40类植物提取其叶片的形状、面积、周长、长宽度等特征[1],然后将这些低层特征转化为高层特征进行定性描述,以此对植物图像进行分类。Satti等人提出将植物图片的颜色、形状、叶片边缘齿轮等特征相结合[2],输入到人工神经网络(Artificial Neural Network,ANN)中进行植物图像的分类,该方法应用在33 种不同植物的图像库中,平均识别率为93.3%。Lee等人提出将植物图像中叶片的脉络和形状特征相结合[3],使用快速傅里叶变换得到频域数据作为特征,在32种植物图像库中的平均识别准确率为97.19%。杨天天等人针对7种柳属植物叶片图像,单纯地通过叶片相关特征进行多特征融合比较[4],综合判别正确率达到90.8%,实现了对特定种属叶片图像分析的高准确率识别。王丽君则将观叶植物的多特征进行融合[5],通过分析观叶植物的形态特征,提取观叶植物叶片图像的颜色、形状和纹理等共计26个特征,基于支持向量机(Support Vector Machines,SVM)算法完成观叶植物叶片分类识别,识别率达到91.41%。
  综上,在以往的植物图像分类算法中,多倾向于对单一的植物叶片图像预先提取多种叶片特征,作为分类识别的依据,使用以上方法对植物进行识别分类,图像低层特征到高层概念之间存在的语义鸿沟难以解决,应用成本高,植物种类单一,识别的准确率也较低。为此,本文提出一种基于卷积神经网络的植物图像分类方法。
  1 植物图像分类模型设计
  卷积神经网络(Convolutional Neural Network,CNN)是一种前馈式神经网络,它的灵感来源于人体内的神经元,图1为神经元结构示意图。CNN对大型的图像处理有出色的表现,目前已成功地应用到图像识别当中。CNN基本由两个部分组成:一是特征提取层,在卷积神经网络中,每个节点的输入都与前一层的局部接收域相连,从而提取图像局部的特征信息并确定特征间的位置关系;二是特征映射层,多个特征映射层组成一个计算层,每个特征映射是一个平面,在这个平面上的神经元共享权值。CNN的优点在于整个模型可以自动学习多个层次的特征,这些学习到的特征能够很好地用于图像的分类。
  最早的卷积神经网络是LeNet5,是由Yann Lecun教授在1994年提出的,之后又在1998年发表了卷积神经网
  络[6]的前言探索。近年来深度学习和卷积神经网络的应用呈爆发性增长。在ILSVRC之后的竞赛中涌现了众多经典的深度卷积神经网络模型。截至2017年,涌现的经典卷积神经网络模型有LeNet,AlexNet[7],GoogleNet[8],VGG16[9],ResNet[10],FCN[11],Fast R-CNN[12],SPP-Net[13]等。
  其中,VGG16(Very Deep Convolutional Networks)是由牛津大学的视觉几何组的Karen和 Andrew实现的卷积神经网络。它的主要目的是研究在大规模图像识别任务中卷积网络的深度对模型精确度的影响,它的主要贡献也在于展示出了算法的优良性能的关键是网络的深度。
  FCN(Fully Convolutional Networks)是Jonathan Long等人提出的全卷积网络,用于图像的分割。FCN将CNN中末尾的全连接层改为卷积层,使得整个网络模型能接收任意大小的输入图像尺寸,避免了由于尺寸不同带来的重复存储和复杂计算的问题。
  在本文中,结合VGG16与FCN两者的优点,在VGG16的基础上将VGG16中末尾两个通道数为4 096的全连接层转为一个7×7的卷积层和一个1×1的卷积层,从而构造一个新的VGG16网络模型。图2为新的VGG16网络模型,用于植物图像的分类。   由于VGG16模型有16層,模型参数众多,少量的数据无法对网络中的参数进行完全的训练。在本文中,应用已在大数据集ImageNet上充分训练的VGG16神经网络模型参数作为本文中新的VGG16网络模型的初始化参数。在43类植物,每类500张共21 500张的植物图像数据集上进行分类训练。
  2 实验设计及结果分析
  2.1 图像预处理
  在以往的图像分类任务中,进行植物图像的分类研究时,一个很大的问题是没有公开统一的数据集,使得各种分类算法间的结论难以做对比。在现今的信息化时代下,图像的信息每天都在呈指数级增长,普通的植物图像数据的获取变得容易。在本文中,收集了43类植物的数据集作为实验的研究数据。
  为了减少过拟合现象,对收集来的植物图像进行随机水平、垂直翻转、随机缩放操作来扩充数据集,然后再将数据集以5∶1的比例划分为训练集和测试集。对收集的大小不一的植物图像数据做尺寸归一化,重设为224×224大小,为了使得所有的特征均值都在0附近,保证植物图像的平稳性,对图像做了均值规整化处理。图3为模型训练时使用的图像。
  2.2 参数设置
  在现实生活中,很多问题不都是简单的线性问题,线性模型能解决的问题是有局限性的,所以在深度学习中,强调非线性。在神经元结构示意图中,可以看出神经元的输出为所有输入的加权和,所以整个神经网络是一个线性的网络,在每一个神经元输出后加上一个激活函数,去除神经元输出的线性化,则神经网络就实现了去线性化。图4展示了去线性化的过程。
  本文在每层卷积层后加一个ReLU激活函数[14],实现神经网络的去线性化。相比sigmoid和tanh激活函数,ReLU激活函数只需要一个阈值就可以得到激活值,不用进行复杂的运算,所以正向传播的计算速度快,ReLU激活函数可以极大地加快收敛速度。
  文中使用在分类问题中广泛使用的交叉熵[15]作为损失函数,交叉熵表达的是两个概率分布之间的距离。假设p代表正确答案,q代表预测值,则:
  交叉熵的值越小,p和q的概率分布越接近,预测值越接近真实值,预测准确率越高。
  学习率是深度学习中的一个重要参数,合理的学习率设置是训练出一个好的模型的重要因素。当学习率过小时,虽然能保证收敛性,但是会降低网络优化的速度,需要很多轮的迭代才能达到比较理想的网络优化效果,训练花费的时间较长。当学习率设置过大时,会导致参数不能收敛到一个极小值,达不到网络优化的效果。所以在学习率设置方面,初始学习率设为0.005,指数衰减系数设为0.1,衰减速度为672。在前期收集植物的图片数据集时,每一类的图片数据集都收集了相同的数量,所以在用Tensorflow实现网络时,学习率设置为呈阶梯状衰减,在每完整地使用一次训练数据时,学习率衰减一次,这样就使得所有的训练数据对模型的优化具有相同的作用。
  2.3 防止过拟合
  在机器学习与深度学习中,过拟合是一个常见的问题,具体表现为在训练集上表现好,在测试集上表现不好,如果模型出现这种情况,那么模型的实用性就较差。为了降低过拟合的概率,在机器学习中主要有几种常用方法:参数范数惩罚也就是正则化,模型过拟合可能是由于模型过于复杂,所以要对参数添加限制(正则化惩罚项);增加训练数据集使模型拟合更多特征;在训练时设置合理的迭代次数,避免模型对训练集的过拟合;Dropout阻断卷积神经网络中部分神经元之间的协同作用,减轻部分神经元之间的联合适应性,防止模型过拟合。在本文中,选用Dropout方法防止模型的过拟合。经过验证,隐含节点Dropout率为0.5时网络模型的效果是最好的,此时生成的随机网络结构最多。
  2.4 实验结果分析
  图5为模型经过80 700次迭代后,训练精度与loss值的变化曲线。
  实验结果对比见表1所列。
  由表1可得,VGG16+FCN-26为最早进行实验时使用了26类植物图像进行训练的测试精度方法;VGG16+FCN-43为最终实验使用的43类植物图像的测试精度方法。可见,使用VGG16 + FCN的网络模型对植物的图像分类准确率更高。
  3 结 语
  为了提高植物图像分类的精度,本文提出结合VGG16和FCN两者的优点,将VGG16的两个通道数为4 096的全连接层改为卷积层,构造一个新的模型,然后在收集的
  43类植物的图像数据集中进行训练。实验结果表明,此方法平均分类准确率达到97.23%,高于传统的植物图像分类方法。今后的研究方向是将此模型应用于各类数据集上,提高此模型的容错性。
  参 考 文 献
  [1] GUYER D E,MILES G E,GAULTNEY L D,et al. Application of machinetoshape analysis in leaf and plant identification[J].Transactions of the asae,1993,36(1):163-171.
  [2] SATTI V,SATYA A,SHARMA S. An automatic leaf recognition system for plant identification using machine vision technology [J]. International journal of engineering science and technology,2013,5(4):874-886.
  [3] LEE K,HONG K. An implementation of leaf recognition system using leaf vein and shape [J]. International journal of Bio-Science and Bio-Technology,2013,5(2):57-66.   [4]楊天天,潘晓星,穆立蔷.基于叶片图像特征数字化信息识别
  7种柳属植物[J].东北林业大学学报,2014,42(12):75-79.
  [5]王丽君. 基于寸片困像多特征提取的观叶植物种类识别化[D]. 北京:北京林业大学,2014.
  [6] LECUN Y,BOTTOU L,BENGIO Y,et al. Gradient-based learning applied to document recognition [J]. Proceedings of the IEEE,1998,86(11):2278-2324.
  [7] KRIZHEVSKY A,SUTSKEVER I,HINTON G E. ImageNet classification with deep convolutional neural networks[C]// International Conference on Neural Information Processing Systems. Curran Associates Inc,2012:1097-1105.
  [8] SZEGEDY C,LIU W,JIA Y Q,et al. Going deeper with convolutions [C]// IEEE Conference on Computer Vision and Pattern Recognition. IEEE Computer Society,2015:1-9.
  [9] SIMONYAN K,ZISSERMAN A.Very deep convolutional networks for large-scale Image recognition [J]. Computer science,2014.
  [10] HE K,ZHANG X,REN S,et al. Deep residual learning for image recognition [C]// Computer Vision and Pattern Recognition.IEEE,2016:770-778.
  [11] LONG J,SHELHAMER E,DARRELL T. Fully convolutional networksfor semantic segmentation [J]. IEEE transactions on pattern analysis& machine intelligence,2017,39(4):640-651.
  [12] GIRSHICK R. Fast R-CNN [J]. Computer science,2015:72-78.
  [13] HE K,ZHANG X,REN S,et al. Spatial pyramid pooling in deep convolutional networks for visual recognition [J]. IEEE transactions on pattern analysis &machine intelligence,2014,37(9):1904.
  [14] ZHI Chen,PIN-HAN Ho. Global-connected network with generalized ReLU activation [J]. Pattern recognition,2019:96.
  [15] HU Kai,ZHANG Zhenzhen,NIU Xiaorui,et al. Retinal vessel segmentation of color fundus images using multiscale convolutional neural network with an improved cross-entropy loss function [J]. Neurocomputing,2018:309.
转载注明来源:https://www.xzbu.com/8/view-15151397.htm