您好, 访客   登录/注册

特征融合在植物叶片识别中的应用研究

来源:用户上传      作者:

  摘 要:利用模式识别领域的特征融合方法进行植物叶片识别,植物叶片对植物种类分辨与认知具有重大作用,其纹理、形状是分辨植物种类的一个极佳指标。以植物叶片为研究对象,提取叶片的LBP纹理特征、HOG纹理特征以及形状特征,设计多特征融合模型,基于ECOC-SVM多分类器对UCI数据集32种640张植物叶片图像进行训练、分类。实验结果表明,基于多特征融合模型训练的ECOC-SVM对数据集中的叶片有很好的描述能力,识别率达92%,识别效果较好。
  关键词:模式识别;植物叶片识别;SVM;人工智能
  DOI:10. 11907/rjdk. 201184
  中图分类号:TP319 文献标识码:A 文章编号:1672-7800(2020)010-0071-05
  Abstract:In recent years, as an important field of artificial intelligence, pattern recognition has developed rapidly. Plant leaves play an important role in identifying and recognizing plant species. At the same time, the texture and shape of plant leaves are very good indicators to distinguish plant species. This paper takes plant leaves as the research object, extracts LBP texture feature, HOG texture feature and shape feature of leaves, designs multi-feature fusion model, and uses ECOC-SVM multi-classifier to 640 plants of 32 species in UCI dataset Leaf images for training and classification. The experimental results show that the ECOC-SVM based on the multi-feature fusion model has a good description ability for the leaves in the data set with a higher recognition rate of 92%. The model has a better recognition effect.
  Key Words:pattern recognition; plant leaves; multi-features; SVM
  0 引言
  模式识别是人工智能技术应用的重要方向,特征融合方法作为模式识别领域的一种主要方法,对植物叶片识别具有关键作用[1]。传统植物分类方法通过人工实地去采集植物叶片样本,并对样本进行手工测量以取得植物各类相关数据。这种方法会消耗相当大的人力与物力,人为分辨植物外观具有主观性,对于识别準确率有很大影响。因此,通过计算机模式识别实现植物种类自动识别,并建立相应数据库,可以大大提高识别效率,也比人工操作准确率更高[2]。
  植物叶片具有多样性,往往通过识别叶片就可以辨别植物种类,叶片保存周期也较长,在利用模式识别对植物进行分类时,大多使用其叶片作为研究对象[3-5]。目前,国内外研究植物叶片分类的方法主要有:提取其颜色、纹理、形状等特征[6-8]。2013年,Charles等[9]提出采用密度估算方法,在小规模和特征提取不完整条件下的识别率达91%;刘念等[10]通过提取LBP、灰度共生矩阵、Hu不变矩等特征,使用深度信念网络,对植物叶片进行识别;王丽君等[11]基于叶片图像多特征融合的观叶植物种类识别系统,通过对50种植物进行训练比较,识别率达91.41%。
  本文将植物叶片的HOG、LBP纹理特征与Hu矩形状特征进行线性融合,设计了一种基于图像纹理和形状的融合特征模型对植物叶片进行描述,并使用ECOC-SVM进行训练、分类,实验所用数据集主要取自UCI 数据库。
  1 特征提取方法
  1.1 纹理特征提取
  植物叶片的纹理特征体现了叶片的结构信息,不同的叶片有着不同的纹理特征,本文采用HOG与圆形LBP算子作为叶片的纹理特征信息。
  1.1.1 HOG特征
  HOG特征提供一个图像区域的密度冗余描述[12],本文对于植物叶片的HOG特征提取步骤如下:
  Step1:对图像进行预处理,标准化Gamma空间和颜色空间。
  Step2:计算图像梯度。根据式(1)—式(4)计算图像每一像素的梯度幅值和方向,图像梯度图反映了纹理变化情况,即纹理细节变化越大,梯度幅值也越大。梯度图剔除了图像中的不相关信息,如没有变换的背景色等,如图1所示,梯度幅值图凸显了该叶片纹理。
  Step3:将图像分成若干个连通区域,称为细胞(cell),并为每个胞元构建梯度直方图。本文采用的分块方式是以2×2个细胞单元为一个分块(block)对图像进行扫描,每个细胞单元为8×8个像素,梯度方向被平均分为9个方向。
  Step4:将多个细胞单元(cell)组合成更大分块(block)后,HOG描述符就变成了由各区间所有细胞单元的直方图成分所组成的一个向量,即归一化后的描述向量。最后完成对所有块的HOG特征提取,将这些特征向量作为训练分类依据。
  基于上述步骤,提取样本库中其中一张植物叶片图像HOG特征,HOG特征提取可视化效果如图2所示,cell大小设为8?8像素,每个分块中有4个cell。   可以发现,HOG特征清晰地捕捉了该植物叶片的整体外形及叶脉,即描述了其纹理特征。
  1.1.2 旋转不变模式下的圆形LBP算子特征提取
  LBP(Local Binary Pattern,局部二值模式)是一种用来描述图像局部纹理特征的算子[13-14],它反映了图像中每个像素点与其周围像素点的关系。将其一中心像素点作为阈值,将相邻8个像素点的灰度值与其作比较,若周围灰度值大于中心点,则将该像素点的位置标记为1,否则为0,这样就可产生一组8位二进制数,即为该中心点的LBP值。这个值反映了该点的纹理信息,如图3所示,顺时针取值得到该中心点的LBP值。
  根据上述特征提取过程,生成LBP算子的数学表达式如式(5)和式(6)所示。
  其中,(xc,yc)为中心点位置,ic为该中心点灰度值,ip为相邻像素点的灰度值,s(x)为符号函数。
  很明显,传统LBP算子具有一定局限性,例如只有固定的半径范围,当样本图片发生平移或旋转时,收集到的特征值会产生很大差异,极大地影响了识别准确率。树叶图像在采集过程中往往存在旋转、平移等非线性因素,因此本文采用旋转不变模式下的圆形LBP算子,以适应图像旋转以及不同尺度的纹理特征[15]。
  其基本思想为不断旋转圆形领域得到一系列初始定义的LBP值,取其最小值作为该领域的LBP值,数学表达式如式(7)所示。
  式(7)中,ROR(LBPK,R,i)为旋转函数,表示从中心像素点正上方像素点开始,依次逆时针旋转过程。
  1.2 几何特征提取
  叶片几何特征也是分辨其种类的重要指标之一,将本文提取叶片的Hu不变矩作为叶片识别的几何特征依据。Hu不变矩已广泛应用于图像识别、工业质检等领域[16]。
  将图像看作给定二维连续函数f(x,y),在黎曼积分意义下,其(p+q)阶矩定义如式(8)所示。
  式(8)中,[ρ(x,y)]为密度分布函数,函数区间为[0,255]。相应的(p+q)阶中心矩定义如式(9)所示。
  根据上述理论,构造7个矩不变量,计算公式如式(11)—式(17)所示。
  综上,根据式(11)-式(17)可得出图片Hu不变矩的7个特征值[17]。
  2 融合纠错输出编码(ECOC)的支持向量機(SVM)识别模型
  支持向量机(SupportVectorMachines,SVM)在解决小样本、高维模式识别中有着不错效果。
  支持向量机(SVM)基本概念如下:以二维样本空间为例,如图4所示,c1和c2是两类需要区分的样本,g(x)=wx+b为一个线性函数,将c1和c2区分开。而在一个三维样本空间中,就是找出一个最优“分割平面”,推广至多维空间,支持向量机需要找出一个最优“超平面”作为数据分类器[18-19]。
  植物叶片分类一般为多分类问题,本文将该问题“分而治之”。纠错输出编码的原理源于通信领域中的信号传输问题,在信号传输过程中,为避免受到噪声影响,在编码过程中设计冗余编码,这样可以在解码过程中产生误码时有纠错能力。将该编码原理引申到识别领域中,即为克服单个分类器带来的误差,往往设计多个二分类器[20-21]。
  ECOC多分类问题可分为3步:编码、训练、解码,然后将多分类问题拆分为若干个二分类问题。ECOC-SVM多分类模型框架如图5所示。
  (1)编码阶段。采用三元编码矩阵作为ECOC的多分类框架,三元码表示为{-1,0,+1},采用一对一的编码方式,编码矩阵的每一行代表某一类,每一列代表样本的一种二分类。码元“+1”代表一类,“-1”代表另一类,“0”代表无关类,即在形成的二分类中被忽略(不参与训练),如图6所示为“一对一”(OVO)样本种类为4种的分类器示意图,其中C1-C4代表样本种类的码字,共4类样本数据,则有6个分类器,f1-f6为二类分类器,码元“1”,“-1”,“0”分别用白色、黑色、灰色表示。
  (2)训练阶段。例如对图6中的f3分类器进行训练,C1和C4的编码为“-1”和“1”,C2和C3的编码均为“0”,则在该分类器中C2、C3不参与训练,依此编码规则对所有二类分类器进行训练,得到编码矩阵。
  (3)解码阶段。对测试数据集通过(2)中的分类器进行预测,将预测结果记为一组编码,与每个类别的原始编码序列进行比较,并计算两者之间的距离,最后返回距离最小的类别即为预测模型中的植物叶片类型。
  3 算法实现
  3.1 数据来源及样本选择
  实验数据包含32种不同的植物品种(见图7),植物种类学名、种类编号如表1示。
  在640张图片数据集的各种类植物叶片样本中随机抽取5个作为测试样本,其余15个作为训练样本。
  3.2 特征提取
  为了提高识别效率,首先将所有样本图片进行预处理(大小约束、标准化Gamma空间、灰度化)。为了便于比较,特征量需要保持一致,因此将输入叶片图像大小设定为128?256。纹理、几何特征与颜色无关,因此将彩色图像转化为灰度图像,剔除无关信息。为了降低图像局部光照不均匀性,降低噪声干扰,进行Gamma校正,取[γ=12],校正后样本如图8所示。
  根据上文所述特征提取方法,提取每张样本图片的HOG、LBP、Hu不变矩特征,分别记为[f1]、[ f2]、[ f3],合并这3类特征,记为[F=[f1, f2, f3]]。
  3.3 预测模型训练及实验结果
  随机抽取5个作为待预测样本测试预测模型识别率,剩余15个作为训练样本,重复运行50次,分析准确性。本文采用的数据集共有32种植物叶片,用上文所述ECOC-SVM方法,需要496个二类分类器。以分类器一为例,将白纸扇定为正样本(+1),菠萝蜜定为负样本(-1),剩余30个样本定为无关项(0),依此编码规则对496个二类分类器进行训练,得到编码矩阵部分如表2所示。   在MATLAB环境下编写特征提取算法和预测训练模型程序。各类植物叶片平均分类结果准确率如表3所示,整体识别率为92.11%。
  为了研究不同特征组合的识别性能,实验中将不同组合特征的识别率进行了对比,整体识别率结果如表4所示。
  从表3、表4数据中可以得出以下结论:①任意两种特征组合的识别率均高于单一特征识别率,将纹理特征与描述形状特征的Hu不变矩结合起来,可以有效提高植物叶片识别率;②HOG、LBP、Hu矩多特征融合识别率的标准差约为1.51,对于识别各类植物叶片有较好稳定性。
  4 结语
  本文针对植物叶片分类识别问题,基于ECOC-SVM多分类算法提取植物叶片图像形状、纹理特征作为主要识别特征,建立识别模型进行分类识别,比较了不同特征组合下的识别率。在HOG、LBP、Hu矩多特征融合下的识别方法具有较好鲁棒性,下一步工作将重点提高识别速度,改进特征提取方法,提升效率。
  参考文献:
  [1] 张宁,刘文萍. 基于图像分析的植物叶片识别技术综述[J]. 计算机应用研究,2011,28(11):4001-4007.
  [2] 郭泽方. 图像物体检测深度学习算法综述[J]. 机械工程与自动化,2019(11):220-222.
  [3] 杨泽静,张征,郑伯川. 基于局部模糊聚类的植物叶脉提取[J]. 西华师范大学学报(自然科学版),2018,39(3):325-330.
  [4] 赵瑞,祈春节,段凌凤. 基于BP神经网络的水稻卷叶识别[J]. 南方农业学报,2018, 49(10):2103-2109.
  [5] 孫俊,曹文君,毛罕平. 基于改进卷积神经网络的多种植物叶片病害识别[J]. 农业工程学报,2017,33(19):209-215.
  [6] 宣旭峰,王美丽,张建峰. 基于HSV彩色空间与直方图信息的植物叶脉FFCM算法提取[J]. 计算机应用研究,2018,35(9):307-310.
  [7] KEBAPCI H,YANIKOGLU B,UNAL G.Plant image retrieval using color, shape and texture features[J].  Computer Journal,2011,54(9):1475-1490.
  [8] BAMA B S,BALLI S M,RAJU S,et al.Content based leaf image retrieval (CBLIR) using shape, color and texture features[J]. Indian Journal of Computer Science & Engineering, 2011,2(2):202-211.
  [9] MALLAH C,COPE J,ORWELL J.Plant leaf classification using probabilistic integration of shape, texture and margin features [EB/OL]. http://actapress.com/Abstract.aspx?paperId=455022.
  [10] 刘念,阚江明. 基于多特征融合和深度信念网络的植物叶片识别[J]. 北京林业大学学报, 2016,38(3):110-119.
  [11] 王丽君,淮永建,彭月橙. 基于叶片图像多特征融合的观叶植物种类识别[J]. 北京林业大学学报, 2015,37(1):96-104.
  [12] DALALN,TRIGGSB.Histograms of oriented gradients for human detection[J]. IEEE Computer Society Conference on Computer Vision and Pattern Recognition,2005(1):886-893.
  [13] 王玲. 基于LBP的特征提取研究[D]. 北京: 北京交通大学,2009.
  [14] 赵珊,于虎. 基于梯度和局部多值模式的图像纹理特征提取[J]. 测控技术,2017,36(8):6-10.
  [15] 盖健. 基于旋转不变LBP的图像集人脸识别算法[D]. 长春:吉林大学,2015.
  [16] 张鸿峰,李婉琪,曾昭君,等. Hu不变矩在图像识别中的应用于实现[J]. 科技资讯,2014,12(30):5-8.
  [17] 李洋,李岳阳,罗海驰,等. 基于形状特征的植物叶片在线识别方法[J]. 计算机工程与应用,2017,53(2):162-165,171.
  [18] 郑一力,钟刚亮,王强. 基于多特征降维的植物叶片识别方法[J]. 农业机械学报,2017,48(3):30-37.
  [19] 马娜,李艳文,徐苗. 基于改进SVM算法的植物叶片分类研究[J]. 山西农业大学学报(自然科学版),2018, 38(11):33-38.
  [20] 肖亮. 基于支持向量机的图像分类研究[D]. 上海:同济大学,2006.
  [21] DIETTERICH T G,BAKIRI G.Solving multiclass learning problems via error-correcting output codes[J]. Journal of Artificial Intelligence Research,1995,2(1):263-286.
  (责任编辑:孙 娟)
转载注明来源:https://www.xzbu.com/8/view-15358578.htm