基于支持向量机参数优化的图像特征智能辨识
来源:用户上传
作者:
摘要:随着人工智能时代的到来,智能算法应具有较强的非线性映射能力、数据处理能力和泛化能力等。文章基于支持向量机(PSO)参数优化的算法实现图像特的智能辨识。首先,理论分析SVM分类过程,明确影响SVM分类性能的重要因素。其次,选择四种不同胃状的图像特征信息作为分类对象,对特征信息进行了预处理操作,消除了量纲及量级对分类效果的影响。最后,经过粒子群优化(PSO)算法实现SVM的参数寻优,建立优化模型,可视化分类结果。结果表明,PSO-SVM的分类准确率高达95%,说明基于PSO-SVM的人工智能技术可以提供一个方法来实现图像特征的智能辨识。
关键词:人工智能;支持向量机;粒子群优化;参数寻优;图像识别
中图分类号:TP393
文献标识码:A
文章编号:1009-3044(2020)04-0173-03
收稿日期:2019-10-15
作者简介:肖磊(1998—),男,江西南昌人,学士,本科在读,研究方向为人工智能与计算科学。
Intelligent Identification of Image Features Based on Support Vector Machine Parameter Optimization
XIAO Lei
(Hainan Normal University,School of Information Science and Technology,Hainan 570100,China)
Abstract:With the advent of the era of artificial intelligence,intelligent algorithms have a strong ability of non-linear mapping,data processing and generalization.In this paper,the intelligent recognition of image features was realized Based on the parameter optimization algorithm of support vector machine (SVM).Firstly,the classification process of SVM was analyzed theoretically,and the important factors affecting the classification performance of SVM were clarified.Secondly,4 kinds of stomach-shaped image feature information were selected as the classification object,and the feature information were preprocessed to eliminate the influence of dimension and scale on the classification effect.Finally,the parameters of SVM were optimized by particle swarm optimization (PSO)algorithm,the optimization model was established and the classification results was visualized.The results show that the classification accuracy of PSO-SVM is as high as 95%,which indicates that PSO-SVM can provide a method to realize the intelligent identification of image features.
Key words:artificial intelligence;support vector machine;particle swarm optimization;parameter optimization;image recognition
随着人工智能的发展,图像分类成为近年来研究和应用的热点。图像处理技术最早来源于医疗方面,比如,可以通过图像观察病人体内各种病变的细胞,包括红细胞、白细胞、淋巴细胞、嗅球细胞、软组织、染色体等等[1]。还可以进行腦电图像的获取,心电图分析,B超孕期检查、肺部透析等等。图像经过特殊的技术手段获取之后,通过系列的处理手段进行传输、备案、分析,极大程度上提高了诊断质量[2]。数字处理技术可以帮助医生对患者的情况进行实时查询,不同的病变不同的结果都会通过图像进行展示,通过观察图像处理结果可以进行预先诊断。数字图形处理涉及的研究领域非常广泛比如说航空行天、科研人员利用数字图像处理技术实现了太空形态的拍摄和特征获取,对于探求其他星球表面的生物形态等等,这都减少了人工处理的难度,同时获得了有用信息,去除了冗余信息[3]。
图像处理过程需要经过特征数据的有效获取,数据的预处理,还有人工智能算法的高效嵌入,同时还要求处理图像的系统平台具有较高的运算能力。国内外科研人员为有效提高数字图像处理速度,主要展开了以下这几方面的研究:第一,为了充分的获取能代表整体图像的有用信息,采取系列的特征提取方法,对待识别的图像进行数字获取,这是非常重要的对于之后人工智能算法的有效识别。第二,开发高效处理数字图像的软件平台,针对待处理图像特向,运用不同的软件,处理想过和处理速度都是不同的,但是这样同时也会增加其软件开发难度。第三,开发高效的人工智能算法,根据检测图像的数据特点,采用不同的人工智能算法,可以大幅度提高图像的识别效率,也节约成本,这是目前广大科研人员专注的问题。 分类器作为模式识别过程的终端起到了至关重要的作用,这要求算法应具有较强的非线性映射能力、数据并行处理能力、泛化能力等。随着人工智能领域的发展,许多智能算法应运而生,SVM作为现在人工智能领域的主流分类器已经被广泛应用。Suykens等人以DNA分析的双螺旋分类问题为研究对象,提出在原有SVM模型的基础上,将不等式的约束问题简单化,转化成了等式约束问题,将特别复杂的SVM训练过程转变为对一组线性方程组的求解,这极大地减少了SVM的建立时间和建立难度[4-5]。Chang等人表明任何智能算法都是基于统计学数学原理得到的,它们认为SVM是在一定范围内和若干个基本的等式约束的二次规划问题。因此,它们引入了松弛变量这个概念,控制了模型的泛化能力,使其稳定在了一定的范围内,通过不断的训练、优化、迭代有效的解决的实际的工程问题[6]。张文生等人利用根据训练样本的数据特点,提出了训练SVM的几何方法以及卫向量的概念,在SVM原理建立在距离空间上,设计出基于邻域原理计算支持向量的算法[7]。汪西莉等人提出了一种基于马氏距离的支持向量快速提取算法[8]。
文章选择四种不同的胃状图像作为分类对象,数据集共包含颜色特征和纹理特征共24维。选择SVM作为模式分类器对特征数据进行智能辨识。经过理论分析发现惩罚因子c和核函数参数g是影响SVM分类性能的重要因素,因此选择PSO对参.数进行寻优,建立PSO-SVM分类模型实现胃状图像特征的智能识别,为加快医用感知技术提供可靠的技术方法和技术手段。
1 数据分析方法
1.1 数据预处理
为了消除不同量纲和量级对SVM分类性能的影响,同时加快SVM的收敛速度,需要对数据进行归一化处理,归一化区间为(0,1)。归一化方法如公式所示:
式中x’—标准化之后的特征数据;
xmax—样本特征数据最大值;
xmin—样本特征数据最小值。
该归一化方法可以消除数据不同量纲和量级的影响,同时加快了网络收敛速度,有利于SVM神经网络的高效准确实现。
1.2 支持向量机算法
支持向量机(Support Vector Machine,SVM)最先由Cortes和Vapnik提出,它是一种有监督的预测方法[9]。它的主要思想是建立一个分类决策面,SVM利用核函数将数据映射到高维空间,使其尽可能地线性可分。常用的核函数包括线性核函数、多项式核、径向基核(RBF)、傅里叶核、样条核和Sigmoid核函数等。通过比较这些核函数适用的数据特点,无论样本数据特点是高维还是低维,数据量大还是小,RBF核函数展现了很好的分类性能[10-12]。因此,选择RBF作为SVM的分类核函数。
设训练集样本有N维特征,L样本集可表示为(x),y1),..,(x.yi)∈R"。
建立超平面为:
f(x)=σ.φ(x)+ b(2)
式中,o—超平面的法向向量;
φ(x)—非线性映射函数;
b—偏差量。
为了最小化结构风险,最优分类平面满足条件:
y:(σ.φ(x)+6)≥1(3)
引入非负松弛因子ξi,使得分类误在一定范围内。因此,最优化问题转换为:
式中,c—惩罚因子,控制模型的复杂程度和泛化能力。
引入拉格朗日数乘算法将最小化问题转化为对偶形式:
式中,g—核函数参数,决定输入空间范围和宽度。上述最优化问题转化为:
因此,分类过程两个重要的参数分别为惩罚因子c和核函数参数g,正确有效的选择最佳的c和g会使支持向量机展现良好的预测性能,c过小会模型会出现欠学习现象,c过大会导致模型过拟合,g过小会导致模型精度不够,g过大容易产生预测误差。
粒子优化算法(Particle Swarm Optimization,PSO)是计算智能领域的一种基于群体智能的优化算法,它的基本概念源于对人工生命鸟群捕食行为的研究[13]。粒子优化算法(Particle Swarm Optimization,PSO)初始化过程中设定粒子种群个数为30,每个粒子具有相同的速度,适应度函数为5倍交叉验证下的训练集最高交叉验证准确率,当随着迭代次数的逐渐增加,准确率达到最高且不再上升,则在最高的交叉验证准确率下的c和g即为最佳参数,将c和g在(0,1000)的范围内进行选取。
2 结果和讨论
四种不同的胃状图片如图1所示。来源于公共数据库,分别为腺瘤、出血、癌症和正常的图片。一共提取了不同图片的颜色特征和纹理特征共24维。
颜色特征是一种使用非常普遍的图像特征,主要緣由在于颜色一般是和图像中所含有的场景或物体非常相关的。而且比起其他图像特征,颜色特征对图像自身的尺寸大小、视角方位存在较小的依赖性,从而具备较高的鲁棒性。颜色特征对图像区域或整个图像所对应的景物的表面层次的性质进行描述。颜色特征是一种全局特征,一般是基于像素点的特征,这时属于图像区域或整个图像的任何像素都存在各自的贡献。这里取颜色特征为H、S、V各自均值、方差、三通道H、S、V的三阶矩。最终得到一个9维的特征向量来代表图像的颜色特征。
纹理特征是一种表现图像中同质现象的图像特征,这种类型的特征能够反映出物体表面的周期性变化或者具有缓慢变化的组织结构排列属性。与颜色、形状等其他图像特征不同,纹理特征通过像素及其四周空间邻域的灰度分布来体现,具有非随机排列、某种局部序列性不断重复、大致为均匀的统一体等特性。纹理特征表现全局特征性质的同时,也描述了图像区域或整个图像所对应景物的表面特性,它不是以单个像素点为基础的特征,它需要在区域中包含多个像素点的情形下,进行计算与统计。在模式匹配的过程中,这种区域性的特征具备一定的优势,不会因为存在局部偏差,而匹配失败。最终15个纹理特征分别为:小梯度优势、大梯度优势、灰度分布的不均匀性、梯度分布的不均匀性、能量、灰度平均、梯度平均、灰度均方差、梯度均方差、相关、灰度熵、梯度熵、混合熵、惯性、逆差矩。 每种不同的胃状样本随机选择80组作为训练集,30组作为预测集。因此,训练集样本一共包含320组,预测集样本一共包含120组。首先根据2.1的数据预处理方法,消除24维图像特征中不同量纲和量级对分类性能的影响。选择PSO对影响SVM分类性能的两个重要参数进行优化选择。在迭代寻优的过程中,粒子之间彼此跟踪自己的历史最优准确率不断更新自己的搜索方向和速度,使粒子朝着最优的方向收敛。PSO算法的速度更新公式为:
式中,0(t)—粒子的速度;
—惯性权重;
qImr(t)—到t时刻时粒子的最优解;
q(t)—t时刻的交叉验证准确率;
pPour(t)—t时刻所有粒子全局最优解;
rand()—[0,1]范围内的随机数;
c1,c2—学习因子,c=1.5,c2=1.7。
图2为PSO-SVM的参数寻优过程及分类结果图。图2(a)图可以看出当达到训练集5倍交叉验证准确率100%时,得到了最优参数c为12.0697,g为0.057983。图2(b)显示了最终的分类准确率为95%,有效实现图像特征信息的高精度智能识别。
3 结束语
文章基于PSP-SVM实现了四种不同胃状图像特征的智能辨识。首先对四种不同胃状图像提取了24维的颜色特征和纹理特征。其次,为了相处不同量纲和量级数据对分类性能的影响,对数据进行了归一化处理。最后,基于PSO算法优化影响SVM分类的重要参数,可视化参数寻优过程以及分类结果。结果表明,PSO-SVM对四种不同胃状特征数据的分类准确率高达95%,基于人工智能算法实现了胃状图像特征数据的智能辨识。
参考文献:
[1]尹聪,栾秋平,冯念伦.病变细胞显微图像分析与识别技术的研究[J].生物医学工程研究,2009,28(1):35-38.
[2]金鑫.图像测量系统在心电图机检定中的运用[J].计量与测试技术,2018,45(6):58-59,62.
[3]吴诗姻.遥感图像预处理与分析方法研究[D].南京:南京航空航天大学,2017.
[4]Suykens J A K,Vandewalle J.Least Squares Support Vector Machine Classifiers[J].Neural Processing Letters,2012,9(3):.293-300.
[5]Lukas L,Suykens J,Vandewalle J.Least squares support vector machines classifiers :a multi two-spiral benchmark problem[J].Proc of the Indonesian Student Scientific Meeting,2011,3(11):289-292.
[6]Chang C C,Lin C J.Training v-support vector classifiers:theory and algorithms[J].Neural Computation,2001,13(9):2119-2147.
[7]張文生,丁辉,王珏.基于邻域原理计算海量数据支持向量的研究[J].软件学报,2001,12(5):711-720.
[8]汪西莉,焦李成.一种基于马氏距离的支持向量快速提取算法[J].西安电子科技大学学报,2004,31(4):639-643.
[9]Cortes C,Vapnik V.Support-vector networks[J].Machine Learn-ing,1995,20(3):273-297.
[10]Li Y,Zhang J,Li T,et al.Geographical traceability of wild Boletus edulis Based on data fusion of FT-MIR and ICP-AES coupled with data mining methods (SV M)[J].Spectrochimica ActaPart A:Molecular and Biomolecular Spectroscopy,2017,177:20-27.
[11]Maguire A,Vega-Carrascal I,Bryant J,et al.Competitive evaluation of data mining algorithms for use in classification of leukocyte subtypes with Raman microspectroscopy[J].The Analyst,2015,140(7):2473-2481.
[12]Bergner N,Bocklitz T,Romeike B F M,et al.Identification of support vector machines[J].Chemometrics and Intelligent Laboratory Systems,2012,117:224-232.
[13]杨维,李歧强.粒子群优化算法综述[J].中国工程科学,2004,6(5):87-94.
[通联编辑:唐一东]
转载注明来源:https://www.xzbu.com/8/view-15162622.htm