改进的MDSMOTE与FC��SVM在不平衡数据集分类中的应用
作者 : 未知

  摘 要:针对于MDSMOTE算法在生成部分新样本时没有将错分样本纳入其中的问题,将对错分样本修正的方法加入到现有的MDSMOTE算法中,提高样本的质量;对于传统FSVM在对不平衡数据集分类时,不能解决超平面偏向少数类的问题,将正负惩罚系数、模糊因子加入到FSVM中,提高不平衡数据的识别率。将改进的算法用于京东网购评语数据集分类中,该算法的分类性能较其他算法平均提升了9.13%,表明了该方法的可行性和有效性,具有实际应用价值。
  关键词:不均衡数据集;支持向量机;SMOTE算法;文本分类
  DOI:10.15938/j.jhust.2018.04.016
  中图分类号: TP311
  文献标志码: A
  文章编号: 1007-2683(2018)04-0087-08
  Abstract:On the network shopping evaluation data sets appear the phenomenon of extreme imbalance, in order to improve the classification accuracy of the unbalanced data set, It should be improved from both the sample and the algorithm For one of the problem in MDSMOTE algorithm that when generating part of the new samples, wrong points sample can′t be contained, the correct classification of the wrongly classified sample is added to the existing MDSMOTE algorithm to improve the quality of the samples. For that we can′t solve the problem of the hyper plane bias of the minority class in traditional FSVM on imbalanced data sets classification, positive and negative penalty coefficient and fuzzy factor are added the FSVM to improve the recognition rate of unbalanced data. The improved algorithm is used in the classification of JingDong online shopping commentary data set. The fmeasure value of this algorithm is increased by 9.13% on average, which indicates the feasibility and effectiveness of this method.
  Keywords:imbalanced data sets; support vector machines; SMOTE algorithm; text categorization
  0 引 言
  网络平台上的店铺都会将顾客的评语罗列出来,供给潜在的购买客户进行参考[1-2]。但对于产品的评语,尤其是那些主流的、受大家亲睐的产品,往往会呈现出非常极端的现象,即好评数远超过其他类型的评语。而生产商,销售商和潜在的购买者更关注的是那些负面的评语。通过分析这些负面评语,生产商需要找出商品的潜在的问题或缺陷去改进,销售商可以根据用户诟病最频繁的地方进行修缮,而潜在的购买者可以通过分析负面的评语进而做出自己的选择。大量“滥竽充数”“弄虚作假”的累积评论,致使整个评语数据集呈现出极度不均衡的现象。
  在机器学习过程中,一般将数据集中关于类别分布的不均衡问题称为数据集的不均衡问题(class imbalance problem of data set, CIPD),体现在样本的数量差异较大。由于目前标准的机器学习算法均是基于数据平衡的理论,导致这些机器学习算法对于不平衡数据的学习存在不同程度的缺陷[3-5]。对CIPD学习效果进行改善,提高CIPD的分类准确率是当前机器学习算法领域的热点之一[6-8]。
  在目前主流的机器学习算法中,SVM作为一种分类效果和稳定性较好的机器学习算法得到了广泛应用。尽管如此,针对于不平衡数据,支持向量机也只能得到次优的分类结果,表现为支持向量机学习得到的超平面偏向少类样本,导致对少类样本的分类结果较差。针对以上问题,为了获得更好的预测结果,当前的SVM算法通常从以下两个方面进行改进:
  1)样本处理方面。数据重采样是指对训练样本进行重采样,让多数类样本的数量和少数类的达到一种平衡。现有的数据重采�臃椒ㄖ饕�有两种,分别是欠采样和过采样。传统的随机欠采样(random undersampling,RAMU)技术可能会将一些重要信息进行删除,传统的随机过采样(random oversampling,RAMO)技术则经常会导致过拟合[9]。因此,各种改进的数据重采样方法相继出现。RAMU中,GSVMRU[10]首先通过对原多类样本不断使用欠采样,接着与原少类样本组成多个子训练模型,然后将多个子训练模型中的多类支持向量收集起来,作为多类样本,最后将该多类样本与原少类样本进行训练得到最终的预测模型;RAMO中,ADASYN[11]通过对少类样本的密度分布情况进行分析,将样本点加入到密度分布较少的样本附近;赵清华等人提出的MDSMOTE算法[12],摒弃了传统SMOTE算法将正类样本点分组的思想,不仅有效解决了过拟合问题,而且大大减轻了算法复杂度。   2)算法改进方面。改进算法是指针对样本数量存在的差异,优化训练方式,加强算法本身对CIPD的学习效果。比如Vapnik提出的Chunking算法,通过对核函数矩阵的调整,把大型的二次规划问题分解为小规模的问题[13];而DEC算法[14]则通过在训练过程中对少类样本和多类样本使用不同的惩罚因子C+和C-,进而解决了超平面偏向少类样本的问题。
  本文在融合现有算法优点的基础上,加入了一些相关要素和理论模型,形成了面向不平衡数据集的分类算法。改进的分类算法有以下2个创新点:
  1)针对传统数据重采样方法进行了改良。在用MDSMOTE算法进行过采样的基础上,也将错分样本进行人工合成,形成新样本,提高这些关键样本在分类过程中的重要程度。
  2)提升了支持向量机的分类性能。把FSVM算法与DEC算法结合(FCSVM)起来,将正负惩罚系数、模糊因子加入到FSVM中,并在惩罚系数C+和C-的选择上采用了更客观的熵值法进行了选取,提高了分类的精确度,进一步改善SVM算法本身在不平衡数据的学习上的缺陷。
  1 改进的数据重采样方法
  2 不平衡数据集分类算法的改进
  2.1 改进的模糊支持向量机
  支持向量机方法( support vector machines,
  SVM) 作为机器学习的一个热点领域,具有良好的泛化能力以及较好的分类精确性,根据有限的样本信息在模型的复杂性和学习能力之间寻求最佳折衷,以期获得最好的推广能力。传统的SVM 是针对两类的分类问题[17-18]。图2表示的是在二维空间中两类线性可分的情况。图中的三角形和实心圆分别代表正反两类训练样本。其中分类线H将两类样本正确的分开。H1□H2分别代表过两类样本中离H最近的点,且平行于H的直线。定义H1,H2之间的距离为分类间隔,用Marin表示。
  SVM分为线性可分、非线性可分以及需要核函数映射三种情况。设训练样本T=(xi,yi)(i=1,2,...l),xi为SVM的输入特征且xi∈Rn,yi∈{+1,-1}为类别标签,l为训练样本个数。基于二分类目标核函数SVM实现非线性划分的分类算法,其模型的原始问题可表示为:
  3 实验与分析
  3.1 数据来源
  本文数据集通过手工收取京东商城的数据集的六类不同类型的产品,分别是苹果手机(iphone7),爱氏晨曦牛奶(Arla),罗莱床上用品(SAIN),乔丹运动鞋(Jordan),苏泊尔(supor),SKII化妆品(SKII)。从2017125日开始一直到201825日的所有商品的评价数量,通过人工对数据进行分析删除一些噪声样本并进行分类,将分类后的数据的80%作为样本的训练集,20%作为样本的测试集。利用当前流行的word2vec对样本进行词向量的训练,生成向量空间,向量空间的维数为150维。该数据的具体分布如表1所示,其中有样本的个数,样本总数,正负样本的比例。实验中所有的数据集都采用了5折交叉验证,以便于验证分类器的性能。
  为了更好的验证本文提出的改进分类算法(MDSMOTE+FCSVM,MD+FC)的性能,在标准SVM的基础上加入DEC、MDSMOTE、FSVM、FCSVM作为实验对比,并且这几种算法也使用5折交叉验证,所有算法均使用5次结果的平均值作为最终结果。
  3.2 分析指标
  在CIPD中,把分类的准确率当做分类效果的评价标准是不合理的。这主要是因为正类样本所占的比例较少,倘若以整体的准确率作为样本分类效果的评判标准,就会使算法忽略少数类而提高对多数类的分类能力,因此在不平衡数据集中,人们常常选用Fmeasure作为评价标准。
  实验指标采用查准率(precision,PRE)与敏感度(sensitivity,SE)进行衡量。PRE与SE的表达式分别为:
  PRE=TPTP+FP(19)
  SE=TPTP+FN(20)
  其中数据集中的正类用P表示,负类用N表示。FP(False Positives)表示�⒏豪嘌�本错分成正类的数目,FN(False Negative)是指将正类样本错分成负类的数目,TP(True Positives)表示正类样本被正确分类的个数。
  查准率PRE,反映了被分类器判定的正类中真正的正类样本的比重。分类的灵敏度SE,反映了被正确判定的正例的比重。
  F度量(Fmeasure):
  Fmeasure=2・Sensitivity・PrecisionSensitivity+Precision=
  21/Sensitivity+1/Precision(21)
  Fmeasure表示的是分类精度和灵敏度的调和平均值,用来评判分类器在正负两类之间的辨别能力,Fmeasure的值越大说明分类精确度和灵敏度的值越接近1,分类器的性能越好。
  3.3 实验结果分析
  表2显示了各个算法对6个数据集进行预测的实验结果。实验结果表明,本文提出的MD+FC算法在5个数据集的的预测结果中,均占据最高Fmeasure,剩下一个接近最好算法的Fmeasure,该算法的Fmeasure值也基本上比其他算法平均提高了9.13%。同时,除了MD+FC算法,FCSVM算法和其他算法比较,有5组数据具有最高Fmeasure,剩下的一组也与最好结果的Fmeasure接近,这说明本文对原有模糊支持向量机的改进较为理想。对比MD+FC算法和FCSVM算法,结果显示,MD+FC算法在5个数据集上的Fmeasure值均高于FCSVM算法,即使是低的那一个数据集,二者在数值上也是几乎接近,因此可以说明将MDSMOTE过采样、错分样本人工合成新样本的方法、FCSVM三者相结合的算法,可以更好的提高预测模型的准确率。综上所述,本文在样本重采样和算法两方面的改进是有一定成效的。   图3将FCSVM算法对各个产品的的分类效果和其他几种算法进行对比,通过折线图更直观的表现出来,通过观察可以发现,FCSVM算法的Fmeasure折线在图像的最上边,说明了改进后的模糊支持向量机(FCSVM)在分类的精确度方面效果更好。
  图4将MDSVM算法与FCSVM算法对各产品的分类效果进行对比,通过观察�l现,MDSVM的折线几乎在FCSVM上方,即使是稍低的那一点,二者也是几乎重合,由此可以得出,利用错分样本修正MDSMOTE算法形成的新样本后,样本的重要程度得到明显提升。
  4 结 语
  本文针对传统支持向量机在不平衡数据集分类时所存在的缺陷,在样本处理和算法两方面进行了改进。在样本重采样方面,利用错分样本修正,对MDSMOTE算法合成的新样本进行及时更新,得到了更具有价值的样本集。在算法的改进上,将DEC算法和FSVM相结合,把正负惩罚系数加入到传统的模糊支持向量机中,同时引入正负模糊因子与之对应,构成了新的算法模型,解决了超平面偏向少类样本的问题,弥补了传统模糊支持向量机在不平衡数据集分类中的不足,提高了鲁棒性。在正负惩罚系数的选择上,用更客观的熵值法来代替传统方法,避开主观因素的干扰,更具说服力。实验结果显示,在6组数据集上与其他几种算法的比较,在绝大多数情况下MD+FCSVM算法具有最高的Fmeasure,证明了MD+FCSVM算法分类性能的优越。把算法应用到网购评语分类中,让人们从少数类(负面评语)中获取到更精准,更详细,更具有价值的信息。根据这些精确分类的负面评语,生产商们可以总结出自身产品的不足,包括性能上,外观上和价格上的,然后进行改进;售前售后的服务人员会根据顾客的负面反映,对营销策略和方案做出相应的调整,以期望在特定的“双十一”和“双十二”时期获得更可观的销量;而潜在的购买者通过分析负面评语,充分了解到其他购买者对产品诟病的地方,做出是否购买的决定,从而做到了理智购物,杜绝上当受骗。在以后的工作中,会引入粒子群和遗传算法等相关理论,对参数进行优化,进一步提高算法分类的速度和效率。
  参 考 文 献:
  [1] 杨燕.大学生网购现状的调查分析[J]. 江苏商论, 2017(12):189-190.
  [2] 黄湘玲.浅析互联网冲击下的实体商铺生存之路[J]. 江苏商论, 2017(1):44-45.
  [3] 张文东, 吕扇扇, 张兴森.基于改进BP神经网络的非均衡数据分类算法[J]. 计算机系统应用, 2017, 26(6):153-156.
  [4] WANG Q, LUO Z, HUANG J, et al. A Novel Ensemble Method for Imbalanced Data Learning: Bagging of ExtrapolationSMOTE SVM[J].Computational Intelligence and Neuroscience,2017.
  [5] 姚宇, 董本志, 陈广胜.一种改进的朴素贝叶斯不平衡数据集分类算法[J]. 黑龙江大学自然科学学报, 2015, 32(5):681-686.
  [6] HELAL M A, HAYDAR M S, MOSTAFA S A M. Algorithms Efficiency Measurement on Imbalanced Data Using Geometric Mean and Cross Validation[C]// International Workshop on Computational Intelligence. IEEE, 2017.
  [7] MARTINA F, BECCUTI M, BALBO G, et al. Peculiar Genes Selection: A New Features Selection Method to Improve Classification Performances in Imbalanced Data Sets.[J]. Plos One, 2017, 12(8):528-533.
  [8] 沈乐阳.生物信息学中的不平衡学习新方法研究[D]. 南京:南京理工大学, 2017.
  [9] 刘东启,陈志坚.面向不平衡数据分类的复合SVM 算法研究[J].计算机应用研究,2017(4):1023-1027.
  [10]TANG Y, ZHANG Y Q, CHAWLA N V, et al. SVMs Modeling for Highly Imbalanced Classification[J]. IEEE Transactions on Systems Man & Cybernetics Part B Cybernetics A Publication of the IEEE Systems Man & Cybernetics Society, 2009, 39(1):281.
  [11]TANG B, HE H. KernelADASYN: Kernel Based Adaptive Synthetic Data Generation for Imbalanced Learning[C]// Evolutionary Computation. IEEE, 2015:664-671.
  [12]赵清华,张艺豪.改进SMOTE 的非平衡数据集分类算法研究[J].计算机工程与应用,2017(8).
  [13]KUDOH T, MATSUMOTO Y. Chunking with Support Vector Machines[J]. Journal of Natural Language Processing, 2002, 9(107):3-21.
  [14]VEROPOULOS K, CAMPBELL C, CRISTIANINI N. Controlling the Sensitivity of Support Vector Machines[C]// International Joint Conference on Ai, 1999:55-60.
  [15]衣柏衡. 基于灰色关联度与改进SMOTE的支持向量机建模与应用[D]. 南京:南京航空航天大学, 2016.
  [16]衣柏衡, 朱建军, 李杰. 基于改进SMOTE的小额贷款公司客户信用风险非均衡SVM分类[J]. 中国管理科学, 2016, 24(3):24-30.
  [17]关玉萍, 宋立新. 基于支持向量机决策树的驾驶员眼睛状态检测[J]. 哈尔滨理工大学学报, 2010, 15(6):5-8.
  [18]李岩, 杜永斌, 宋海丰,等. ECT系统轮换对称SVM图像重建改进算法[J]. 哈尔滨理工大学学报, 2015, 20(3):40-44.
  [19]张桂香, 费岚, 杜�矗�等. 非均衡数据的去噪模糊支持向量机新方法[J]. 计算机工程与应用, 2008, 44(16):142-144.
  [20]HANG J, ZHANG J, CHENG M. Application of Multiclass Fuzzy Support Vector Machine Classifier for Fault Diagnosis of Wind Turbine[M]. Elsevier NorthHolland, Inc, 2016.
  [21]段薇,路向阳. 基于代价敏感支持向量机的银行信用风险评估模型[J]. 江西师范科技大学学报, 2015(12): 77-78.
  [22]张玉, 莫寒, 张烈平. 基于模糊支持向量机的光伏发电量预测[J]. 热力发电, 2017, 46(1):116-120.
  (编辑:温泽宇)

文秘写作 期刊发表