您好, 访客   登录/注册

不平衡数据集的集成ELM分类算法

来源:用户上传      作者: 敖培 张金涛 李延强 李明 杨百顺

  【摘要】本文提出一种处理不平衡数据集的方法,即首先采用Tomek links算法去掉噪声数据点和边界区域样本点;然后采用聚类融合算法对多数类样本中聚类一致性较低的中心区域样本进行US欠抽样;将抽样结果与少数类数据合成新数据集训练ELM基分类器,采用投票发集成分类结果。通过实例分析,本文方法可以有效提高对少数类样本的分类性能。
  【关键词】旋转森林;极端学习机;风速预测
  1.引言
  对不平衡数据集进行分类时,传统分类方法倾向于对多数类有较高的识别率,对少数类的识别率却很低。为了提高少数类的分类性能,本文提出一种处理不平衡数据集的方法,即首先采用Tomek links算法去掉噪声数据点和边界区域样本点,使分类界面更清晰;然后采用聚类融合算法对多数类样本中聚类一致性较低的中心区域样本进行US欠抽样;将抽样结果与少数类数据一起作为每个ELM基分类器的训练集,对各基分类器结果进行投票得到集成分类结果。
  2.极端学习机
  极端学习机[1](ELM, Extreme Learning Machine)本质上是一种扩展的单隐层前馈神经网络,对于N个不同的训练样本,有矩阵形式:
  Hβ=R                       (1)
  式中:H为神经网路的隐含层输出矩阵;β为输出权值矩阵;R为网络的输出矩阵。
  该算法在随机给定输入权值与神经元参数的基础上,将传统前馈神经网络参数训练问题转化为求解线性方程组,以直接计算输出权值的最小二乘解的方式完成网络训练过程,其全局最优输出权值可写为:
  =H*R                         (2)
  式中:H*=(HTH)-1HT为隐含层输出矩阵H的Moore-Penrose广义逆。
  3.聚类融合和聚类一致性系数
  聚类融合是一种较新的集成学习方法,它通过合并数据集的多次聚类结果从形成一个更优的聚类划分。通过对所有聚类成员的簇标记匹配,可以发现分类稳定和不稳定的数据。这里采用聚类一致性系数CI[2]来衡量对象属于一个类的稳定性,定义如下:
  (3)
  其中:
  πi(x)表示样本x在聚类成员πi中的簇标记。
  4.不平衡数据集的集成ELM分类算法
  (1)采用Tomek links算法去掉噪声数据点和边界区域样本点。将原始数据集S0分成少数类样本集S1和多数类样本集S2;分别计算S1中每个样本到S2中每个样本的距离,并记录最小距离和使距离最小的样本标号,同样计算S2中到S1中每个样本的距离,并记录最小距离和使距离最小的样本标号;比较相应样本的最短距离,若距离相等且标号相对应,则删除该Tomek links对,形成新的数据集S。
  (2)采用旋转森林算法[3]产生有差异性较大的数据集,采用k-means算法对每个数据集进行聚类作为聚类融合算法,采用簇匹配方法匹配所有聚类成员的簇标记,按照公式(3)计算聚类一致性系数。
  (3)将多数类中CI大于阀值的样本加入多数类中心区域样本的集合,对集合中的样本采用改进US算法进行欠抽样处理,即根据欠抽样率,随机删除集合中的样本,并将集合中剩余的样本计入新的数据集中SUnder。
  (4)将产生的SUnder数据集和少数类样本进行合成,采用所得新的数据集训练各ELM基分类器。
  (5)将各基分离器组合成一个分类系统,新的测试样本的类别由这个分类系统投票表决。
  5.不平衡数据分类的评价方法
  截至目前,对不平衡数据集分类效果的评价准则主要有三种:g-means、F-value和ROC。本文采用F-value评价准则衡量少数类的分类性能。定义如下:
  F-value=((1+β2)・Recall・Precision)/(β2・Recall+Precision)           (4)
  式中:Recall为查全率,Precision为查准率,β是可调参数,通常取1。Recall=TP/(TP+FN),Precision= TP/(TN+FP)。TP和TN分别表示正确分类的少数类和多数类的样本个数,FP和FN分别表示误分类的少数类和多数类样本的个数。
  表1 数据集描述
  数据集 样本总数 少数类比例 不平衡比
  breast-w 669 33.93% 1.90
  pima 550 34.90% 1.86
  6.实例分析
  这里采用UCI数据集中的两个不平衡数据集wisconsin-breast-cancer和pima Indians diabetes来验证本文分类算法的有效性。不平衡数据集描述如表1所示。采用本文第4部分所提出的分类方法分别对数据集进行分类,分类结果为进行10次交叉试验后的平均值。将试验结果与采用过抽样SMOTE和欠抽样US方法的集成ELM分类效果进行比较,少数类F-value的值列在表2中。从表2中可以看出,本文算法少数类F-value值均高于其他两种算法,能有效的提高少数类样本的分类性能。
  表2 不平衡数据集分类效果评价
  数据集 F-value
  SMOTE-ELM US-ELM 本文方法
  breast-w 0.9034 0.8825 0.9810
  pima 0.7236 0.6352 0.7345
  7.结语
  如何有效提高少数类分类性能是解决不平衡数据集的分类问题所追求的目标。本文提出一种处理不平衡数据集的方法,即首先采用Tomek links算法去掉噪声数据点和边界区域样本点;然后采用聚类融合算法对多数类样本中聚类一致性较低的中心区域样本进行US欠抽样;将抽样结果与少数类数据合成新数据集训练ELM基分类器,采用投票发集成分类结果。通过实例分析,本文方法可以有效提高对少数类样本的分类性能。
  参考文献
  [1]王宏力,何星,陆敬辉等.基于固定尺寸序贯极端学习机的模拟电路在线故障诊断[J].仪器仪表学报,2014,35(4):738-744.
  [2]Topchy A,Minaei-Bidgoli B,Jain A K,etal.Adaptive Clustering Ensembles[C].Proc of the 17thInternational Conference on Pattern Recognition,2004:272-275.
  [3]毛莎莎,熊霖,焦李成等.利用旋转森林变换的异构多分类器集成算法[J].西安电子科技大学学报(自然科学版),2014,41(5):55-61.
  基金项目:河南省科技厅基础与前沿技术研究项目(No.142300410163);河南师范大学新引进博士科研启动费支持课题(No.qd12136)。
  作者简介:
  敖培(1979-),女,蒙古族,辽宁沈阳人,博士研究生,讲师,研究方向:智能信息处理。
  张金涛(1994-),男,河南新密人,大学本科,研究方向:计算机科学与技术。
  李延强(1993-),男,河南中牟人,大学本科,研究方向:思想政治教育。
  李明(1993-),男,河南襄城人,大学本科,研究方向:计算机科学与技术。
  杨百顺(1992-),男,河南商城人,大学本科,研究方向:计算机科学与技术。
转载注明来源:https://www.xzbu.com/8/view-6436199.htm