基于支持向量机的分布数据挖掘模型DSVM
来源:用户上传
作者: 孔令信
摘要:本文主要对基于支持向量机的分布数据挖掘模型DSVM进行有关的介绍和探讨,由于在对环境进行挖掘的过程中,对其分布的数据有一定的要求,因而提出了DSVM模型,一方面介绍了特征多叉树的有关概念,一方面又对通过移动Agent来对分布数据进行访问从而建立特征多叉树的方式方法进行一定的论述。阐述了利用特征多叉树的相关概念和方法来对分布环境的有关数据集的特征或者属性进行有效反映的思想,又由于该数据的结构以及对向量机支持的特色,使得在分布环境下的全局数据挖掘都变得容易,通过研究和实验,得出了这个模型可以有效地解决了其他算法中出现的执行率差、存储的开销大、安全和隐私较低的缺陷。
关键词:特征多叉树 分布数据 向量机
随着我国经济和科技水平的迅猛发展,企业的管理方式也在发生着日新月异的变化,目前很多企业数据库的管理方式从集中式的管理逐渐演变到分布式的管理,这种分布式的管理使得数据库可以有效地分布在各个门店,而且随着时间的不断推移,这些分布的数据库也在不断增加,因而数据就具有异构、分布和海量等特点,这些特点对于数据挖掘来说无疑造成了巨大的考验。
一、当下数据挖掘方法的概述
就目前而言,出现了很多的数据挖掘的算法,例如,其中具有代表性的有:决策树、神经网路等等,这些算法主要应用于客户的分类和流失的预测上。但是这些挖掘算法通常的都具有两个很明显的缺点:首先,就是在对待所处理的数据规模较大、维度较高或者数据中有非线性的关系存在时,处理出来的效果不是很理想;其次,这些数据挖掘算法依靠的原则主要就是经验风险最小,这样就很容易较低泛化能力,使得整体模型的结构得不到确定。而在结构风险最小原则下能够有效地解决上述两个缺点的算法非SVM莫属,另外,其他的一些没提到的方法,在对分布环境下挖掘大部分会出现增大网络负担、占用大量存储空间以及响应时间较长等状况。因而,根据上面提到的我们可以很明显地看出,SVM挖掘算法的研究具有重要的现实和理论意义以及价值。
二、相关理论的概述
1.支持向量机简介
所谓支持向量机就是以VC理论为基础的机器学习的方法。它的分类思路就是构建一个超平面当做决策平面,从而使得正负模式的距离最大。它的发展是从线性可分的情况下中最优分类面而来,这最优分类面需要的是区分两类,使得中间的间隔达到最大,而距离达到最优的情况下就是所谓的支持向量。
2.增量学习的算法和分布数据挖掘介绍
所谓的增量学习就是将新增训练样本视为增量,从而在原先的样本集上进行训练,得到分类器之后再进行新的训练,从而使得这种分类器可以有效地对原先的样本和新增的样本集都进行分类。与传统的分类方法比较而言,这种增量学习的算法可以有效地利用先前的经验结果,减少后继的训练时间和存储空间、而且无须对历史数据进行保留。而分布数据挖掘,由于目前很多的企业应用分布式的数据库进行企业的管理,因而Agent技术应用就较为广泛,它可以有效的为企业提供客户流失情况、客户的分类情况以及在价格进行决策时候提供有效的帮助。
三、基于支持向量机的分布数据挖掘模型
这种模型的主要思路就是:首先利用分站点的数据采集,然后利用采集到的结果进行局部的挖掘,然后利用特征多叉树(特征多叉树是一棵带有头表的多叉树,树中除了叶子节点外每一层的节点对应于数据的一个特征属性,这些特征是影响决策内容的相关原始属性的线性组合)的方法来将挖掘的结果映射成局部的特征多叉树,然后通过移动Agent将支持向鼍和壳向量信息装载到下一个站点,再将新增样本(前几个站点的壳向量集)与已有样本(下一个站点的样本集)合并后挖掘(HDIS),并随着样本集的积累(各个站点的移动)逐步提高学习精度;最终实现分布环境下支持向量机的全局挖掘。DSVM模型挖掘中的两个核心机制:考虑到企业目前对于数据挖掘决策属性的选择大都采用先验知识,随着数据量的增大,指标属性有效性大大降低.因此,首先在各个分站点采用多元统计分析方法――主成分分析法(Principal component analysis,PCA)从局部数据集中提取出主成分构建特征多叉树(Multibranches tree of Eigen,ET),有效降低训练数据集维度和提高挖掘效率;围绕ET提出一种基于壳向量的分布式支持向量机增造算法(HDIS).经过研究表面,DSVM模型中使用HDIS的预测结果与神经网络、贝叶斯、决策树相比除比神经网络的命中率略低外,其他指标均具有一定的优势.其重要原因是神经网络覆盖率较小,可知该方法一定程度上出现了过拟合现象。
四、总论
文本主要对数据挖掘模型DSVM进行了有效的论述,当然所有的论述和介绍都是以企业的数据分布为依据的,当然分布式的高性能算法的设计基础是主成分分析和支持向量机,而移动的Agent访问的分布数据集是被用来作为构建特征多叉树的桥梁,从企业分布的数据库中分析得出全局的有效信息,从而为企业做出商业决策提供高效和精确的信息。经过理论和实验的探讨,我们得出,这种模型的算法可以有效地解决其他算法中出现的弊端或者毛病,例如:存储开销较大、效率低下、安全和隐私保障较低等等,因而采用了这种模型的算法之后,我们今后的研究方向主要倾向于并行运算以及模型的动态方面。
参考文献:
[1]王益萍,琚春华.基于分布式数据挖掘的连锁商业企业经营决策分析[J].商业研究,2006年20期
[2]於俊,周维.一种基于壳向量的SVM快速增量学习算法[J].电子测量与仪器学报,2006年6期
[3]琚春华,张捷.基于贝叶斯网络的分布数据挖掘模型DDMB研究[J].情报学报,2008年5期
转载注明来源:https://www.xzbu.com/3/view-1549932.htm