您好, 访客   登录/注册

软计算在数据聚类技术中的应用

来源:用户上传      作者: 邢婷

  摘要:软计算是一个新的研究领域,在求解复杂的组合优化问题中获得成功并表现出良好性能。简单地介绍了软计算方法目前的研究状况,阐述了算法的基本原理和特性及其在聚类技术中的应用。
  关键词:软计算 聚类算法 进化计算 神经网络 模糊逻辑
  中图分类号:TM714 文献标识码:A 文章编号:1007-9416(2012)02-0146-02
  
  1、引言
  数据挖掘技术历经十几年的发展,各种算法不断涌现,多学科间交叉,其中包括数理统计、人工智能、机器学习等,这些算法已经成功地运用于数据挖掘,解决了很多的实际问题。近年来,人们对软计算理论进行了广泛地研究,特别是将这些算法运用于数据挖掘,解决了许多传统聚类算法无能为力的聚类问题,为聚类算法的研究开辟了新领域。本文将介绍软计算[1]中比较典型的几种技术在数据聚类中的应用。
  2、传统聚类分析算法简介
  聚类分析是数据挖掘的重要技术之一。聚类就是把相似度最大的样本归为一类的过程。在这个过程中,数据是被无监督训练来处理的。从现有的文献中可以知道很多种类的数据聚类算法,这些方法正广范应用于数据聚类技术中,对信息的处理起到了巨大的作用,但也存在着不足[2]。这些算法在实现过程中,容易陷入局部最优,而得不到全局最优解。随着所处理数据的不断变化它们的缺点和不足就会表现出来。人们想出了很多的策略对这些经典的聚类算法进行改进,得到了很好的效果。尽管这样,对于很多的聚类问题,传统的聚类算法也是束手无策的。
  3、软计算简介
  软计算[3],也称为“计算智能”,是人工智能的重要组成部分,它是研究模拟人类的思维或生物的自适应、自组织能力,来实现计算技术智能性的一门新学科。模糊逻辑的创始人L.A.Zadeh提出了“软计算”的概念,并指出其关键技术和应用领域。软计算促进了各种智能理论、模型和方法的综合集成研究,有利于解决更为复杂的问题。进化计算、人工神经网络和模糊逻辑这三项技术已经成为了软计算的主要的支撑技术。通常软计算得到的结果是近似最优的,例如进化计算用来进行最优解的搜索;人工神经网络用来对数据进行分类;模糊集用来处理不确定性的概念及其推理的过程。与传统聚类方法相比,这些算法使系统的智能性更强,弥补了传统算法的一些不足。
  4、数据挖掘中的软计算方法
  4.1 进化计算
  4.1.1 遗传算法
  遗传算法[4]是软计算中的一种进化计算算法,基本思想是优胜劣汰为原则,用概率传递规则代替确定性的规则,对包含可能解的群体反复使用遗传学的基本操作,不断生成新的群体,使种群不断进化,同时以全局的搜索技术搜索和优化群体中的最优个体,以求得满足要求的最优解。遗传算法在组合优化问题、机器学习、人工生命等领域显示出了它的应用前景和潜力。
  4.1.2 人工免疫系统
  人工免疫系统[5]是进化计算的一种新型算法,基本思想是借鉴生物免疫系统各种原理和机制而产生的各种智能系统的统称。它是一种自动识别、自我组织的自适应系统,由几个基本功能组成,有组织地分布于身体的各个部位。免疫系统的主要功能是识别身体内的细胞(或分子),把这些细胞分为自体和非自体细胞,非自体细胞又被进一步地识别和分类,便于免疫系统以适当方式刺激身体地防御机制,杀死有害的非自体细胞,生物免疫系统的学习是不断的识别外部抗原和自己身体内部的自有细胞而演化地进行的。聚类过程实质上就是免疫系统不断产生抗体,识别抗体,最后产生可以捕获抗原的最佳抗体的过程。
  4.2 人工神经网络
  人工神经网络是迅速发展起来的一个研究领域。它是运用人类神经的运动机理,模拟人脑的思维,通过神经元间的相互作用来完成运算。神经网络不仅具备了人类的某些思维特性,而且同时具备了强大的学习能力。人工神经网络对数据挖掘的贡献主要是在规则的提取和自组织上,它对分类或决策分析是非常重要的。基于神经网络的聚类算法比较著名的方法有:竞争学习和自组织特性映射,这两种方法都涉及有竞争的神经元。人工神经网络有很多的优良特性,适用范围很广,对于复杂问题有其独特的解决方案和处理过程。人们对神经网路进行了大量的研究,目前有许多成熟的网络模型应用于实际中。
  4.3 模糊逻辑方法
  模糊逻辑[6]是一种应用最早的软计算方法,可以说它的发展导致了软计算理论的出现。模糊逻辑理论研究在社会生活的各个领域均有广泛的应用。目前,模糊技术被认为是另一种不同功能的数据聚类的方法。模糊聚类是运用模糊理论对数据进行模糊划分的一种分析方法,基于这一概念人们提出了许多数据聚类算法。
  4.4 混合方法
  混合的方法是指以上技术的综合运用,这里特别强调各种技术相互协作。软计算理论产生不是仅研究单项技术,主要是研究如何将这些技术集成起来。例如模糊-神经结合了模糊逻辑和神经网络这两种方法,建立了模糊神经网络系统,它把神经网络的优点与模糊逻辑可以解决模型中不确定、模糊的知识特点结合了起来。这种设计,使该系统具有了模糊推理、模糊决策等功能。同时利用模糊聚类分析的特点,解决了模糊神经网路搜索时间长和易陷入局部最优的缺陷。这些方法均体现出各种智能技术协同工作的优势。通过大量的研究表明混合方法应用数据挖掘具有十分优良的特性。
  5、算法总结
  以上对一些常见的软计算方法运用于数据聚类的基本原理进行了阐述。聚类问题实质上是一个线性整数规划问题,软计算方法在处理这类问题时,与传统方法相比,优势还是比较明显的。它们具有各自的特点:(1)遗传算法可实现全局并行搜索,搜索空间大且不断优化,在求解大规模优化问题的全局最优解方面具有广泛的应用。它对初始值不敏感和不易陷入局部最优解,在处理聚类问题时可保持良好的全局分布特性;(2)人工免疫系统理论还处于研究和发展阶段,具有很多的不稳定因素,与遗传算法具有相同之处,在获取全局最优结方面显示了优越性,算法实现相对简单;(3)由于神经网络的黑箱问题、收敛速度慢和学习训练时间很长等缺点,所以神经网络先前被认为不适合应用于数据挖掘,但它处理分类和决策问题是特别有效的;(4)模糊聚类方法被广泛使用,人们对其研究的时间也较长,它所得到的聚类结果较稳定,准确性较高。
  随着各种智能技术的不断完善,软计算理论已经得到了迅速的发展。这为数据聚类技术提供了许多有效的方法,也将不断地推动数据聚类技术向前发展。
  参考文献
  [1]L.A.Zadeh. Fuzzy logic, neural networks, and soft computing[J]. Communications of the ACM,1999,37:77-84.
  [2]朱明,数据挖掘[M].合肥:中国科学技术大学出版社,2002.
  [3]张智星等.神经-模糊和软计算[M].西安:西安交通大学出版社,2000.
  [4]湛燕,杨芳,王熙照.基于遗传算法学习聚类算法的中心个数[J].计算机工程与应用,2003,16:86-87.
  [5]莫宏伟.人工免疫系统原理与应用[M].哈尔滨:哈尔滨工业大学出版社,2002.
  [6]聂承启,聂伟强,彭云.数据挖掘中的模糊聚类分析[J].计算机工程与应用,2003,33:184-186.
  作者简介
  邢婷(1979- ),女,哈尔滨德强商务学院教师。研究方向:数据库系统。


转载注明来源:https://www.xzbu.com/8/view-1701602.htm