土壤有机质含量高光谱遥感中的数据挖掘
来源:用户上传
作者: 唐 琨 周 清 刘 静
摘要:文章分析了数据挖掘技术在土壤有机质含量高光谱遥感数据分析中的发展历程以及目前所面临的问题;探讨了聚类、模糊集、粗集、神经网络、决策树等数据挖掘算法在高光谱数据分析中的应用;展望了数据挖掘技术的应用前景。
关键词:数据挖掘;高光谱遥感;算法
数据是客观世界性质、特征和状态的描述,但由于客观世界的复杂性和在数据产生过程中携带了一些和客观无关的因素的干扰,使得数据产生了与客观世界不一致的状况,人们通常把这些干扰称为“误差”,在信息科学中则称之为“噪声”。根据信息理论,数据是由信息和噪声共同组成的,只有当数据中排除了“噪声”之后,才能称为信息:信息=(数据)-(噪声或误差)。在日常应用中,大量的数据未能充分利用这一现象常常被描述为“数据丰富,但信息贫乏”。为此,决策者迫切需要从海量数据库中提取有价值知识的工具,数据挖掘技术正是为满足上述要求而产生的。
土壤高光谱遥感数据就是这样一种情况,在室内土壤高光谱测试过程中,由于可控条件和不可控条件的变化,使得所得结果有一定的差异,如土壤的粒径差异、测试土样表面处理方法的不同、测试时几何条件的差异等都会引起土壤光谱反射系数的不确定。同时,高光谱遥感数据波段众多,数据量庞大,这些给处理和解译都带来了很大困难,而数据挖掘技术能够很好的解决这种情况。
一、数据挖掘技术的发展
(一)数据挖掘的产生发展
数据挖掘其实是一个逐渐演变的过程,其思想可以追溯到20世纪70年代。随着数据库存储技术和计算速度提高,科学研究人员意识到,还可以利用机器学习的方式来分析数据。机器学习的过程就是将一些已知的并已被成功解决的问题作为范例输入计算机,机器通过学习这些范例总结并生成相应的规则,这些规则具有通用性,使用它们可以解决某一类的问题。随后,伴随着神经网络技术的形成和发展,人们的注意力转向知识工程。知识工程不同于机器学习那样给计算机输入范例,让它生成出规则,而是直接给计算机输入已被代码化的规则,而计算机是通过使用这些规则来解决某些问题。80年代末在美国底特律召开的第11届国际人工智能联合会议的专题讨论会上首次出现KDD(Knowledge discovery in database)这个术语,人们接受了这个术语,并用KDD来描述整个数据发掘的过程。随后的KDD国际学术大会研究重点逐渐从发现方法转向系统应用,并且注重多种发现策略和技术的集成,以及多种学科之间的相互渗透,数据挖掘和知识发现成为当前计算机科学界的一大热点。随着支持数据挖掘技术发展,数据挖掘渐渐成为成熟的技术,并在实际应用中取得了良好效果。
(二)数据挖掘所面临的问题
由于数据挖掘时遇到的数据库种类繁多,且各种数据挖掘方法作用范围有限,因此采用单一方法难以得到决策所需的各种知识,多方法融合将成为数据挖掘的发展趋势。而数据挖掘技术当前所面临的问题主要有:如何进行降维操作、高维数据索引、典型特征提取等;挖掘算法的表达和改进创新;如何对挖掘产生的规则和模式进行解释与表达,使其与信息处理的要求相关联以得到应用,并对挖掘的知识进行客观、科学的评价,控制知识可靠性和质量,实施有效管理;针对高光谱遥感信息的特点,对数据挖掘任务的描述、算法功能模块组织都是其中的关键问题。
二、数据挖掘的主要算法
数据挖掘算法很多,结合不同的应用领域又发展了一些新的方法,进一步丰富和发展了数据挖掘的算法体系。数据挖掘可以采用的方法主要包括聚类、空间分析、模糊集、粗集、神经网络、决策树等。这些方法都有局限性,但它们的有机组合具有互补性,多方法融合将成为数据挖掘的发展趋势。目前一些具有较好应用效果的方法主要包括:
(一)聚类
聚类是把一组个体按照相似性归纳成若干类别,即“物以类聚”。它的目的是使得属于同一类别的个体之间的距离尽可能的小,而不同类别上的个体间的距离尽可能的大。在实现其他挖掘任务之前,应用聚类方法可使挖掘精度与效率大大提高。聚类方法包括统计方法、机器学习方法、神经网络方法和面向数据库的方法。由于高光谱遥感信息的海量特点,聚类是一种有效的挖掘算法。通过将信息从光谱维和空间维进行聚类,挖掘隐含在其中的规则和知识,对于解决波段选择、特征提取、纯净象元识别等问题,具有明显的优越性。由于聚类仅是实现对目标的集群分析,而对不同集群的属性和特征进行挖掘才能取得更好的效果,因此聚类一般要和其他算法结合进行。
(二)人工神经网络(ANN)
神经网络是数据挖掘和知识发现非常重要的方法,包括前向神经网络、径向基函数神经网络、反馈神经网络等已都得到了重视和应用。另一方面,人工神经网络也在高光谱遥感信息中得到了一些应用。神经网络常用于两类问题:分类和回归。神经网络的参数可以比统计方法多很多。由于参数如此之多,参数通过各种各样的组合方式来影响输出结果,以至于很难对一个神经网络表示的模型做出直观的解释。实际上神经网络也正是当作“黑盒”来用的,不用去管“盒子”里面是什么,只管用就行了。人工神经网络有望在高光谱遥感数据挖掘中得到广泛应用。
(三)粗集理论和模糊理论
在数据挖掘中,从实际系统采集到的数据可能包含各种噪声,存在许多不确定因素和不完全信息有待处理。传统的不确定信息处理方法因需要数据的附加信息或先验知识(难以得到),有时在处理大数据量的数据库方面无能为力。粗集作为一种软计算方法,可以克服传统不确定处理方法的不足,并且和它们能有机结合,可望进一步增强对不确定、不完全信息的处理能力。粗集理论中,知识被定义为对事物的分类能力。这种能力由上近似集、下近似集、等价关系等概念体现。因为粗集处理的对象是类似二维关系表的信息表(决策表)。目前成熟的关系数据库管理系统和新发展起来的数据仓库管理系统,为粗集的数据挖掘奠定了坚实的基础。
(四)决策树
决策树提供了一种展示类似在什么条件下会得到什么值这类规则的方法。决策树的基本组成部分为决策节点、分支和叶子。决策树中最上面的节点称为根节点,是整个决策树的开始。决策树的每个节点子节点的个数与决策树所用的算法有关。每个分支要么是一个新的决策节点,要么是树的结尾,称为叶子。在沿着决策树从上到下遍历的过程中,在每个节点都会遇到一个问题,对每个节点上问题的不同回答导致不同的分支,最后会到达一个叶子节点。这个过程就是利用决策树进行分类的过程,利用几个变量(每个变量对应一个问题)来判断所属的类别(最后每个叶子会对应一个类别)。数据挖掘中,决策树是一种经常要用到的技术,可以用于分析数据,同样也可以用来作预测。决策树在高光谱遥感信息分类、典型信息提取等任务中都得到了应用,在高光谱遥感数据挖掘中,决策树学习可以建立对特定应用敏感的知识集,以指导挖掘过程的进行。
三、发展前景
从目前高光谱遥感信息处理与应用情况来看,高光谱遥感数据挖掘将在智能信息处理和高水平应用方面发挥重要作用,以下对其潜在应用领域进行分析。
(一)典型信息提取与识别
通过对标准地物波谱数据库、典型高光谱信息源等的挖掘,建立和发现对特定信息、特征和现象提取有效的规则和知识,以直接应用于目标信息的提取与识别。
(二)定量遥感与遥感反演
高光谱遥感信息是定量遥感如成因矿物学、作物养分监测、植被监测、生态遥感等的基础,其中隐含的规则和知识也是遥感反演如地面组分反演、陆面温度反演等的基础。数据挖掘发现的知识可以建立相应的决策规则和专题知识。
(三)高光谱分类与亚像元分解
分类是遥感应用的重要环节,基于知识的自动分类目前是遥感分类的热点。基于知识的高光谱遥感分类的基础是领域知识,而这正是数据挖掘的优势所在。亚像元分解与混合像元分类是高光谱遥感信息处理的重要内容,数据挖掘在纯净像元提取及分解知识与规则发现方面可以发挥作用。
(四)特征提取与最优特征组合选择
实现面向应用的特征提取与最优特征组合对于充分应用高光谱信息、减少信息冗余、提高处理效率具有重要作用,也是目前高光谱应用中的主要模式之一。随着研究的深入,可以预言数据挖掘在高光谱遥感信息处理与应用中将可以发挥更加深入和重要的作用,促进高光谱遥感的快速发展和广泛应用。
参考文献:
1、Fu L M.Rule generation from neural networks[J].IEEE Trans onSystems,Man and Cybernetics,1994(8).
2、Towell G,Shavlik.The extraction of refined rules from knowledgebased neural networks[J].Maching Learning,1993(1).
3、袁曾任,卢振中.由神经网络提取规则的一种方法[J].信息与控制,1997(1).
4、刘振凯,贵忠华,蔡青.基于神经网络结构学习的知识求精方法[J].计算机研究与发展,1999(10).
5、张朝辉.利用神经网络发现分类规则[J].计算机学报,1999(1).
6、黄源,萧嵘,张福炎.神经网络的规则提取研究[J].计算机研究与发展,1999(9).
7、Tu Peilei,Chung Jenyao.A new decision2tree classification algorithm for machine learning[C]. In Proceedings of the 1992 IEEE International Conference on Tools for Artificial Intelligence. Arlington , VA ,Quinlan J R. Induction of Decision Trees[M].Machine Learning,1986.
8、刘小虎,李生.决策树的优化算法[J].软件学报,1998(10).
9、洪家荣,丁明峰,李星原等.一种新的决策树归纳学习算法[J].计算机学报,1995(6).
10、Schlimmer J C, Fisher D. A case study of incremental concept induction [C].In Proceedings of AAAI286,1986.
11、苗夺谦,王珏.基于粗糙集的多变量决策树构造方法[J].软件学报,1997(6).
12、刘兴华.数据挖掘技术及其应用研究[J].辽宁师范大学学报(自然科学版),2002(2).
13、于金龙,李晓红,孙立新.连续属性的整体离散化[J].哈尔滨工业大学学报,2000(3).
14、李永敏,朱善君,陈湘晖等.根据粗糙集理论进行BP网络设计的研究[J].系统工程理论与实践,1999(4).
(作者单位:湖南农业大学资源环境学院土地资源利用与信息技术专业)
转载注明来源:https://www.xzbu.com/2/view-429357.htm