您好, 访客   登录/注册

浅析数据挖掘技术及其在现代商业信息领域的应用

来源:用户上传      作者: 杜金满 单少隆

  摘要: 数据挖掘(Data Mining)是一个利用各种分析工具在海量数据中发现模型和数据之间关系的过程,这些模型和关系可以被企业用来分析风险、进行预测。现代商业活动中,企业通过数据挖掘技术可以对商业信息进行微观、宏观的统计、分析、综合和推理,从而来指导自身的高级商务活动。
  关键词:数据挖掘;商业信息;统计
  
  在当前的商业活动中,通过自动、有效的数据分析技术,为企业提供带来商业利润的决策信息成为商业活动的必然要求。Internet是一个巨大的信息资源储备库,商务活动中企业渴望有效的访问、分析和使用这些信息的需求,为数据挖掘提供了广泛的应用空间。数据挖掘就是按企业的既定业务目标,对大量的企业数据进行深层次分析以揭示隐藏的、未知的规律性并将其模型化,从而支持商业决策活动。
  
  一、数据挖掘技术
  
  1.数据挖掘技术的概念
  数据挖掘(Data Mining),也叫数据开采等,从一个新的角度将数据库技术、KDD技术、统计学等领域结合起来,是按照既定的业务目标从海量数据中,从更深层发掘存在于数据内部的有效的、新颖的、具有潜在效用的信息和知识处理过程。
  2.数据挖掘技术的特点
  (1)数据挖掘的数据量是巨大的,因此如何高效率地存取数据,如何根据一定应用领域找出数据关系即提高算法的效率,以及是使用全部数据还是部分数据,都成为数据挖掘过程中必须考虑的问题。
  (2)数据挖掘面临的数据常常是为其他目的而收集的数据,这就为数据挖掘带来了一定的困难,即一些很重要的数据可能被疏漏或丢失。因此未知性和不完全性始终贯穿数据挖掘的全过程。
  (3)数据挖掘常常要求算法主动地提示一些数据的内在关系。
  3.数据挖掘的常用技术
  (1)遗传算法:遗传算法是一种基于生物自然选择与遗传机理的随机搜索算法,是一种仿生全局优化方法。遗传算法具有的隐含并行性、易于和其它模型结合等性质使得它在数据挖掘中被加以应用。遗传算法的应用还体现在与神经网络、粗集等技术的结合上。
  (2)决策树方法:决策树是一种常用于预测模型的算法,它通过将大量数据有目的分类,从中找到一些有价值的,潜在的信息。它的主要优点是描述简单,分类速度快,特别适合大规模的数据处理。建立决策树的过程,即树的生长过程是不断的把数据进行切分的过程,每次切分对应一个问题,也对应着一个节点。对每个切分都要求分成的组之间的“差异”最大。各种决策树算法之间的主要区别就是对这个“差异”衡量方式的区别。对具体衡量方式算法的讨论超出了本文的范围,在此我们只需要把切分看成是把一组数据分成几份,份与份之间尽量不同,而同一份内的数据尽量相同,这个切分的过程也可称为数据的“纯化”。
  (3)神经网络方法:神经网络本身具备良好的鲁棒性、自组织自适应性、并行处理、分布存储和高度容错等特性因此近年来越来越受到人们的关注。在结构上,可以把一个神经网络划分为输入层、输出层和隐含层。输入层的每个节点对应一个个的预测变量。输出层的节点对应目标变量,可有多个。在输入层和输出层之间是隐含层,隐含层的层数和每层节点的个数决定了神经网络的复杂度。
  (4)覆盖正例排斥反例方法:它是利用覆盖所有正例、排斥所有反例的思想来寻找规则。首先在正例集合中任选一个种子,到反例集合中逐个比较。与字段取值构成的选择子相容则舍去,相反则保留。
  
  二、数据挖掘技术在商业信息中的应用
  
  数据挖掘技术从一开始就是面向应用的。目前,在很多领域,尤其是在银行等商业领域。数据挖掘所能解决的典型商业问题包括:数据库营销、客户群体划分、交叉销售等市场分析行为,以及客户流失性分析等。
  1.商业信息的特点与商业信息对于数据挖掘技术的需求
  商业信息不仅仅表现在信息量大还表现在它的多变性,比如:供求关系的变动、商品价格的变化、畅销商品与滞销商品的变换、商品的更新换代周期越来越短等等,他们都随着时间的推移瞬息万变。另一方面商业信息又表现出非完整的、零散的性质性,他与商品生产的分散性和商品信息传播的多渠道等密切相关。比如:企业只注重商品信息的及时发布而缺乏商品信息的累积性与研究。
  据挖掘技术作为解决“数据爆炸”时代出现的最有效手段之一,受到了企业界的极大关注。如何最大限度地利用企业各个部门多年来在数据库系统上积累下来的大量数据进行整合及二次开发,如何才能不被信息的汪洋大海所淹没,从中及时发现有用的知识,提高信息的有效利用率,成为企业追求的一大目标。
  2.数据挖掘技术在商业活动中的应用分析
  (1)数据挖掘技术在商业活动中的应用的现状
  在国内,数据挖掘技术的重要性也被越来越多的企业管理者所认识,而在电信、金融、零售、流通等行业,已经成为信息化建设的重点。数据挖掘技术可以利用各种信息系统进行的高质量和有价值的信息收集、分析、处理,从而帮助企业解决在商业活动中遇到的各种问题,其基本功能包括信息分析、预测、辅助决策。但国内用户对其理解存在较大差别,基础数据没有引起重视,缺乏对其在公司业务发展中所起到的辅助决策作用的认识。
  (2)数据挖掘技术在商业活动中的应用的模式
  数据挖掘技术是按照预定的规则对数据库和数据仓库中已有的数据进行信息开采、挖掘和分析,从中识别和抽取隐含的模式和有趣知识,为决策者提供决策依据。数据挖掘技术在商业活动中的应用的模式有很多种,按功能可分为两大类:预测型模式和描述型模式。预测型模式是可以根据数据项的值精确确定某种结果的模式。挖掘预测型模式所使用的数据也都是可以明确知道结果的。描述型模式是对数据中存在的规则做一种描述,或者根据数据的相似性把数据分组。
  (3)数据挖掘技术在商业活动中的应用方法与基本步骤
  分类在数据挖掘中是一项非常重要的任务,目前在商业上应用较多。首先,企业在进行数据挖掘的时候,一般并不是直接对庞大的商业信息原始数据进行挖掘,而是通过一些技术手段先对数据作一些预处理,主要包括相关数据的合并、有效数据的选择、数据过滤,提取出适合分析的数据集合。然后,根据不同的挖掘目标,可以相应采用不同的挖掘方法,得到有意义的数据模式。分类的目的是学会一个分类函数或分类模型,该模型能把数据库中的数据项映射到给定类别中的某一个。最后将分类应用于预测,预测的目的是从利用历史数据纪录中自动推导出对给定数据的推广描述,从而能对未来数据进行预测。基本步骤如下:
  ①确定目标
  定义出数据挖掘要服务的商业问题,认清数据挖掘的目的是数据挖掘的重要一步。挖掘的最后结果是不可预测的,但要探索的问题应是有预见的。
  ②挖掘准备
  这里主要任务是进行数据的选择、预处理与转换,首先搜索所有与业务对象有关的内部和外部数据信息,并从中选择出适用于数据挖掘应用的数据。然后,研究数据的质量,数据清洗,为进一步的分析做准备。最后,针对挖掘算法、采用的软件工具,将数据转换成可用于建立模型分析的格式。
  ③数据挖掘
  对所得到的经过转换的数据进行挖掘,得到挖掘结果。
  ④结果分析
  在所得模型中选取有意义的模型,同时将所得的知识用表格、图表等可视化的方法进行分析。
  ⑤将结果用于企业决策
  将所得的模型、知识应用到实际管理决策中,集成到业务信息系统的组织结构中去。为商业活动中制定决策、措施服务。
  
  三、结束语
  
  综上所述,数据挖掘技术为企业在商业活动中提供了一种全新的、有效的、可靠的数据搜集与分析途径,并随着数据挖掘技术的不断完善与提高定将为企业带来更大的便捷与效益。
   作者单位: 唐山职业技术学院
  
  参考文献:
  [1] 朱玉全,杨鹤标,孙蕾.数据挖掘技术[M].北京:东南大学出版社, 2006.
  [2] 梁循.数据挖掘算法与应用[M].北京:北京大学出版社,2006.


转载注明来源:https://www.xzbu.com/2/view-383294.htm