您好, 访客   登录/注册

基于数据挖掘技术的企业信息系统建设

来源:用户上传      作者: 王鹏飞

  企业信息建设是一项艰巨的过程。充分利用挖掘企业的海量数据是建设好信息系统的基础,也是现代企业运用科学管理、决策分析的基础。信息系统建设一般分为前期数据准备、中期过程实施和后期数据挖掘 3 个阶段。其中前期数据准备工作量最大,后期数据挖掘最重要。随着企业业务规模的不断扩大,企业积累的数据容量逞几何级数增长,但由于传统的事物处理系统的局限性,新的问题也开始应运而生;由于产生了大量的历史数据,如何管理这些数据已迫在眉睫;现有的信息处理系统只能实现业务流程的自动化,而如何对大量的历史数据进行深层次的挖掘,从中发现企业业务与经营的内在规律,从而为管理人员的决策提供支持,已经成为企业迫切需要解决的问题。因此采用数据挖掘等技术进行企业信息系统的开发,已成为新的趋势。
  1信息系统上线前的数据准备
  很多企业在信息系统的实施过程中发现基础数据的整理是最耗时、最繁琐的过程。数据的整理工作量极大,以至于不少企业因为无法坚持这一枯燥的过程而前功尽弃,使系统上线成为了泡影;而有的企业只做了部分基础数据的整理勉强上线,但却导致了大量冗余或垃圾数据的产生。同时,基础数据整理做不好,也就意味着数据挖掘成了一句空话。
  1.1数据准备因素
  1.1.1静态数据和动态数据
  信息系统实施所要准备的数据可以简单地分为静态数据和动态数据 2 大类,也可称为基础数据和事务数据。
  静态数据是指开展业务活动所需要的基础数据,如人员基本信息,客户信息、财务的科目体系等。静态数据基本保持不变,它是动态数据的基础。
  动态数据是指实际生产时产生的事务处理信息。动态数据又可以分为期初数据和日常数据。期初数据是指上线时点的数据,它代表系统在期初上线这样的时间点上,动态数据的当前状态。
  1.1.2制定编码规则
  数据准备明确后,就可以着手编码了。实际上,数据准备工作中最难的是制定编码规则,不同的数据可能有不同的编码结构,但必须遵循共同的惟一性、实用性、统一性、标准性、便于处理性和易用性的编码原则。
  (1)惟一性。必须保证一个编码对象仅被赋予一个代码,一个代码只反映一个编码对象;
  (2)实用性。编码体系应当符合企业的业务特点和管理需求,既充分考虑企业发展对信息编码的需求、又兼顾企业的现状。不能太细,也不能太粗,过细的编码不实用,过粗的编码不起作用;
  (3)统一性。编码由一个或者若干不同分类角度的分类码构成,统一的编码结构是指,任何对象在其整个生命周期内标识码保持不变,所有分类码具有相同的编码结构;
  (4)标准性。编码应提高标准化程度,充分考虑到与外部环境的接轨而尽可能与相关的国家或行业标准相吻合。例如使用国家标准所确定的行业分类作为行业编码、邮政编码作为地区编码等;
  (5)便于处理性。由于编码将在计算机信息处理系统中得以实现,故编码应当符合数据处理的要求,便于用计算机进行处理;
  (6)易用性。编码应尽可能好记、易用,所以要在满足要求的情况下尽可能的短小,常用的编码应尽量避免字母与数字混合,以提高录入效率。
  1.1.3期初数据准备
  有了基础数据,就有了信息系统运行的基础。但信息系统上线后,系统里的数据是否能够反映现实情况,需看期初数据能不能及时准确地录入系统。
  由于期初数据反映的是上线时间点的数据,因此过早准备是没有意义的,这些事务处理数据都是动态的,每天都在变化。因此完成期初数据准备需要更精细的时间表。
  2信息系统数据的挖掘
  随着管理信息系统在企业各部门得到广泛应用,数据库的数据会积累得越来越多。虽然目前的数据库系统可以高效率地实现数据的录入、查询、统计等功能,但由于数据太多,且数据库系统中缺乏分析方法,所以使得数据库无法发现数据中隐藏的相互联系,更无法根据当前的数据去预测未来的发展趋势。因此,出现了所谓“数据多,知识少”的现象,造成了严重的资源浪费。于是,如何通过对大量的数据进行分析,从而得到更多的有助于决策的信息成为研究课题。
  建立在数据库系统之上的计算机决策支持系统的出现,为进行高层次的数据决策分析提供了好的思路和方法。但由于决策支持系统在数据的采集和分析方法上的灵活性等方面存在局限性,使得人们不得不寻求更有效的途径,去开拓数据决策分析的方法。计算机人工智能起到重要作用。计算机人工智能经历了博弈、自然语言理解、知识工程等阶段,已经进入了机器学习的热点阶段。机器学习能够模拟人类的学习方式,通过对数据对象之间关系的分析,提取出隐含在数据中的模式,即知识。
  正是由于实际工作的需要和相关技术的发展,利用数据库技术来存储管理数据,利用机器学习的方法来分析数据,从而挖掘出大量的隐藏在数据背后的知识,这形成了另一个领域――数据挖掘。数据挖掘又称数据库中的知识发现(Knowledge Discovery in Databases ,简称KDD),是一个利用各种分析工具在海量数据中发现模型与数据间关系的过程,这些模型和关系可以用来做预测。
  数据挖掘主要有以下 4 个步骤:
  (1)基础数据库的建设和数据准备。一个企业实现数据挖掘的前提和基础是拥有大量、真实的积累数据。没有数据积累,数据挖掘将无用武之地;
  (2)明确数据挖掘目标。建模过程中盲目的数据挖掘是很难成功的;
  (3)建模、数据挖掘的验证与评估。数据挖掘必须让来自不同领域的人员共同参与,其中包括专家、数据管理员、数据分析员,业务分析员及数据挖掘专家等,且他们需通力合作,寻找一套适合自己企业的开发方法,并逐步建立起挖掘的模型库;
  (4)构建数据挖掘系统,做好技术实施。挖掘结果是供决策层决策使用的,因此必须得到最高决策管理层的支持、认可和参与。
  3其它需要注意的问题
  数据准备与挖掘完成以后,还要做到以下 6 点:
  (1)成立专门的编码维护部门,根据编码规则添加新的编码;
  (2)在上线前做数据收集时,要事先做好下发表格。如果数据量较少,可以用Excel模板做表格,并锁定不允许修改的部分,以利于汇总、排序。如果数据量比较大,最好另编一个小程序,以自动控制重复的数据,同时便于同步检查;
  (3)上线后,需要对部分业务流程和操作规程进行调整,以适应系统内的数据流转;
  (4)信息系统上线后,还要保证数据的质量。数据质量是数据的生命,因为错误的数据没有任何意义,反而是系统无法上线或者掉线的导火索。保证数据质量是时时刻刻要做的事情,在这方面,经验更显宝贵,不过还是应探询出一些成形的方法。
  (5)应用管理员及时处理系统中的异常数据;
  (6)定期对数据备份,确保数据完整,在出现数据灾难时可以恢复到最近的数据点,最大限度地减少损失;
  做好以上几点,可以稳定数据质量,但仍不能保证数据百分百的准确。所谓的数据准确,是指数据的错误率控制在可以接受的范围之内,并逐步求精。企业要有一套高效的管理制度,坚持严格管理和定期核查,保证及时发现并处理数据差异,数据质量就会逐渐提高。
  4结语
  目前,很多企业投入了很大的人力、财力,实施或多或少的管理信息系统,但发挥很大作用的并不多,大部分是替代手工做一些报表。其主要原因,一是各模块自成一体,各基础数据既不统一、也不规范,更不全面;二是对录入计算机里的大量数据不分析、不挖掘,仅仅打出日报、月报和年报类的报表。
  


转载注明来源:https://www.xzbu.com/2/view-427023.htm