在线客服

咨询热线

大数据技术与档案数据挖掘分析

作者:未知

  【摘要】随着信息技术的不断发展,越来越多的企业在人力资源管理中应用了信息技术,企业通过建立数据库,利用专业的数据分析软件,对其数据进行专业化的分析,实现档案的信息化管理,充分实现了档案信息及资源的共享,而大数据时代的到来,使得传统的数据分析技术面临着严峻的考验,而在大数据发展的宏观背景下,档案数据挖掘技术的发展步伐也日益加快。本文就大数据技术与档案数据挖掘技术进行更加深入的分析。
  【关键词】大数据技术;档案数据挖掘;档案信息
  档案数据的挖掘是企业在进行档案管理时应用大数据技术的显著特点,同时也在一定程度上推动了档案管理模式向信息化的方向发展,而档案管理的流程也逐渐地走向了精细化,为了充分保障档案数据挖掘技术的不断发展,亟须建立以数据挖掘技术为核心的档案管理系统,遵循以人为本的管理原则,为数据挖掘技术的安全性提供有效的保障。
  一、大数据技术的特征
  在网络环境下,企业档案的信息化管理成了档案管理的全新发展方向。互联网上将档案信息进行有效的分类,比如在专业的网站、论坛以及相关的博客中获取到的一些大数据信息,逐渐地成为档案开发及利用的新型模式。针对这种模式,一些发达国家早进行了尝试,并且取得了显著的成效。而我国所应用的数字档案馆则是以用户的需求为导向的服务系统,在这种大数据平台分析的基础上,对档案信息、数据进行深度的挖掘,使得档案信息管理的各个要素形成内在的联系,充分实现了档案信息资源的共享,满足用户对于档案信息的需求,以此来提升企业档案信息管理的效率。
  大數据信息的调整包含了如下几项:首先,大数据信息汇集的信息量巨大,这也为传统的数据信息系统提出了更加严格的要求,传统的数据分析软件已经无法有效地适应大数据信息的发展需求,其价值与数据量相比,呈现出了低密度的状态。其次,不同的数据信息来源不同,比如访客的访问记录、访客日志以及社交媒体等数据,同时,其数据的类型也各有不同,传统的数据结构类型分为结构化与非结构化,前者是面向数据库中的数据,而后者则包含了文本、文档、图片以及一些视频信息等。最后,大数据的形成要求系统要按照用户的需求提供实时的数据分析结果,而用户通过对这些数据的分析有效预测接下来会发生什么样的事情。
  二、大数据技术与档案数据挖掘面临的挑战
  (一)数据量问题。小数据信息的处理一般是以MB为单位来进行的,而大数据信息的单位则以GB、TB甚至达到了PB,并处于不断的发展中。据相关调查显示,全球范围内最大的数据仓库数据量每年会增加约2倍以上。传统的数据系统在处理大规模数据时往往会采用随机采样的处理方式,用最少的数据实现大量信息的有效获取,而这种处理方式通常适用于在无法有效获取大量信息的前提下进行,其准确性会随着采样数据的变化而不断变化。数据的价值是藏匿在海量数据中的,通过随机采样的方法根本无法有效获取到更多具有价值的信息。与其相比,大数据信息系统在分析数据之前要对数据信息进行预处理工作,这对于大数据信息而言无疑是一个严峻的考验。针对大数据挖掘的建模而言,最有效的方法就是将目标矩阵分割成同样大小、不同区域的子矩阵,之后将这些子矩阵分布在多个服务器的节点上,并充分地改造数据挖掘的算法。将其分为两步进行,第一步,在每个计算节点上对这些子矩阵进行有效的运算,最终获得计算的结果。第二步,将这些子矩阵的计算结果集中在一起进行运算,从而计算得出整个矩阵的结果。
  (二)特性维度问题。在大数据信息中,数据分析的样本要应用不同的属性来表示。同时,其数据的多样性可以向系统提供更多的数据维度,而随着其信息量的不断增加,其所建立的模型与应用的计算方法也在逐步地扩大,但是在大数据的空间中,因为数据量的不断增多,其所应用的常用算法已经无法满足于数据信息增加的速度了,甚至会超过现有的信息维度级别。比如最常用的web中的微博数据,其关键词高达数千万,而微博的处理数量也达到了千万甚至更多,而这些问题也是数据挖掘信息中普遍存在的问题。超高维度的数据自身具备一定的稀疏性,所以并不适用于传统的全特征空间的方式进行建模。
  (三)数据关系问题。通常情况下,大多数信息的挖掘都是在平面上来进行的。而实际上,现存的数据信息之间存在着多种关系,而这些复杂的数据关系构成了复杂的社会网络,而这种复杂网络的基础条件则是大数据的多样性。这也为数据系统的建模提出了更高的要求,要充分利用多种关系的构造来分类建模,并针对不同关系中的关联模式进行有效的提取,有效的处理分散在不同数据源中的信息,同时这也是知识迁移的重点之一。
  (四)算法性能问题。相比于小数据的复杂算法,大数据的简单算法被更多的企业所广泛应用。比如谷歌翻译的应用,相比于计算机中自带的翻译软件,其应用显得简单许多,而这一切要归功于海量的web训练数据,这也在一定程度上反映出了大数据自身具备的优势。然而,因为大数据时代的特征,其自身富含的信息量庞大、信息的类型各有不同。所以在对其进行分析挖掘时,无法合理地掌握数据信息的分布特点,这种现象的存在会在一定程度上导致在设计衡量的指标及其方法的过程中造成一定的困难。由此可见,在选择数据信息的算法时,要充分考虑其自身的性能。
  三、档案数据挖掘的关键技术
  (一)数据集成。数据集成,即将不同来源、不同格式、不同类型的数据信息进行有效的集中处理,并从中提取出复杂的关系,在经过一系列的聚合与关联后,利用统一的标准来实现数据的有效存储,以此来应对大数据信息对于既有信息系统的挑战。迄今为止,我国已有的关于数据集成的方案已经取得了显著的成效,比如联邦数据库以及数据仓库等。通过上述不同种类的数据集成方式的应用,为数据的质量提供有效的保障机制。
  (二)数据存储。针对传统的数据库而言,其被广泛应用于结构化数据的存储。而在对大容量的数据进行处理时,无法充分利用统一的存储方式进行数据的存储,这就要求技术人员要采取分布式的存储方式进行数据信息的存储,比如传统的Hardtop以及NoSQL,Hardtop是一种新兴的云计算开源平台,在不断发展的过程中,Hardtop俨然已经成为一个功能强大的大数据处理平台,甚至已经成为现代化数据处理的参考标准。
  (三)数据分析。在大数据处理的过程中,数据分析的挖掘可以称之为是大数据处理的核心部分,而分类与聚类又是其中两个重要的组成部分。然而实际上,大数据的超高维度问题俨然已经成为大数据处理中的关键性问题,而传统的算法又难以满足大数据处理的需求,这就要求相关的技术人员要改进传统算法的不足。而知识挖掘的组合方法则突破了传统计算方法的不足之处,它聚集了多个分类器的处理结果,而这种处理方式相较于传统单一的处理结果准确性更高。与此同时,这种处理方式为数据信息的并行处理提供了便利条件,提高了数据分类的效率和测试的速度。
  四、结论
  综上所述,大数据技术的价值已经得到了社会各界的广泛关注,在大数据的宏观背景下,档案挖掘技术也拥有更加广阔的前景,人们利用大数据自身的优势,从中挖掘更有价值的信息,为深入分析所挖掘的档案信息奠定良好的物质基础,并有效地改善了传统档案管理模式的不足性。通过对大数据技术与档案数据挖掘的深入分析,为我国计算机技术的发展奠定良好的物质基础。本文首先阐述了大数据技术的特征,其次深入的分析了大数据技术与档案数据挖掘面临的挑战,包括了数据量问题、特性维度问题、数据关系问题以及算法性能问题,之后概括了档案数据挖掘的关键技术,囊括了数据集成、数据存储以及数据分析三个组成部分。
  【参考文献】
  [1]张文元,张倩.大数据技术与档案数据挖掘[J].档案管理,2016,63(2):33-35.
  [2]侯磊,王滢,王理.基于大数据的计算机数据挖掘技术在档案管理系统中的研究应用[J].数字通信世界,2017,66(8):96.
  [3]李元锋.大数据技术与档案数据挖掘[J].卷宗,2017,36(36):97.
  [4]张伟.档案大数据挖掘流程与技术研究[J].兰台世界,2017,85(17):97.
  [5]印鉴.基于大数据分析技术的数字化档案[J].广东档案,2013,74(6):15.
  [6]王兰成,刘晓亮.网上数字档案大数据分析中的知识挖掘技术研究[J].浙江档案,2013,96(10):14-19.
论文来源:《办公室业务·上半月》 2019年3期
转载注明来源:https://www.xzbu.com/1/view-14872314.htm