您好, 访客   登录/注册

影响数据挖掘功能的几个问题

来源:用户上传      作者:

  
  数据挖掘,又称为数据库中的知识发现,就是从大量数据中获取有效的、新颖的、潜在有用的、最终可理解的模式的过程。简单地说,数据挖掘就是从大量数据中提取或“挖掘”知识。在数字档案馆建设中,从海量原始档案数据中快速提取信息,以满足用户需求,就是数据挖掘功能最终要达到的目的。
  在数字档案馆中进行数据挖掘的前提条件应包括两个方面:一是数据格式问题,二是OCR识别问题。目前档案行业标准(DA/T 31―2005)纸质档案数字化技术规范,要求纸质档案扫描存储格式可为TIFF和JPG,提供网络查询的图像存储格式可为CEB、PDF或其他格式。这就决定了综合档案馆的档案无论存储成TIFF、JPG或是PDF等格式,都是符合国家标准的。从综合档案馆馆藏案卷纸张实际情况来看,一个全宗下的案卷,不同年代、甚至同一本案卷内的纸张扫描后,分别存储为TIFF或JPG的可能性都有,这就造成了多种存储格式并存现象。先不论哪种格式的识别率高,以及多种格式同时存在时如何识别问题,单就扫描图像能否被识别而论,就是一个难题。目前情况是,20世纪80年代前的档案,无论从纸张颜色、页面存在手写体等方面都和现在的规范要求相距甚远,因此造成了识别困难。没有被识别的图像文件,不具备信息检索条件。
  以上问题在哈尔滨数字档案馆3年多的建设实践中,曾经困扰过技术人员,笔者在反复研究、实践的基础上,总结了一点经验和体会。目前有的方法已经应用,有的准备进一步探讨后再实施。
  一、关于数据存储格式统一问题
  哈尔滨市档案馆曾经在扫描部分20世纪50~80年代档案240余万页时,采用了灰度(彩色)和黑白二值结合模式,分别存储为JPG、TIFF格式。在图像处理过程中我们发现,JPG格式的多页图像合成以及同一份文件存在两种格式如何合成等问题,在普通情况下根本无法解决,因此我们采取了全部存储为TIFF格式的方式。结果发现240余万页TIFF格式文件存储达1.3T,如此一来综合档案馆几千万页的存储将非常巨大。最终决定采取PDF格式作为存储和查询格式,虽然图像在失真度方面略有影响,但是240余万页文件经转换仅存200G左右,彻底解决了海量档案数据的存储空间问题,同时不影响利用效果。
  二、关于档案数据识别问题
  档案馆保管的历史档案、年代较为久远的档案,大多数纸张存在发黄、页面有涂改、手写现象,这些数据的OCR识别存在很大问题,不能被识别或者识别率很低,需要大量手工修改。因此各级档案馆暂时无法做到全面识别。如何解决这个难题,一直没有很好的办法。笔者认为,对于识别率很低的页面,除了让系统从目录中提取信息,可以从已识别的数据中自动提取可读信息后,再做内容关键词提取,对于无法识别的页面,则直接做关键词提取。尽管这样会存在一定的手工干预,但毕竟录入文字量不是很大,是目前可以做到的最简单的办法。
  三、关于不断拓展的新功能在原有系统上如何集成问题
  数字档案馆的建设是逐步推进的,随着科技发展,将不断有新技术应用在系统建设中。那么数字档案馆现有的数据库管理系统在建设时,必须预留出充分可拓展空间。如数据挖掘功能的拓展,就需要在原有数据库基础上进行,对数据进行识别、分类、建库。我们要做到的就是既要保证数据源的数据相对独立,维护其原始性,又要保证两个数据库相互对应,不出现数据“孤岛”现象,另外还要做到的是对硬件系统资源的科学利用,以占用最小空间为佳。
  哈尔滨数字档案馆从2005年启动至今,可以说构架基本搭建成功,只待馆藏档案数字化的数量达到一定程度或者各单位办公系统真正实现无纸化管理后,对数字档案馆功能再进行更深层次的拓展。这包括在利用方面开展数据挖掘工作,使馆藏档案真正成为可分门别类被检索利用的信息,为社会各界提供充分的服务。
  
  (作者单位:哈尔滨市档案馆 150080)


转载注明来源:https://www.xzbu.com/1/view-307428.htm