辽宁省分布式档案异构数据库的探索与研究
来源:用户上传
作者:
信息化是当今世界经济和社会发展的必然趋势,是一场深刻的科技创新和技术变革。加强档案信息化建设是档案事业适应时代和社会发展的必然选择,是加速档案管理现代化的客观要求,是提高档案服务水平的必由之路。国家档案局局长杨冬权在2009年全国档案馆工作会议讲话中指出,“加快搞好信息化建设,推进档案信息资源社会共享是今后一个时期全国档案馆工作任务的重点。”辽宁省档案局(馆)立足现在,着眼未来,积极以多种形式、多个角度研究电子档案信息资源整台问题。特别是在有序处理和集成管理各种异构环境下所产生的电子文件、档案以及其他信息,确保这些数字信息资源的真实性、完整性和持久有效性等方面,积累了一定的成功经验。2009年,由辽宁省档案局(馆)所承担的国家课题“分布式档案异构数据库集成与互访技术及管理模式的研究与应用”获得国家局优秀科技成果二等奖。课题立足于目前档案部门分布式档案异构数据库的发展现状,从集成中间件技术和web服务技术两方面人手,在出台一整套技术标准和管理规范的基础上,开发桥接软件工具,建设共享平台,重点解决三个方面的问题。一是电子文件中心建设过程中,电子文件及其元数据的采集问题;二是实现Web网上非结构化档案信息的集成与发布;三是已归档电子文件移交进馆的数据接口问题。针对以上三个问题采用不同的技术方案,清除阻碍异构数据库相互联接的障碍,使分散在不同区域、不同载体上的异构数据库实现最大范围内的资源整合,为档案信息化服务提供有效的管理模式和技术手段,也为分布式档案异构数据库的研究提供新的思路和方法。
一、辽宁省分布式档案异构数据库现状分析
1.电子政务发展与电子文件中心建设
根据近三年对省直机关的调查数据显示,131家省直机关单位中使用OA系统的已经接近70%,这些系统由软件公司为各机关“量身定做”,其流程定制、功能模块、数据库类型等都各不相同。而且它们多数还有一个共同的特点,就是只负责文件办理,不设置归档功能。这使得系统内部的整体功能设置与档案管理存在着严重的脱节。除此之外,还存在着一部分行业内部统一开发或定制电子政务平台的现象。这种平台系统若想再在后面嵌入归档功能几乎是不可能的。在这种情况下,电子文件及其元数据深藏于电子政务系统庞大的后台体系中,随着它们的异构而异构,数据割据的形式非常复杂。
2.档案网站建设
近年来随着网站考核制度的不断落实与完善,辽宁省省、市两级档案网站的建设水平和发展速度都有了明显的提高。档案信息资源发布数量以几何倍数递增。其中,档案新闻和档案查询类栏目由于受到各级档案部门领导的高度重视,发展势头强劲,无论质量还是数量,都堪称一枝独秀。档案新闻栏目中所涵盖的时事要事集中反映了各市档案工作的发展历程,而档案查询栏目则是为利用者直接提供利用服务的窗口。但是,由于各市网站建设标准的不统一和管理的不一致,致使这部分信息的后台数据库无论在类型上还是在结构上都存在着较大的异构性。而且随着将来网站服务性的不断增强,其异构程度将不断加深,为网上信息资源的整台与共享带来更多的阻碍。
3.档案管理软件的普及与应用情况
辽宁省档案管理现代化建设起步较早,1997年就已经研制出全国首个综合档案馆管理系统,档案管理软件的推广与应用随之展开。本世纪初,随着全国范围内档案管理现代化的全面推进,这项工作开始驶入快车道,截至目前,省直机关与市级档案局(馆)档案管理软件的使用率已经达到100%,县区档案局(馆)达到8l%。档案管理软件的应用大大提高了各级档案部门的工作效率。但是随着档案信息化程度的不断加深,当我们开始着手解决电子档案接收入馆的问题时,其中一些弊端开始逐渐显露出来。全省应用比较广泛的档案管理软件至少有8种。这些软件既有网络版,也有单机版,其异构性烦琐复杂。有的是操作系统的异构,有的是数据库管理系统的异构,也有的是数据库内部表结构的异构,它们之间彼此孤立,各司其职,数据格式无法统一,这对电子档案的移交进馆造成了极大的困扰。
二、分布式异构数据库研究的主要目标
结合工作实际,辽宁省档案局(馆)主要针对已归档电子文件接收、电子文件中心建设,以及档案网站上的档案信息资源的互访与共享三个方面展开深入研究,主要有以下几个方面:
1.实现基于电子文件中心建设的异构数据库互访与集成
通过研究各省直机关电子政务系统与电子文件中心数据接口问题,完成电子文件元数据捕获、文件采集管理等关键性技术,实现电子政务系统与电子文件中心真正意义上的动态连接,以及数据间的透明访问,为建立电子文件中心提供高性能、可操作性强的技术手段。
2.实现基于Web环境档案异构数据库互访
对国内省级档案网站,及辽宁省市级档案网站上的异构数据库展开基于XML信息交换与共享技术的研究。以“目录集中,资源分散”为原则,实现互联网上的档案工作要闻、馆藏档案目录及全文,以及现行文件三种档案信息资源共享平台的建设。与此同时,首次尝试采用RSS信息聚合技术,根据利用者的要求将网上有关的档案信息资源以订阅的形式直接推送到用户界面,创新档案信息资源发布新模式,使利用者充分感受到技术推送服务所带来的权利意识和身份认同。
3.实现基于已归档电子文件接收的异构数据库集成
通过对省直机关所使用的档案管理软件异构数据库互访与集成技术的研究,实现不同档案管理系统中电子档案目录与全文的标准格式转换,为接收进馆做好准备。
三、分布式异构数据库研究的相关技术及实现方式
1.采用差异数据整合技术实现电子中心数据采集与移交
辽宁省电子文件中心功能体系建设共分为五个部分。第一部分,通过电子文件前端控制,建立数据采集平台,实现与电子政务系统和办公自动化系统的无缝链接,完成电子政务系统和办公自动化系统生成的电子文件及元数据的自动捕获;第二部分,依据《辽宁省电子文件元数据标准》对电子文件及元数据进行档案元素的增补著录,完成电子文件的归档及档案信息包的封装;第三部分,建立省、市、县(区)级的电子文件管理控制中心,实现各立档单位的档案信息包的接收,完成电子文件信息的集成管理;第四部分,建立电子文件信息发布平台,实现公开数据在党政内、外网上的发布和非公开数据的内部管理,充分满足社会各界的需求;第五部分,建立“电子文件中心”数据甄别及系统安全体系,提供电子文件真实性、完整性和有效性的技术保障措施,实现电子文件数据的识别、校验、加密等,及在“电子文件中心”各系统中和系统间的安全防
范作用。
差异数据整合技术主要应用于第一部分。该项技术集成了Java运行环境,最终形成的“政务系统数据接收插件”以“.exe”文件形式(Linux系统为“.Jar”文件)部署于各省直机关政务系统所运行的网络环境中,通过数据库识别、数据表结构智能分析、电子文件比对、电子文件抽取、转换装载,以及电子文件迁移五个步骤实现电子文件及其元数据的采集。其主要实现原理是通过对不同单位政务系统的异构数据库类型及结构的自动识别,完成中间数据库的装载连接,实现与政务系统的联通;然后通过数据表结构的智能分析,自动寻找出所要采集的电子文件信息,并存储至数据仓库层;最后,将在数据仓库里的电子文件抽取出来,参照电子文件数据整理与归档平台的数据库结构,将数据转换成可接收模式,装入数据库中。
2.采用中间数据法实现档案网站信息资源的集成与共享
中间数据法的原理是采用XML作为中间交换格式,通过程序代码对XML文件的访问,实现Web环境下异构数据库的解析与数据集成。之所以采用XML是因为它是一种对信息可以进行自我描述的语言,能自行定义任意复杂的标记结构。特别是其本身为普通文本格式,而非传统意义上的二进制格式,具有跨平台的优点,对访问Web环境下的异构数据库来说,不失为一种契合度较高的方案。具体实现步骤为:首先,采用ASP、JSP或其他编程语言,对档案网站后台相关栏目的数据表进行解析,将其统一转换为XML格式,存储于档案网站所在的服务器上。然后,解析各网站服务器上的XML文件内容,并将解析好的数据映射到网页上。
3.采用RSS技术实现档案网站信息资源订阅
该项研究的思路来自于新闻资讯网站的“RSS订阅器”功能。这种订阅功能使网友和读者只需在RSS阅读器内订阅自己感兴趣的栏目链接,就可以自动获取这些栏目最新的报道消息。就网站档案信息资源的自身特点以及目前各级档案网站的发布形式来说,网站档案信息资源是按一定顺序排列的,段落层次清晰可见,符合建立RSS信息源的条件。上面提到,在采用中间数据法实现档案网站信息资源集成的同时,我们在市级档案网站的服务器上部署了XML格式交换文件,而阅读器本身对档案信息发布的过程即是采用RSS技术原理,对各市服务器上的XML进行解析的过程,解析采用了AJAx技术,用来实现客户端脚本与服务器之间的数据交互。
4.采用中间件技术实现全省已归档电子文件分布式异构数据库统一格式转换
中间件技术的核心是为每两种异构数据库编写一个中间件,此中间件可以根据双方数据库语言的语法,在交换过程中负责事务级的翻译和数据格式的转换。中间件的设计充分考虑了通用性,它在兼容性和互操作性方面发挥了强大的优势。采用这种技术开发的桥接软件,针对不同档案管理软件,在不改变其原有功能的情况下,通过自动挂接完成其数据库格式及结构的标准化转换。其中所涉及的关键技术主要来自于编程语言及数据库应用技术本身。其中主要包括PowerBuilder数据库透明访问技术、OLE技术,以及PowerBuilder OLEDB对象技术等。
四、分布式异构数据库研究的主要阶段性成果
1.构建档案信息化标准体系
研究从标准建设入手,以整合档案信息资源为工作重心,在全省范围内制定适合于档案事业发展要求及辽宁省档案工作的规范性标准体系,为课题实施奠定基础。根据《中华人民共和国档案法》、《辽宁省档案条例》、《电子文件归档与管理规范》、《电子公文归档管理暂行办法》等有关法律法规和标准,先后制定了《辽宁省电子文件归档与管理暂行规定》、《辽宁省文书档案目录数据库结构与交换格式(试行)》、《辽宁省照片、音频档案目录数据库结构与交换格式》、《辽宁省档案数字化技术标准》、《辽宁省已公开现行文件目录数据库结构规范》、《辽宁省电子文件元数据标准》、《辽宁省基于XML电子文件封装规范》、《辽宁省省直机关归档电子文件移交、接收暂行办法》等。这些标准与规范的建立统一了全省各市、县(区)档案部门工作流程及档案信息资源的基础框架,为异构环境下档案信息资源的整合工作提供了良好制度保证。
2.电子文件数据整理与归档平台系统
系统采用CS/BS架构与前端应用系统的融合,通过预归档操作,将大量不同位置、不同应用系统(OA、文件传输、各种业务系统)中流转的不同格式的电子文件转换为符合标准的统一格式,并与元数据一同封装打包,通过统一的信息出口输出。
研究成果“电子文件数据整理与归档平台系统”在试点单位运行流畅,完成了既定目标,解决了电子文件移交的后顾之忧,对电子文件中心建设起到了至关重要的推动作用。
3.已归档电子文件桥接系统
该系统为单机版独立的应用系统平台。能够实现与目前省直机关所通用的档案管理软件的无缝链接,实现电子档案目录与全文的标准格式转换,成功解决了电子档案因格式无法统一造成的接收进馆困难的现实问题。
该系统试运行流畅,目前已形成标准化档案目录2509条,全文2509件。
4.构建档案网站信息资源共享体系
全国档案网站新闻共享平台
于2008年发布在辽宁省档案信息网首页上。目前共聚合了20(包括国家局档案网站)个省级档案网站的工作新闻信息,实时滚动更新,共发布新闻16374条。
辽宁省档案网站新闻共享平台
于2008年发布在辽宁省档案信息网首页上。目前已完成了全省14个市档案网站新闻信息的聚合,实时滚动更新,共发布新闻4955条。
辽宁省档案网站电子档案共享平台
于2008年发布在辽宁省档案信息网首页上。目前已完成了全省14个市电子档案信息的聚合,实时滚动更新,共发布目录22240条,全文4422件。
省、市两级现行文件共享平台
于2007年发布在辽宁省档案信息网首页上。实现了全省14个市现行文件信息的聚合,实时滚动更新,共发布目录57987条,全文56174件。
辽宁省档案局(馆)对分布式档案异构数据库的研究以科学发展观为指导思想,着眼于档案事业发展的要求,以加快推进档案信息资源开发利用为研究方向,立足于当前档案部门分布式档案异构数据库的发展现状,通过分析不同层次与不同类型的档案异构数据库,研究出了一套符合社会需要和档案部门实际工作的管理模式,构建出了“分布式档案异构数据库共享体系”。其间所形成的研究成果可直接应用于所属领域的实际工作中,可操作性强。但我们也清醒地认识到,由于经济技术条件的限制,以及法规、标准的缺失或滞后,对于建立真正意义上的大规模、分布式和可扩展的信息资源共享体系还有很多挑战。我们将继续秉承创新的理念,不断在实践中提升水平与能力,为实现更大范围的档案信息资源共享做出不懈的努力。
转载注明来源:https://www.xzbu.com/1/view-307006.htm