基于文本挖掘技术的档案资源利用研究
来源:用户上传
作者:
【摘要】随着近年来我国经济快速发展,档案资源种类数量逐步增多,有必要使用文本挖掘技术对档案资源的内容深入挖掘,使档案资源利用效率提升。本文基于文本挖掘技术,就如何高效率挖掘档案资源的潜在价值展开分析,并提出研究思路,供广大读者参考。
【关键词】文本挖掘技术;档案资源利用;问题研究
档案文献资源是地方文献资源体系的重要组成部分,在信息资源利用上具有唯一性,因此在档案资源服务中具有重要地位。伴随着当前科学技术快速发展,各领域产生的信息资源数量快速增多,越来越多的专家学者借助档案资源从事历史考察及数据研究工作,特别是档案馆与政府文化机构从事编纂现代史以来,各领域对档案资源的需求与日俱增,并对学者研究地方经济发展情况有着重要作用。基于文本数据挖掘技术加快档案资源的开发利用,使档案资源更好地服务地方经济、文化、社会发展,成为当前档案工作者应着力解决的问题。
一、文本数据挖掘技术的内涵
(一)文本数据挖掘技术的产生与发展。随着计算机技术快速发展,依托计算机设备形成的数据网络规模不断扩大,并产生了大量信息数据,为了给信息获取者提供全局信息视角,许多科技企业、互联网公司在多个领域建立了大量数据仓储,但大量的文本数据使人无法从中快速找到有价值以供决策需要的信息资源,而依托传统信息网络形成的数据查询、报表分析工具无法满足海量文本数据提取的需求,更难以从中抽取有价值的信息资源。因此,迫切需要一种新的数据分析技术针对数据仓库海量的文本数据挖掘进行分析,并从中提取有价值的信息。文本数据挖掘技术应运而生,并伴随数据仓储技术逐步完善起来。文本数据挖掘是指从大量文本数据信息中自动抽取隐藏在文本夹内有价值信息数据的过程。这些文本数据表现形式可能为规律、概念、模式及各種准则。文本数据挖掘技术可帮助信息获取者分析数据仓储中的历史数据和当前数据,并从中发现各类型信息数据潜在的规则与联系,进而实现未来预测。文本数据挖掘技术是数据挖掘技术的一种,是一门涉及多个领域的交叉学科,涉及到数据库、大数据、可视化表达、交叉计算、人工智能等多个领域。文本数据挖掘的主要特点是针对数据仓库中大量的文本数据进行挖掘、提取、转换、分析和其他可视化模型处理,并从中找到满足决策者需求的信息数据。传统的报表查询处理技术只能直观显示事件的发生结果,并没有深入分析事件产生的背景、原因,而文本数据挖掘技术侧重了解事件发生的背景、原因以及其他诱发因素,并以一定的置信度模型对未来事件发生进行可能性预测,为决策者的信息咨询提供参考。
(二)文本数据挖掘技术的内涵。文本信息的数据挖掘,通常被学者称为文本数据挖掘。当数据挖掘对象全部是文本信息时,使用多种信息挖掘算法与信息检索算法对数据仓库中海量数据进行智能化识别与自动化处理的过程被称为文本数据挖掘。文本数据挖掘通常包括信息特征提取、文本标题识别、文本摘要提取、文本信息分类、文本概念界定、文本信息提取以及文本信息数据分析等流程。文本数据挖掘技术包括用于文档词汇频率分析的向量表示法、用于文本概念解析的数据分析法、用于文本词汇解读的字符串技术、用于文本分类的贝叶斯分类算法、基于文本概念的聚合优化方法等。作为用于文本数据挖掘分析的技术,文本数据挖掘技术可针对多种数据文本进行分析,如语音文本分析、可视化视频文本分析及文本文档分类等,将其应用档案资源开发利用中对档案资源检索分析有着重要价值。
二、档案资源应用文本数据挖掘技术的优势
档案资源是一种重要的信息资源及高价值的信息产品,不仅记录地方的经济发展情况,也对开放的档案信息数据有效集成,不仅反映特定文化区域内社会活动现状,也是社会发展的重要信息资源记录,对推动社会经济发展,企业管理进步,事业单位优化建设有着重要意义。基于文本挖掘技术对档案资源全面挖掘可反映出档案资源的潜藏价值,提高档案资源的信息获取速度,提高文献资源检索效率。
(一)挖掘文献资源的潜藏价值。文本数据挖掘技术针对海量的档案资源高效挖掘、快速聚合,而地方档案资源大多以纸质书籍、特色档案、电子文献的形式存在馆藏资源数据库中,发挥地方档案资源的社会价值就要挖掘档案资源的隐含信息,找到其历史价值和文化价值。文本数据挖掘技术可针对地方档案管理机构海量的档案资源深入挖掘,并进行科学分析,使用算法工具、数理统计工具及信息聚合技术,挖掘档案资源的潜藏价值,并实现其潜在信息的高效聚合,以此挖掘档案资源的潜藏价值。
(二)提高档案资源信息获取速度。为保障用户尽可能短时间内通过线上信息检索系统获取档案资源,可针对不同用户的档案资源获取需求单独设置出信息获取专题,并将用户的专题需求设置为事务,记录每一次档案资源资源获取过程并组建专题事务库,使用关联规则采掘算法找到访问频率较高的专题项目集,通过分类算法工具将用户对不同档案资源的浏览日志记录与项目集合进行相似匹配,将具有相同信息获取习惯的用户组织到同一数据链中,通过减少服务区信息传输数量,针对用户的信息专题需求进行关联检测,找到事务库中频繁访问的专题集,利用语义关联技术分析不同专题间的语义联系,找到各个主体间的语义关联规则,并存储到相关数据库中,当用户通过档案数据访问界面快速访问地方特色文献资源时可通过网络代理根据预先设置规则快速响应,提高信息获取速度,保障用户能快速得到与个人需求匹配的档案资源。
(三)提升档案资源检索效率。档案资源采用的信息检索系统在信息交互、用户信息认知方面还存在着不足,用户使用信息检索系统得到的信息查询结果往往呈线性分布,致使用户不知如何高效检索咨询需求的档案资源数据。基于文本数据挖掘技术针对档案资源开发利用设置的检索系统不仅支持概念检索、模糊检索及多语言输入检索,而且能快速利用文本数据挖掘算法将检索结果精确分类,使之条理化呈现,并借助UI可视化界面进一步帮助用户智能筛选,同时还能针对用户的个性化需求,对档案资源检索结果精准定位,在满足用户信息认知的基础上,实现高效的信息交互,提高档案资源检索效率。 三、基于文本数据挖掘技术的档案资源开发应用方法
(一)建立档案资源数据库。基于文本数据挖掘技术对档案资源开发利用,应针对特色档案信息进行数字化处理,借助转换算法工具将档案数字资源转变为文本数据,并使用文本数据挖掘技术对档案数字资源深入挖掘,在挖掘其潜在价值和潜藏信息的基础上,应用SQL数据库技术将档案资源存储到特定的数据仓储中,并针对不同种类、不同结构的档案资源分类存储,设置不同的专题集集中利用,并以此为依托面向用户推出不同种类的地方档案资源产品与服务,满足用户个性化使用需求。
(二)构建档案资源检索系统。基于文本数据挖掘技术对档案资源的开发与应用还要依托数据分析技术、数据解析工具、信息检索工具设计开发检索系统,实现用户需求与档案资源的有效对接,使档案资源利用效率提升。档案信息检索系统的设计不能局限于操作功能上,除了考虑到档案资源结构特点的基础上,还要根据数据库的构造、档案资源的类型设计不同的算法工具,针对数据中各类档案资源有效分析、及时调取,围绕用户需求提供便捷的档案资源检索服务,提高档案资源利用效率。
(三)建立档案资源智能服务模式。使用文本数据挖掘技术对檔案资源的开发利用还要考虑到用户的服务需求,即根据不同的读者类型、档案资源结构,依托档案数字系统推出档案资源智能化服务模式。这就要求在使用文本数据挖掘技术分析档案资源结构、用户需求的基础上,根据用户的资源获取习惯,依托大数据分析技术面向用户建立专门的习惯集,通过精准分析用户需求,采用智能技术为用户量身打造个性化服务方案,并及时调取与用户需求匹配的档案资源提供给用户,并提供相关解析、数据分析、参考决策等服务,使档案资源的使用价值达到最佳。
四、结语
针对档案资源的高效利用应使用文本挖掘技术构建集成化的档案资源使用体系提高档案资源利用效率,在确定档案资源结构、类型、特点的基础上,使用数据库技术、大数据挖掘技术挖掘档案资源的潜藏价值,并建立良好的资源利用体系,以此提高档案资源的使用效率。
【参考文献】
[1]魏巍.基于大数据的档案数据深度挖掘的探索[J].黑龙江档案,2017(06):66.
[2]穆向阳,朱学芳.图书、博物、档案数字化服务融合模式研究[J].情报科学,2016,34(03):14-19.
[3]孙艳波.档案数字化的系统性及相关性分析[J].兰台内外,2016(01):36.
[4]赵红颖.图书档案资源数字化融合服务实现研究[D].吉林大学,2015.
转载注明来源:https://www.xzbu.com/3/view-15070196.htm