面向知识服务的图书馆知识挖掘系统构建探析
来源:用户上传
作者:
摘要:对海量学术文献资源进行知识挖掘,是保障知识服务质量的关键。图书馆要合理利用知识挖掘工具,做好学术文献资源的开发利用工作。文章从有利于海量学术文献资源的采集、检索和有利于数字图书馆建设方面,论述了图书馆开展知识挖掘的必要性,提出了面向知识服务的海量学术文献资源的知识组织流程,即知识采集与筛选、知识有序化组织、知识挖掘分析。从文献资源的内容、结构、用法3个维度进行知识挖掘,以建构海量学术文献资源的知识挖掘系统。
关键词:知识服务;学术文献;知识挖掘;图书馆
中图分类号:G250.7;G252 文献标识码:A 文章编号:2095-5707(2020)03-0034-03
Abstract: Knowledge mining of massive academic literature resources is the key to ensuring the quality of knowledge services. Libraries should make rational use of knowledge mining tools and do a good job in the development and utilization of academic literature resources. This article expounded the necessity of knowledge mining in libraries from the aspects of being conducive to the collection and retrieval of massive academic literature resources and the construction of digital libraries, and proposed the knowledge organization process of massive academic literature resources for knowledge services, namely knowledge collection and screening, knowledge orderly organization, and knowledge mining analysis. It also recommended that knowledge mining should be carried out from the three dimensions of content, structure and usage of literature resources to construct a knowledge mining system of massive academic literature resources.
Key words: knowledge services; academic literature; knowledge mining; libraries
網络环境下信息呈指数级增长,形成海量大数据,改变了人们的生活、学习方式。但是由于信息来源多样,处于混沌、无序状态,增加了用户获取和利用的难度。随着情报学、信息处理技术的进步,知识服务逐渐得到人们的重视,人们迫切期望获得优质的知识资源,以应对激烈的市场竞争[1]。尤其是图书馆拥有海量学术文献资源,但很多用户并不能有效整合利用这些资源,难以从中发现有价值的知识,无法发挥馆藏资源的应用价值。所以,需要图书馆改变传统的信息组织方式,从认知层面进行知识组织,借助知识挖掘工具,发现海量学术文献资源的关联,让杂乱的信息资源有序化,实现知识的高效组织与深入挖掘,进而提高知识服务的效益,方便用户检索和利用,促进知识的传播、利用和共享,促进信息服务向
知识服务转型升级。
1 图书馆开展知识挖掘的必要性
知识挖掘是借助文本挖掘、机器学习等多种技术的支持,从海量信息中筛选出可供利用的知识,实现高效的知识服务,有助于图书馆提升资源整合效率。
1.1 有利于海量学术文献资源的采集
随着人们对图书馆学术文献资源的需求量增大,对知识服务的深度与广度提出了更高的要求。图书馆依托数据挖掘、机器学习、云计算等知识挖掘技术,可以实现对网络资源的快速抓取、科学分类和高效整合,也可以提高数据统计、历史数据查询的速度。依托知识挖掘工具,图书馆可以全面分析用户需求,确定所需的文献采访目录,减少文献采访经费,提升文献采访效率[2]。尤其是数据挖掘技术可以辅助采集互联网上的各类信息,并发现海量学术文献之间的关联,将知识以可视化的方式展现出来,并辅助图书馆建立专门的知识库,促使图书馆由文献管理提升到知识服务的新高度。
1.2 有利于海量学术文献资源的检索
如今用户检索信息的渠道更加多样化,要求检索的信息更加完整准确,也期望图书馆提供更加便捷高效的信息检索服务。各类知识挖掘技术的应用,有助于图书馆对复杂的数据进行分析,发现其中有用的信息,并主动将这些信息展现给用户。尤其是文本挖掘技术可以迅速发现海量学术文献中隐含的信息,可以与计算机存储、管理相关的本体论相结合,实现知识资源的集成、交换与转化,提升图书馆知识服务的精准度。智能检索技术的引入,则可以根据用户的检索行为,对用户的查询意图、计划等进行预测,借助复杂的算法和模型,从海量学术文献资源中抽取可理解的、有趣的知识,并以动态可视化的方式提供给用户[3]。
1.3 有利于数字图书馆的建设
研究人员不再满足于对文献资料的借阅,而是期望获得针对咨询问题的更深层次的解答。图书馆应顺应网络时代用户需求的新趋势,加快馆藏资源的数字化,促进信息服务的智能化。与传统的图书馆服务不同,数字图书馆的建设是利用先进信息技术,实现对大规模数据的整合利用,建立兼容性强、可拓展的知识库,实现信息资源的有序组织和深入挖掘,进而满足用户的个性化需求。面对传播方式、格式、来源多样的信息,要经过数据整合得到符合用户需求的内容,常规的数字化技术很难做到,只有借助知识挖掘工具,实现对海量文献资源的深入分析,保障获取知识的完整性、准确性和安全性,才能真正发挥知识挖掘的应用价值,这也有助于数字图书馆的发展。 2 面向知识服务的学术文献资源知识组织流程
知识组织是在特定的知识情境下,利用知识组织工具和方法,对知识资源进行分类处理,形成有序化的知识集合,是实现知识挖掘的基础。为了提高知识服务质量,图书馆需要改变传统的知识组织方式,实现有序化的知识服务目标,并在此基础上深入挖掘,获得新的知识内容(见图1)。
2.1 知识采集与筛选
图书馆利用互联网技术,从专业数据库、学术网站等获取大量学术文献资源后,借助决策树、神经网络、自然语言处理等技术,发现隐含的规律,挖掘符合用户需求的内容,并做好知识提取工作。从大规模数据中获取用户所需的知识后,要按照细粒度原理进行清洗、筛选,为后续的有序化组织奠定基础[4]。这个阶段要获取的知识,包括用户要求、用户行为数据、情境数据、文献资料等,然后要对目标资源进行筛选,从海量学术文献资源中挑选适宜的知识,剔除冗余信息,减少不必要的干扰。对知识元的抽取,则是按照特定的规则,从海量学术文献资源中自动筛选知识点,做好知识点的分类工作,最后将经过筛选的知识自动存储,对不符合要求的需返回知识筛选阶段重新处理。
2.2 知识有序化组织
对知识的有序化组织是发现不同类型学术文献资源之间的关联,将这些资源按照特定的规范进行排布,以便于统计分析和识别理解。在这个阶段,要先做好知识表示工作,即根据知识建构标准,将用户所需的知识、热点信息等,根据类型差异选取合适的编码方式,从结构、功能等多个角度,形成层次多样的知识粒度,便于机器理解和挖掘处理,也便于用户的理解和信息交互。知识表示也可以称作知识描述,是采用语义标注、过程表示、框架法等方式,体现不同知识之间的关联,形成可供计算机识别的知识结构[5]。然后将知识元作为最小的知识表示单元,对经过描述的知识进行有序化处理,使其按照一定的规律排布,便于在知识库建构、知识挖掘等环节,能够更好地利用、传播、共享。
2.3 知识挖掘分析
在对知识资源进行规范化表示后,需要根据用户的实际需求,做好知识的深度挖掘与聚类分析工作。这是提供知识服务的核心环节,直接决定着知识服务的质量[6]。在这个过程中,图书馆要借助神经网络、机器学习等,对粒度知识进行合理分类、关联与推理,从中挖掘可供理解的、有用的、新颖的内容,形成细粒度知识网络,为知识服务提供可靠支持。知识挖掘旨在解决用户提出的问题,根据不同的问题变换粒度大小,从中发现隐含的规律,为不同问题提供多层次的知识。图书馆也可以依托Agent技术,实现统一的粒度知识聚类,在分析推理基础上建立动态学习模型,借助不同Agent组之间的交换操作,实现不同接口之间数据对象的传递,从而更有针对性地解决问题。
3 面向知识服务的学术文献资源知识挖掘维度
根据不同用户知识服务需求的差异,对学术文献资源的知识挖掘可以分为3个维度,即内容挖掘、结构挖掘和用法挖掘。图书馆需要结合实际,选择适宜的知识挖掘技术,从不同的维度对海量数据进行处理。
3.1 文献资源内容挖掘
通过对学术文献资源进行内容层面的分析,进而发现有用知识的过程就是内容挖掘。学术文献来源广泛,种类多样,从中发现潜在的、新颖的、有趣的知识,涉及特征抽取、学科分类和关联分析等多个步骤。从挖掘对象上来看,包括多媒体文件和文本文档。其中互联网环境下多媒体形式的资源日益增多,如视频、音频、图像等,私人数据或系统数据由于无法被索引,故而很难被发现和利用。图书馆从网上抓取学术文献资源后,还需要借助多媒体分析工具,根据文件内容进行关联分析,以特征提取的方式发现有用的知识。对于学术文献文本资源的挖掘,则是对大规模文档进行聚类分析,通过分类、归纳、推理等方式抽取知识。
3.2 文獻资源结构挖掘
从海量学术文献资源中挖掘链式结构,根据不同信息资源之间的链接关系,从中提取有用的知识,即是结构挖掘。互联网环境下,不同的网页、多媒体文件之间存在关联,通过对其中的联系进行分析,发现不同信息之间的相似度,并对相似性进行排序,就可以帮助用户找到权威的站点,从而发现所需的学术文献资源。这种挖掘方法源于引文分析,最初见于网页归类中,即对不同的网页链接和对象进行分拆,建立对应的链式结构模式,有助于发现重要的页面信息。为了避免单纯从链接层面挖掘知识的局限性,一些学者提出,提供指向重要站点的链接集合,这些站点可以是有关某学科的参考文献下载网站,也可以是文献推荐列表,能够方便用户更好地获取权威的学术信息。
3.3 文献资源用法挖掘
与上述基于原始数据进行知识挖掘的方法不同,基于用法的挖掘主要针对系统数据和用户行为数据,通过对图书馆信息系统的数据进行分析,从中提炼第二手资料,包括服务器日志记录、浏览器访问记录、注册信息、用户交互信息等,目的在于全面掌握不同用户的需求,通过预测分析了解用户喜爱的学术文献类型,进而有针对性地开展学术文献整合工作。图书馆服务系统中保留了用户的访问记录,在知识挖掘过程中不仅可以采用追踪个性化记录的方式,了解不同用户的偏好,也可以根据不同用户的访问情况,主动推送个性化服务内容。通过深入挖掘日志文件中隐含的规律,有助于识别潜在的用户,改进学术文献服务模式,强化用户对图书馆服务的认知。
4 面向知识服务的学术文献资源知识挖掘系统构建
依托知识挖掘工具发现有价值的知识,是商家、科研人员、普通用户的共同需求。图书馆建立基于关联数据的知识挖掘系统,能够提高知识挖掘的效率,促进馆藏学术文献资源得到更好的利用。
4.1 总体设计目标
图书馆根据用户的知识服务需求,建立包括知识挖掘、知识展示等功能模块的服务系统,对采集的学术文献资源进行知识挖掘,可以凭借自然语言处理、语义分析、可视化等技术,在服务系统页面展示学术文献资源之间的关联关系,标注不同资源的属性、用户访问情况等信息,获得更加清晰的知识地图。基于此,用户可以高效获取所需文献,馆员也可以借助关联数据,挖掘不同用户的兴趣爱好,进而提供具有针对性的服务。知识挖掘系统的设计,可以选择合适的开源软件作为程序开发平台,如NetBeans开发平台就可以提供多种便捷的系统管理窗口,方便对海量学术信息资源进行管理,并且可选择Java语言等对关联数据进行读取,实现不同类型数据的关联构建。 4.2 知识挖掘模块
图书馆对学术文献资源进行过滤、清洗等操作后,借助离群点分析的方式,对数据进行离散化处理,去除关联数据中的噪声,明确不同数据对象之间的关系,并输入知识挖掘模块中。然后借助语义挖掘、聚类分析等技术,实现对学术文献资源的深度分析,从中提取有价值的知识。关联数据的应用涉及本体技术,可以将海量孤立的信息联系起来,并以资源描述框架(RDF)链接的方式发现实体资源之间的关联映射,并将关联数据分类纳入本地知识库中。在系统查询页面,用户可以直接输入检索词获取所需的学术文献,系统会自动调取与之相关的数据,借助语义描述、逻辑推理等方式获取显性知识,便于用户更好地浏览和利用。
4.3 知识展示模块
图书馆开展知识挖掘的目的,是获得更有价值的知识,让更多的用户受益。知识展示模块的功能在于评估知识挖掘模式,并以可视化的方式将提取的知识推送给用户,提高图书馆知识服务的质量。该模块主要针对数字化资源进行展示,其中的查询解析器可以标注用户输入的检索词,便于系统对用户需求进行识别,自动选择适宜的关联算法,对海量学术文献资源进行整合处理,对馆藏文献中的知识元进行标引,对知识元之间的逻辑关系进行推理,抽取关联知识库中有用的知识,并通过查询引擎将结果推送给用户。依托知识挖掘系统强大的知识挖掘能力,图书馆可以提供科技查新、决策支持、情报分析等服务,便于用户在图书馆知识服务平台获得更多新的知识。
5 小结
图书馆为达成提供高水平知识服务满足用户个性化需求的目标,需要借助智能工具或技术,构建知识挖掘系统,建立知识库,从海量学术文献资源中发现隐含的知识,对大规模数据进行处理调用,根据不同用户在特定情境下的知识需求,推送具有針对性的知识服务产品,促进馆藏学术文献资源的深层次开发。
参考文献
[1] 潘杏仙,康琳,宛凤英.智慧图书馆个性用户分析及培育思路构想[J].大学图书情报学刊,2016,34(2):5-8,23.
[2] 肖洪,赵洪,毋晓霞.基于知识挖掘与协同融合的情报研究方法[J].情报理论与实践,2018,41(10):15-19.
[3] 赵淑媛.浅析数字档案信息资源的知识挖掘技术[J].兰台世界, 2017(A01):36-37.
[4] 刘海涛,赵卫东.基于知识模式挖掘的流程知识推荐系统[J].计算机集成制造系统,2017,23(2):396-403.
[5] 柳益君,何胜,熊太纯,等.大数据挖掘视角下的图书馆智慧服务——模型、技术和服务[J].现代情报,2017,37(11):81-86.
[6] 王凯,孙济庆,李楠.面向学术文献的知识挖掘方法研究[J].现代情报,2017,37(5):47-51,110.
(收稿日期:2019-10-31)
(修回日期:2019-11-20;编辑:魏民)
转载注明来源:https://www.xzbu.com/1/view-15244599.htm