您好, 访客   登录/注册

基于数据挖掘技术的智能图书馆云检索系统设计

来源:用户上传      作者:

  摘  要: 针对当前图书馆云检索系统未能较多关注用户需求,检索效率低的问题,以数据挖掘技术为核心,以分布式开源框架Hadoop为支撑,提出一种基于数据挖掘技术的智能图书馆云检索系统。首先集成Hive,HDFS,MapReduce,Hadoop组件对智能图书馆云检索系统的硬件部分进行设计。Hive主要用于图书馆书籍资源关键词的存储与分析;MapReduce主要用于图书馆书籍资源实际统计分析计算;HDFS主要用于相关操作数据的存储;而Hadoop主要用于存储设备的相关管理。然后在系统架构下,确定了系统的实现流程以及图书馆资源在分布式环境下的检索机制。通过多组实验数据测试系统性能,并与其他同类检索系统相比较,所设计系统检索效率有明显提升,且随着数据量的增加,提升效率会更加明显。
  关键词: 智能图书馆; 云检索系统; 数据挖掘技术; 系统设计; 数据检索; 性能测试
  中图分类号: TN911.23?34; TP391               文献标识码: A                      文章编号: 1004?373X(2020)02?0060?04
  Design of intelligent library cloud retrieval system based on data mining technology
  ZHAO Chong, WANG Lida
  Abstract: As for the little focus on user requirements and low retrieval efficiency in the current library cloud retrieval system, an intelligent library cloud retrieval system based on data mining technology is proposed, which takes the data mining technology as the core and the distributed open source framework Hadoop as the support. During the system design, Hive HDFS, MapReduce and Hadoop, components are integrated to design the hardware part of the intelligent library cloud retrieval system. Hive is mainly used for the storage and analysis of the keywords in the library book resources, MapReduce is mainly applied to the actual statistical analysis and calculation of the library book resources, HDFS is mainly used for the storage of the related operational data, and Hadoop is mainly used for the related management of the storage devices. In the system architecture, the implementation process of the system and the retrieval mechanism of the library resources in a distributed environment are determined. The performances of the system were tested with multi?group experimental data and compared with those of other similar retrieval systems. The retrieval efficiency of the designed system has been significantly improved, and can be lifted more obviously with the increase of data volume.
  Keywords: intelligent library; cloud retrieval system; data mining technology; system design; data retrieval; performance test
  0  引  言
  从大型企业检索系统到数字图书馆,随着数据量的急速上涨,相关数据服务商不断研究更完善的技术手段,但仍然难以满足读者对图书馆检索数据的多样性需求[1]。对于海量的图书馆资源,如何快速从中获取所需信息,已经是国内专家学者当前的研究重点[2]。
  刘爱琴等人提出基于SOM神经网络的图书馆检索系统[3]。首先对图书馆用户网络访问行为进行分析与统计,根据分析结果对用户阅览行为数据以及相关文献数据库等关联资源进行过滤汇总;然后构建可用性更强的资源数据集,并使用语义检索技术创建图书馆检索系统。该系统对于大规模数据集,检索耗时较长。李广丽等人使用深度学习理论创建了图书馆信息检索系统[4]。该系统能够有效满足读者知识需求,有效提高图书馆资源服务质量,但在时间复杂性方面还有待提升。黄容等人提出基于数值知识元的数字图书馆元检索系统[5]。通过对数值知识元进行有效分析,提出图书馆资源识别、获取、检索方法,并建立一个面向图书馆资源检索的系统。这种模式下的图书馆资源查询时间过长。   本文采用数据挖掘技术设计了一种基于数据挖掘的智能图书馆云检索系统,为及时、有效地获取面向专业内容的书籍资源提供了一种有效方式。
  1  智能图书馆云检索系统
  1.1  智能图书馆云检索系统架构
  在构建智能图书馆云检索系统过程中,需要创建一个适用于智能图书馆信息云检索的分布式检索架构。依据图书馆资源检索需求,使用开源云计算平台Hadoop,建立基于HDFS,MapReduce,Hive相融合的智能图书馆云检索框架。智能图书馆云检索系统可划分为四个部分,分别为访问层、应用接口层、基础管理层以及资源存储层,具体结构如图1所示。
  1) 访问层。图书馆用户根据相关应用接口登录智能图书馆云检索系统,用户通过该系统享受图书信息检索服务,图书馆服务端向检索系统实时更新新入库的书籍信息[6]。
  2) 应用接口层。应用接口层作为智能图书馆云检索系统最主要的应用组件,可根据实际业务类型提供图书馆资源检索平台和各种网络服务。
  3) 基础管理层。基础管理层是智能图书馆云检索系统云存储最关键组件,数据基础管理层通过HDFS,MapReduce,Hive等技术实现系统相关设备之间的联合工作,对系统外部提供统一检索服务[7]。
  4) 存储层。存储层是智能图书馆云检索系统最基础的组件。存储设备均由系统统一管理,使用开源云计算平台Hadoop来实现云存储设备的虚拟化管理,以及存储设备的故障状态诊断等。
  1.2  系统具体组件分析
  Hive主要用于图书馆书籍资源关键词的存储与分析;MapReduce主要用于图书馆书籍资源实际统计分析计算;HDFS主要用于相关操作数据的存储;而开源云计算平台Hadoop主要用于存储设备相关管理,具体示意图如图2所示。
  本文所设计的智能图书馆云检索系统中HDFS架构如图3所示。
  1) HDFS架构中的管理者即控制节点,可用于管理图书馆书籍文件的命名空间、集中分配和存储模块的拷贝等。控制节点将图书馆书籍文件的元数据存储至内存中,书籍文件的元数据含有书籍文件信息以及文件信息在数据节点的信息等。
  2) 数据节点是图书馆资源存储的基本构成部分,能够将书籍资源按照块状形式存储于本地,存储书籍资源的元数据,按照给定周期将全部存在的图书馆资源块信息传送给控制节点。
  3) 客户主要负责获取HDFS中的书籍文件。
  智能图书馆云检索系统中的MapReduce架构如图4所示。MapReduce架构中的作业节点专注于调度作业的运行。任务节点根据具体任务的执行,调度作业被划分为多个切片,任务节点主要负责对切片数据进行映射和相关运算。客户向MapReduce上交图书馆信息检索查询的计算作业[8]。HDFS可提供图书馆信息存储功能,主要用于向全部作业节点提供所需资源。
  智能图书馆云检索系统中的Hive架构具体功能描述如下:
  1) Hive架构中解析器主要负责信息分析查询,对于不同的图书馆资源查询块进行语义分析,并通过从存储节点中获取分区的元数据构成执行计划。
  2) 图书馆信息元数据存储节点存储层中全部表与分区的信息,能够获取云检索系统中HDFS中的数据。
  3) 执行器负责执行计划,执行引擎负责在相关系统组件上执行上述计划。
  4) 处理节点是接受信息查询的组件。
  2  系统架构下图书馆资源数据检索算法
  2.1  图书馆资源数据存储模型及特征量提取
  为了实现智能图书馆目标数据的优化检索,需要分析智能图书馆数据库存储结构模型。使用非线性时间序列分析方法构建智能图书馆资源数据信息流模型,提取图书馆综合资源的频繁项集特征,以提取的频繁项集特征作为目标函数,建立智能图书馆资源时间序列单变量时间序列[xn]。将资源样本长度设定为[N],[X]和[Y]为智能图书馆资源聚类特征属性类别,使用存储节点和存储层空间区域分段方法进行图书馆资源数据的集成分配。当资源云检索的区域划分阈值[ε]满足[2-λt<ε],[λ>0]时,智能图书馆资源数据信息流模型为:
  [xn=x(t0+nΔt)=h[z(t0+nΔt)]+ωn] (1)
  式中,[h[z(t0+nΔt)]]用于描述图书馆资源数据时间序列的近似性特征量。
  为智能图书馆资源信息云检索提供数据输入基础[9],在上述进行智能图书馆资源信息存储结构分析以及非线性时间序列重构的基础上,进行频繁项集特征提取。输入观测向量[Y(i)]和关联规则矩阵[X(i)],[N(i)]用于描述关联维数,[L×m]表示图书馆资源分类中频繁项集干扰的阶数。当满足[L>m]时,矩阵[X(i)]可被划分为[pi]个大小等同的资源块,依据图书馆资源信息聚类特征空间中的嵌入維数,获取一个[Nij×m]维子矩阵,[Xij]用于描述聚类中心向量[10],此时图书馆资源信息的频繁项为[p(i)=N(i)L],相反则有[p(i)=N(i)L]。
  依据图书馆资源信息在存储层中分布的均匀性特征可获得:
  [minβY(i)-X(i)β=minβY(i+1)-X(i+1)β] (2)
  在系统存储层存储节点位置进行扰动约束处理,实现对图书馆资源信息的频繁项特征提取:
  [y1y2 ?yn=1x11…x1,m-11x21…x2,m-1????1xn1…xn,m-1 β0 β1?βm-1+e1e2?en]  (3)
  式中,提取的图书馆资源信息的频繁项特征能够准确描述目标数据特征信息。
  2.2  图书馆资源数据模糊K均值聚类   对提取的频繁项特征利用模糊K均值聚类方法进行分类,获取模糊K均值聚类后输出信息的特征矢量为:[Y(i+1)=U′Ti1Yi1    ?U′Tip(i)Yip(i)] (4)
  对参数运算得到的图书馆资源,采用最小二乘拟合算法进行并行挖掘,如下:
  [β?=V1(k)Σ-11(k)UT1(k)Y(k)] (5)
  式中,[V1(k)],[Σ-11(k),UT1(k)]分别表示图书馆资源[Xk]特征、干扰项和收敛值。经过式(5),即可完成图书馆资源云检索。
  2.3  数据检索输出
  使用特征分解算法对存储层中存储节点进行决策树分叉设计,具体描述如下:
  1) 假设满足[N(i)mod L<m];
  2) 对[p(i)=N(i)/L]进行特征分解;
  3) [p(i)=N(i)L+1]分解图书馆资源信息时间序列[X(i)]与[Y(i)]进行自适应加权;
  4) [Yij=Y(i)[L(j-1)+1:Lj]]对关联特征进行谱分析;
  5) [Xij=UijΣijVTij]满足收敛条件;
  6) 输出最优检索结果。
  3  实验结果与分析
  仿真实验数据使用随机生成的多组数据,测试环境为:Windows Server 2012 R2 Intel[?] XeonTM CPU E5?2650@2.30 GHz 2.30 GHz with 32.0 GB of RAM,Matlab 2014a编程实现。
  为了验证智能图书馆云检索系统的高效性,将其与文献[4]、文献[5]检索系统进行多组对比实验,多组实验数据量为GB数量级,时间单位为ms,为了准确表示系统检索结果,对时间按照10为底取对数,如图5所示。
  分析图5可知,使用本文提出的基于数据挖掘的智能图书馆云检索系统数据检索效率较高,使用文献[4]系统、文献[5]系统直接对图书馆资源进行查询时,随着数据量的增加检索时间也会随之增加,整体呈现出线性变化趋势。表1给出的是对500 GB图书馆数据下检索的时间汇总结果。
  分析表1可知,随着图书馆检索范围的增大,相应的数据检索时间也会逐渐增加,主要原因在于当图书馆资源检索空间增加时,满足查询条件的图书馆资源数据块也会增加。
  当智能图书馆云检索系统节点数量减少时,对大小为500 GB的图书馆资源进行检索的时间统计结果如表2所示。
  分析表2可知,当智能图书馆云检索系统节点数量减少时,对应的检索时间会增加。由此可推断,当智能图书馆云检索系统节点数量持续增加时,由于MapReduce计算节点数量增加,因此数据检索效率有显著提高,检索时间大幅度缩短。
  4  结  语
  对海量大数据的快速查询已成为当前智能图书馆资源管理方法研究的热点,本文基于海量图书馆资源特点提出了数据挖掘算法,并将其应用于分布式开源框架Hadoop中,通过对多组数据的实验结果分析验证了系统的有效性。
  参考文献
  [1] 陈春阳.基于图书馆微信平台的馆配云平台图书数据推送研究[J].出版发行研究,2018(5):44.
  [2] 鲍玉来,白淑霞,飞龙,等.汉蒙跨语言检索系统设计与实现[J].情报理论与实践,2017,40(4):128?132.
  [3] 刘爱琴,李永清.基于SOM神经网络的高校图书馆个性化推荐服务系统构建[J].图书馆论坛,2018,38(4):95?102.
  [4] 李广丽,朱涛,刘斌,等.面向大数据的数字图书馆多媒体信息检索系统优化研究[J].情报科学,2019,37(2):115?119.
  [5] 黄容,何杨煜琪,王忠义,等.数字图书馆数值知识元检索系统设计[J].图书情报工作,2018,62(14):125?132.
  [6] 徐延华.云计算技术环境下数字图书馆资源的整合[J].山西档案,2018(4):102?104.
  [7] 容海萍.图书馆数字资源跨媒体语义关联检索的实现模型及保障措施[J].图书馆工作与研究,2018(7):60?64.
  [8] 徐彤阳,任浩然,張国标,等.数字图书馆图像资源检索框架的构建与实现:基于非下采样的Contourlet变换[J].现代情报,2017,37(6):55?60.
  [9] 王茜,张黎.基于云平台的智慧图书馆系统的设计与实现[J].图书馆,2019(2):50?54.
  [10] 李岩,张博文,陈松路,等.基于重排序融合的社会图书检索系统[J].计算机应用研究,2017,34(3):781?784.
  作者简介:赵  翀(1981—),女,河北宁晋县人,硕士,馆员,研究方向为电子图书档案、图书馆网络及数字化建设。
  王丽达(1974—),女,黑龙江哈尔滨人,副研究馆员,研究方向为电子图书档案、图书馆网络及数字化建设。
转载注明来源:https://www.xzbu.com/8/view-15122196.htm