您好, 访客   登录/注册

基于最大互信息系数的图书馆文献个性化推送系统设计

来源:用户上传      作者:

  摘  要: 為使图书馆文献个性化推荐结果更符合用户需求,构建基于最大互信息系数的图书馆文献个性化推送系统。系统由用户安全认证模块、文献资源检索模块和文献个性化推送模块等五大模块构成。其中,文献个性化推送模块基于互信息理论思想,先根据用户兴趣度将文献关键词聚类,再采用最大互信息系数判断用户感兴趣文献类别与关键词信息匹配结果关联度,该值越大,表明文献关键词与用户感兴趣文献类别关联性越强,该文献为用户所感兴趣,可将该文献推送给用户,反之,不向用户推送,实现用户图书馆文献的个性化准确推送。测试结果表明,所设计系统可针对用户感兴趣内容,推送出文献数量多、文献内容详细的文献信息,且系统可针对不同用户使用需求推送出大量与关键词相符的文献信息,说明系统的文献个性化推送质量佳,可大范围地应用在高校图书馆中。
  关键词: 图书馆文献检索; 文献个性化推送; 文献类别判断; 推送系统构建; 关键词信息匹配; 高校图书馆
  中图分类号: TN02?34; TP391                    文献标识码: A                      文章编号: 1004?373X(2020)09?0146?04
  Design of library literature personalized push system based on
  maximal information coefficient
  ZHANG Xusen
  (College of Humanities & Information, Changchun University of Technology, Changchun 130122, China)
  Abstract: In order to make the personalized recommendation results of library literature more satisfied with user requirements, a library literature personalized push system based on maximal information coefficient (MIC) is constructed. The system is composed of user security authentication module, literature resource retrieval module, literature personalized push module and other two big modules. The literature personalized push module based on mutual information theory is used to cluster the literature keywords first according to user′s interest degree, and then the maximal information coefficient is adopted to judge the correlation between literature categories that the users are interested in and keywords information matching results. The greater the value is, the stronger the correlation that the literature keywords are related with the categories becomes. It means that the literature can be pushed to the user. On the other hand, the literature cannot be pushed to the user. The personalized accurate push of the library literature is realized. The testing results show that the designed system can push a large number of literatures and literature information with detailed content to users according to their interesting contents, and can push out a large number of literature information associated with the keywords for their different requirements. It means that the personalized push system of literature has good pushing quality, and can be widely used in the university libraries.
  Keywords: library literature retrieval; literature personalized push; literature category judgement; pushing system establishment; keyword information matching; university library   0  引  言
  随着高校图书馆的不断建设,促使高校图书馆对文献的管理水平不断加强,图书馆文献个性化推送质量是衡量图书馆服务质量的关键指标,根据用户的兴趣度向用户推送与用户兴趣相符的文献资料成为图书馆建设主要考虑的问题[1]。
  最大互信息系数(Maximal Information Coefficient,MIC)主要评价两个变量间的相似程度,相似程度越大表明变量间相关联度越高,最大互信息系数特征具有普适性[2?4],可适用在线性变量和非线性变量的相似度处理过程中。本文基于最大互信息系数设计图书馆文献个性化推送系统,确保向用户推荐其感兴趣的文献,实现图书馆文献的个性化推送。
  1  图书馆文献个性化推送系统设计
  1.1  系统总体结构
  基于最大互信息系数的图书馆个性化推送系统包括五大功能模块,其结构如图1所示,分别为用户安全认证模块、文献资源检索模块、文献定制模块、文献资源管理模块以及文献个性化推送模块等。其中,系统用户安全认证模块是系统安全稳定运行的基石,确保系统的正常安全稳定运行;文献定制模块根据用户的检索情况和文献资源管理模块向用户提供个性化服务;文献个性化推送模块是系统核心,该模块推送的信息包括用户文献借阅信息和读者定制信息等[5?6],是系统的核心模块。
  1.2  文献个性化推送模块设计
  文献推送界面是一种个性化和主动化的服务方式,文献个性化推送模块是系统的核心部分。该模块在设计时采用最大互信息系数理论中的互信息理论思想,先根据用户兴趣度将文献关键词聚类,再将用户感兴趣文献类别与关键词信息匹配,根据用户兴趣度向其推荐感兴趣文献,实现文献个性化推送[7?8]。用户的个性化需求是动态的,用户的文献信息库可随用户的个性化需求改变,提升了图书馆文献推送的准确度和推送质量,文献个性化推荐模块推送结构如图2所示。
  待推送的文献信息按不同关键词分类,将包括相同兴趣点的文献资源分为一种类别,将含有不同兴趣点的文献资源划分为另一种类别,依据划分的文献类别,文献个性化推送模块采用最大互信息系数运算获取用户的感兴趣文献[9?11],并及时地推送给用户,使用户实际得到的文献信息与希望得到的文献信息接近度大幅度提高,增强了图书馆文献个性化推送的效率和精度,充分发挥图书馆中文献资源效用。
  1.3  基于最大互信息系数的推送实现
  1.3.1  最大互信息系数原理
  最大互信息系数主要通过互信息和网格划分的方法计算获取,互信息用于衡量变量间相关性指标,假设样本变量[M=mi,i=1,2,…,n]和[G=gi,i=1,2,…,n],其中,[n]表示样本数量,则将互信息表示为:
  [MI=(M,G)=m∈Mg∈Gp(m,g)logp(m,g)p(m)p(g)] (1)
  式中:[p(m,g)]为[M]与[G]联合概率密度;[p(m)]和[p(g)]均为边缘概率密度。
  网格划分中,假设文献信息[R=(mi,gi),i=1,2,…,n]是有限的有序对集合,定义划分[G]将变量[M]和[G]的值域分别划分为[x]段和[y]段,获取[x*y]网格划分结果。此时,在网格划分后各个网格中计算互信息[MI(M,G)],网格划分方式有多种形式,网格划分后得到的互信息[MI(M,G)]的最大值表示划分[G]的互信息值,此时将划分[G]下的最大互信息表示为:
  [MI*(R,x,y)=max MI(RG)] (2)
  式中,文献信息[R]通过[G]划分的过程用[RG]描述,最大互信息系数通过互信息描述网格优劣的过程,并非是一种单纯的预测过程,而是一种运算过程,运算时将划分网格获取的[MI]值构成特征矩阵,该特征矩阵[M(R)x,y]表示如下:
  [M(R)x,y=MI*(R,x,y)log min(x,y)] (3)
  此时,将最大互信息系数用式(4)表示:
  [MIC(R)=maxxy<L(n)M(R)x,y] (4)
  式中网格划分结果[x*y]上限值用[L(n)]描述,通常[L(n)=n0.6]。
  1.3.2  推送实现
  采用最大互信息系数的图书馆文献个性化推送时,最大信息系数定义文献关键词与用户感兴趣文献类别以及关键词与关键词关联性[12]。假设一个包含[n]个样本数据的文献集合[F=f1,f2,…,fm,c],其中,包括关键词数为[m],用户感兴趣文献类别为[c]。将图书馆文献中任意关键词[fi]与用户感兴趣文献类别[c]间关联性用[MIC(fi,c)]描述,且该值取值范围是[0,1]。[MIC(fi,c)]值越大,表明文献关键词与用户感兴趣文献类别关联性越强[13],说明该文献为用户所感兴趣,可将该文献推送给用户;反之,[MIC(fi,c)]值弱,此时的文献关键词[fi]与用户感兴趣文献类别关联性弱,用户感兴趣度差,则不向用户推送[14]。
  将任意文献间关键词[fi]和[fj]间相关性表示为[MIC(fi,fj)],当[MIC(fi,fj)]值接近1时,说明该两个关键词所在文献内容较接近,当[MIC(fi,fj)]接近0时,说明该两个关键词所在文献内容相互独立。
  2  系统性能的测试
  實验在构建完图书馆文献个性化推送系统后,需要对系统实施仿真测试。实验将本文系统应用到北方某高校图书馆中,为突出比较本文系统的文献个性化推送质量,将基于协同过滤的图书管理系统和基于B/S的图书管理系统文献推送界面与本文系统推送界面实施比对,本文系统和另外两种系统的文献推送界面分别如图3~图5所示。   本文推送界面清晰显示了图书馆文献的推送情况,且系统的推送文献数量较多,可呈现出文献的详细细节信息,丰富文献的推荐内容,说明本文系统可针对用户的感兴趣内容实现充分的文献推送。
  分析基于协同过滤的图书馆管理系统文献推送界面可知,该系统虽然能提供一定条数的文献信息,但推送的文献数量较少,且推送结果仅呈现文献名字,没有呈现出文献的其他相关内容,不利于用户全面了解推送文献内容,系统文献推送质量较差。
  实验为验证本文系统针对不同类型用户的个性化文献推荐效果,从该校计算机专业和会计专业的学生中,随机选取6个学生作为测试对象,系统推送关键词分别是Java,系统推送文献条数如表1所示。
  为突出呈现本文系统的文献个性化推送结果的精度,将表1数据结果用图6柱形图描绘。
  从表1和图6推送结果可知:本文系统推送Java相关文献数目均最多,协同过滤系统推送数目次之,B/S系统推送文献数目最少,且三种系统文献个性化推送结果中均会出现与关键词不相关的推送结果。详细分析表1,图6可知,本文系统推送Java相关文献中不相关文献条数在0~3条;而协同过滤系统推送不相关文献条数较多,在20~34条之间变化,推送结果存在较大偏差;B/S系统推荐不相关文献在15~26条之间变化。对比分析可知,本文系统可向系统使用者准确推送多條与关键词相关的文献,个性化推荐效果更佳,可在高校图书馆中推广使用。
  3  结  语
  图书馆文献个性化推送应以用户的感兴趣内容为主要推送内容,最大互信息系数通过评估文献关键词与用户感兴趣文献类别间的关联性,判断文献内容是否为用户所感兴趣内容,若文献内容为用户感兴趣内容,则将文献信息推送给用户,反之,不推送给用户,实现图书馆文献个性化推送。
  参考文献
  [1] 翟丽丽,沃强,张树臣.制造业大数据联盟资源推送服务算法[J].计算机集成制造系统,2017,23(11):40?50.
  [2] 董倩妍,王力,蒋本聪,等.基于AAR模型的听觉诱发中潜伏期反应特征提取[J].电子技术应用,2017,43(11):78?81.
  [3] 庄夏.基于互信息特征选择和LSSVM的网络入侵检测系统[J].中国测试,2017,43(11):134?139.
  [4] 涂月明,付湘,杨会娟.基于互信息的湖泊日水位预测:以西洞庭湖为例[J].人民长江,2017,48(16):38?42.
  [5] 王敏,吴震,饶金涛,等.针对密码芯片频域互信息能量分析攻击[J].通信学报,2015,36(1):131?135.
  [6] 冯毅雄,张舜禹,高一聪,等.基于特征语义分析的数控机床设计知识精确智能推送方法[J].计算机集成制造系统,2016,22(1):189?201.
  [7] 庄文杰,谈国新,侯西龙,等.非物质文化遗产资源自适应推送系统的用户模型构建研究[J].情报杂志,2017,36(11):106?113.
  [8] 王有远,赵璐,张乐恩.基于情境约束的知识个性化推送[J].中国机械工程,2017,28(15):1812?1819.
  [9] 李淑华,郝星耀,周清波,等.基于Web的自动灌溉控制系统数据实时推送设计与开发[J].农业工程学报,2015,31(15):133?139.
  [10] 尹延宁,刘太君,叶焱,等.基于Node. js, SenchaTouch和iBeacon信息推送系统的设计与实现[J].火力与指挥控制,2016,41(8):151?154.
  [11] 贾非,蒋超,吴茵杰.特色函件推送系统设计及其对论文阅读率的提升作用[J].编辑学报,2015,27(3):280?282.
  [12] 周皖婧,辛涛,刘拓.“互联网+”背景下的学生个性化学习系统开发:现状与启示[J].清华大学教育研究,2016,37(6):79?84.
  [13] 刘建波,马彩虹,陈甫,等.遥感卫星数据实时主动服务系统设计与实现[J].遥感信息,2016,31(3):61?67.
  [14] 吴锦辉.基于功能需求的图书馆微信内容建设分析[J].国家图书馆学刊,2015,24(1):52?58.
  [15] 胡媛,胡昌平.基于知识聚合的数字图书馆社区推送服务组织:以武汉大学数字图书馆社区为例[J].国家图书馆学刊,2016,25(2):66?76.
转载注明来源:https://www.xzbu.com/8/view-15248683.htm