您好, 访客   登录/注册

大数据背景下的图书馆读者借阅行为分析

来源:用户上传      作者:

  摘  要: 图书馆读者的数量大、借阅行为复杂多变,而传统图书馆读者借阅行为分析方法精度不高,且工作效率极低,无法满足现代图书馆管理的要求。为了更好地刻画图书馆读者借阅行为,提高图书馆读者借阅行为分析的准确性,设计了大数据背景下的图书馆读者借阅行为分析方法。首先,分析图书馆读者借阅行为的研究现状,对图书馆读者借阅行为分析数据进行聚类分析,并提取图书馆读者借阅行为分析特征;然后,采用大数据分析技术——最小二乘支持向量机对图书馆读者借阅行为变化特点进行拟合,构建图书馆读者借阅行为分析模型;最后进行图书馆读者借阅行为分析实例验证。结果表明,大数据背景下的图书馆读者借阅行为分析精度超过93%,而当前其他分析方法的精度均小于90%,同时,减少了图书馆读者借阅行为分析时间,所提方法分析速度明显加快,具有显著的优势。
  关键词: 借阅行为分析; 图书馆读者; 聚类分析; 特点拟合; 分析模型构建; 实例验证
  中图分类号: TN911.1?34; TP391                    文献标识码: A                   文章编号: 1004?373X(2020)07?0090?04
  Library readers′ borrowing behavior analysis under background of big data
  REN Lihong
  (Handan University, Handan 056005, China)
  Abstract: Due to the large number of library readers and the various and complex library readers′ borrowing behavior, the precision of traditional analysis methods of library readers′ borrowing behavior is not high, and the working efficiency of the methods is extremely low. Therefore, they cannot meet the requirements of modern library management. In order to satisfactorily describe the library readers′ borrowing behavior and improve the precision of library readers′ borrowing behavior analysis, an analysis method of the library readers′ borrowing behavior under the background of big data is designed. The research status of the library readers′ borrowing behavior is studied, and then, the data of the library readers′ borrowing behavior analysis is subjected to clustering analysis, and the features of library readers′ borrowing behavior analysis are extracted. After that, the big data analysis technology named least squares support vector machine (LS?SVM) is used to fit the change characteristics of the library readers′ borrowing behavior and construct the analysis model of library readers′ borrowing behavior. Finally, examples are given to verify the library readers′ borrowing behavior analysis. The results show that the precision of the library readers′ borrowing behavior analysis under the background of big data exceeds 93%, while the precision obtained with other analysis methods is below 90%. In addition, the duration of the library readers′ borrowing behavior analysis using the proposed method is reduced and the analysis speed is obviously accelerated. Therefore, the proposed method has significantly advantages.
  Keywords: borrowing behavior analysis; library reader; clustering analysis; characteristic fitting; analysis model establishment; example verification   0  引  言
  图书馆是人们获取知识的重要场所,其对高校的教学质量、科研起着重要的作用,全国各地的高校均建立了自己的图书馆管理系统,大幅度提高了图书馆的管理水平,也减轻了图书管理员的工作量[1?3]。图书馆管理系统经过多年运营,积累了大量的历史数据,如图书数据、读者数据等,对这些数据进行深度挖掘,掌握读者的借阅行为习惯和规律,可以为读者提供更优的服务,因此,对图书馆读者的借阅行为进行研究,对于提高图书馆的管理水平具有十分重要的意义[4?5]。
  最初由于图书馆读者借阅行为的历史数据较少,通常采用人工方式对图书馆读者借阅行为进行简单的统计与分析,难以充分找到图书馆读者借阅行为的规律,馆藏资源利用率低[6]。随着自动化技术、信息处理技术的不断发展,出现了许多基于数据挖掘技术的图书馆读者借阅行为分析方法[7],如基于时间序列分析法的图书馆读者借阅行为分析方法[8],根据时间前后采集图书馆读者借阅行为,但是其无法全面、客观地描述图书馆读者借阅行为变化特点,使得图书馆读者借阅行为分析结果不可靠[9];基于关联规则算法的图书馆读者借阅行为分析方法,反映了图书馆读者与借阅活动之间的联系[10],但是其属于线性分析技术,而图书馆读者与借阅活动之间的联系具有随机性,即非线性,因此图书馆读者借阅行为分析误差大[11];有学者提出了基于流通日志的高校学生图书借阅行为分析方法[12],从流量日志找到读者图书借阅行为变化规律,但是由于当前流通日志数据量相当大,其图书馆读者借阅行为分析时间长,效率低[13?15]。
  为了更好地描述图书馆读者借阅行为变化特点,获得高精度的图书馆读者借阅行为分析结果,提出大数据背景下的图书馆读者借阅行为分析方法,并通过实例分析本文图书馆读者借阅行为分析方法的有效性和优越性。
  1  大数据背景下的图书馆读者借阅行为分析方法
  1.1  聚类分析算法
  对于[n]个图书馆读者借阅行为分析数据[X={x1,x2,…,xi,…,xn}],设有[k]个聚类,即有[k]个类别的图书馆读者借阅行为,聚类分析算法的工作原理为:从[n]个图书馆读者借阅行为数据中随机选择[k]个图书馆读者借阅行为数据为初始聚类中心,其他图书馆读者借阅行为数据根据其与聚类中心距离分别分配到最相似的类别中。
  1) [cj]表示第[j]类的图书馆读者借阅行为类的中心,那么[xi]和[cj]的距离为:
  [d(xi,cj)=(xi1-cj1)2+(xi2-cj2)2+…+(xid-cjd)2]  (1)
  [xi]和[cj]之间的相似度计算公式为:
  [s(xi,cj)=1d(xi,cj)] (2)
  2) 对所有聚类中心进行更新,第[j]个类别的图书馆读者借阅行为分析样本集合为[{xj1,xj2,…,xjnj}],相应聚类中心为[cj=(c1j,c2j,…,ckj,…,cdj)],[ckj]为[cj]的第[k]个属性,具体如下:
  [ckj=xkj1+xkj2+…+xkjnjnj] (3)
  3) 不断重复上述步骤,直到更新后的类中心和更新前一致为止,采用均方差作为测度标准,即:
  [J=i=1kj=1ni(xij-ci)2(n-1)] (4)
  通过上述步骤,就可以得到一个图书馆读者借阅行为分析样本的相似历史样本数量,不用选择所有的图书馆读者借阅行为历史样本进行建模,减少了图书馆读者借阅行为分析样本数量,可以提高图书馆读者借阅行为分析效率。
  1.2  提取图书馆读者借阅行为分析特征
  每個图书馆读者借阅行为有自己的特征,可以根据这些特征来识别相应的图书馆读者借阅行为。本文从3个方面提取读者借阅行为特征:
  1) 读者借阅图书的月时间、周时间和时段;
  2) 读者专业、读者学历、读者的职业、读者的年龄段;
  3) 读者借阅书籍类型、读者借阅书籍数量。
  1.3  图书馆读者借阅行为分析算法
  由于图书馆读者的数量大、借阅行为复杂多变,结合该特点,本文采用大数据分析技术——最小二乘支持向量机对图书馆读者借阅行为变化特点进行拟合,构建图书馆读者借阅行为分析模型。给定[M]个图书馆读者借阅行为分析数据[{xi,yi}],[i=1,2,…,n],构造最优图书馆读者借阅行为分析数据决策函数:
  [f(x)=wTφ(x)+b] (5)
  式中:[b]为偏置量;[w]为权值向量。
  根据现代统计学理论得到满足式(5)的条件为:
  [yi-wTφ(x)+b≤εmin J=12wTw] (6)
  根据最小二乘支持向量机的工作原理将式(6)转换为:
  [minw,b,eJ(w,e)=12wTw+12γi=1ne2is.t.    yi=wTφ(xi)+b+ei] (7)
  式中[γ]表示控制误差的惩罚程度。
  引入拉格朗日乘子法解决式(7),建立拉格朗日函数:
  [L(w,b,e,α,γ)=12wTw+12γi=1ne2i-i=1nαi(wTφ(xi)-b+ei-yi)] (8)
  式中[αi]表示拉格朗日乘子。
  根据优化条件[?L?w=0,?L?b=0,?L?ei=0,?L?αi=0],消除[w]和[e],定义核函数[K(xi,xj)=φT(xi)φ(xj)],得到图书馆读者借阅行为分析模型为:
  [yi=i=1nαiK(xi,xj)+b ] (9)
  1.4  大数据背景下的图书馆读者借阅行为分析原理   大数据背景下的图书馆读者借阅行为分析原理为:
  1) 采集图书馆读者借阅行为分析数据;
  2) 对图书馆读者借阅行为分析数据进行聚类分析,并提取图书馆读者借阅行为分析特征;
  3) 采用大数据分析技术——最小二乘支持向量机对图书馆读者借阅行为变化特点进行拟合,构建图书馆读者借阅行为分析模型,具体如图1所示。
  2  图书馆读者借阅行为分析实例
  2.1  图书馆读者借阅行为的数据来源
  为了分析大数据背景下的图书馆读者借阅行为分析方法的性能,选择5个图书馆读者借阅行为的历史数据作为实验对象,它们的历史数据数量如表1所示。将历史数据根据5[∶]1的比例划分为训练样本和测试样本。选择基于关联规则算法的图书馆读者借阅行为分析方法、基于时间序列分析法的图书馆读者借阅行为分析方法进行对照实验,使用Visual Studio 2014编程开发工具实现图书馆读者借阅行为分析仿真实验。
  2.2  图书馆读者借阅行为分析精度
  分别采用本文方法、关联规则算法、时间序列分析法对表1中的5个图书馆读者借阅行为分析的训练数据集合进行建模,建立图书馆读者借阅行为分析模型,然后对5个图书馆读者借阅行为分析的测试数据集合进行分析,统计它们的分析精度,结果如图2所示。从图2可以发现,大数据背景下的图书馆读者借阅行为分析精度平均值为93.16%,关联规则算法、时间序列分析法下的图书馆读者借阅行为分析精度平均值为88.98%和86.90%,相对于关联规则算法、时间序列分析法,本文方法的图书馆读者借阅行为分析精度分别提高了4.18%和6.26%,减少了图书馆读者借阅行为分析误差,不仅获得了更好的图书馆读者借阅行为分析结果,而且图书馆读者借阅行为分析结果十分稳定,更加可信。
  2.3  图书馆读者借阅行为分析速度
  分别统计本文方法、关联规则算法、时间序列分析法对5个图书馆读者借阅行为分析数据的训练时间和测试时间,结果分别如图3,图4所示。从图3可以发现,大数据背景下的图书馆读者借阅行为分析的训练时间明显低于关联规则算法和时间序列分析法,加快了图书馆读者借阅行为分析的训练速度;从图4可知,本文方法的图书馆读者借阅行为分析的测试时间少于关联规则算法、时间序列分析法,提升了图书馆读者借阅行为的分析速度。
  3  结  语
  读者借阅行为分析法是当前现代图书馆管理研究的一个重要方向,为了获得理想的图书馆读者借阅行为分析结果,设计了大数据背景下的图书馆读者借阅行为分析方法。首先,通过聚类分析算法对图书馆读者借阅行为数据进行预处理,去除一些无关的数据;然后,提取读者借阅行为分析特征;最后,采用最小二乘支持向量机构建图书馆读者借阅行为分析模型。测试结果表明,大数据背景下的图书馆读者借阅行为分析的平均精度超过93%,远远高于其他图书馆读者借阅行为分析方法的精度,减少了图书馆读者借阅行为分析时间,分析效率得到了显著改善,具有广泛的应用前景。
  参考文献
  [1] 彭博.图书馆借阅行为的多属性可视化分析[J].农业图书情报学刊,2017,29(10):9?12.
  [2] 李东,董颖,谢丽斌,等.基于用户行为的馆藏纸质资源借阅影响因素分析[J].情报科学,2014,32(7):103?107.
  [3] 赵楠.高校图书馆读者借阅行为分析及导读策略研究[J].赤峰学院学报(自然科学版),2014,30(10):96?97.
  [4] 赵保华,曾晓梅.基于图书馆流通数据的读者行为分析:以阿坝师范学院图书馆为例[J].阿坝师范学院学报,2016,33(2):102?107.
  [5] 吴晓海,黄芳.首都医科大学医学生图书借阅行为分析[J].中华医学图书情报杂志,2015,24(5):44?49.
  [6] 彭渝.基于GRI关联规则的图书馆读者借阅行为分析研究[J].科技情报开发与经济,2014,24(11):78?80.
  [7] 于曦.师范类高校图书馆读者借阅行为分析及导读策略研究[J].大学图书情报学刊,2011,29(1):71?75.
  [8] 陈春颖,熊拥军.基于序列模式挖掘的读者借阅行为分析[J].图书情报知识,2011,12(4):92?96.
  [9] 黄海云,韩育,张达瀚,等.贝叶斯模型大数据分析的软件实现:以河北科技大学图书馆为例[J].图书馆论坛,2018,38(5):95?102.
  [10] 白晗.基于关联规则算法分析图书馆读者借阅行为[J].中国教育技术装备,2013,7(3):77?78.
  [11] 崔金环,解海.基于数据挖掘的图书馆读者借阅行为分析[J].现代电子技术,2019,42(1):166?170.
  [12] 王睿,杨晋苏,彭聚霞.基于流通日志的高校学生图书借阅行为分析与对策研究[J].福建电脑,2018,34(10):12?14.
  [13] 彭博.面向用户属性的个性化图书推荐方法探究[J].图书馆工作与研究,2017,22(10):118?123.
  [14] 杨江丽,高凡,董若剑.基于数据挖掘的高校图书馆读者行为研究:以西南交通大学图书馆为例[J].图书馆研究,2013,43(3):106?110.
  [15] 刘春霞.基于数据挖掘的用户借阅行为分析:以河南理工大学图书馆为例[J].图书情报导刊,2017,2(8):1?8.
转载注明来源:https://www.xzbu.com/8/view-15245408.htm