大数据挖掘技术的图书馆移动用户行为分析
来源:用户上传
作者:
摘 要: 传统行为分析方法存在预测能力不足、分析片面化,获取的行为特征数据规律性较差等问题,导致得到的分析结果与实际不符。基于此,提出大数据挖掘技术的图书馆移动用户行为分析方法。该方法將获取的大数据预先清洗、筛选,并利用转换算法集成特征数据;使用BP神经网络适应度函数构建评估预测模型,挖掘行为特征规律,根据预测结果将特征相互信息值排序;通过聚类算法捕捉具有关联的数据,利用交叉分析法分析用户行为内在性质,实现全面的图书馆移动用户行为的全面挖掘。实验结果表明,与传统方法相比,所提分析方法挖掘用户行为特征数据的能力更强,分析结果准确度更高,可应用于现阶段图书馆移动用户行为分析。
关键词: 图书馆移动用户; 行为分析; 大数据挖掘技术; 数据获取; 预测建模; 交叉分析
中图分类号: TN919?34; TP392 文献标识码: A 文章编号: 1004?373X(2020)18?0164?04
Abstract: As the traditional behavior analysis method has some problems, such as insufficient prediction ability, one?sided analysis and poor regularity of the obtained behavior characteristic data, which leads to the fact that the analysis results are not consistent with the actual situation. On this basis, a library mobile users′behavior analysis based on big data mining technology is proposed. In this method, the acquired big data is cleaned and screened in advance, and the feature data is integrated by means of the transformation algorithm. The fitness function of BP neural network is used to construct the evaluation prediction model, excavate the behavior feature law, and sort the feature mutual information values according to the prediction results. The related data are captured by clustering algorithm, the inherent properties of user behavior are analyzed by means of cross analysis method, and the comprehensive mining of library mobile users′ behavior is realized. The experimental results show that, in comparison with the traditional methods, the proposed analysis method has stronger ability to mining users′behavior features, and higher accuracy of analysis results. It can be applied to the analysis of library mobile users′behavior at present.
Keywords: library mobile users; behavior analysis; big data mining technology; data acquisition; prediction modeling; cross analysis
0 引 言
现阶段,信息环境高速变革,趋于全面化发展,正处于信息化网络化时代。图书馆作为信息供给机构之一,可以深度挖掘图书馆用户的需求偏好,提供针对性强的服务方案,从而达到吸引用户的目的。由于图书馆用户的基本信息量庞大,选择条件居多,因此针对海量用户信息,采用多种方法对图书馆移动用户的行为进行分析,根据用户需求偏好的变化情况,提出满意度更高的服务方案,完成对图书馆用户的维护工作。由于科技飞速发展,互联网的普及令图书馆的基本职能、服务方式和服务内容均发生实质性改变,图书馆正在由过去的封闭式管理模式,向主动化、个性化开发型图书馆转变。但同时也给图书馆的发展带来诸多困难,包括图书馆使用率不高、图书馆用户满意度较低以及用户借书率下降等问题[1]。为此,相关研究人员也提出了多种解决方法。
文献[2]通过预测算法,对图书馆移动用户行为进行分析;文献[3]通过情景分析,挖掘图书馆用户行为特征;文献[4]则通过元分析法采纳影响用户行为的因素,以此确定用户行为。上述所提出的3种方法,虽然在一定程度上掌握了图书馆用户的行为特征,但不具有普遍性。当图书馆用户超过一定数量时,行为数据失去其所具有的行为特征,进而失去了用户。 针对上述存在的问题,提出大数据挖掘技术的图书馆移动用户行为分析方法。该方法通过数据挖掘,找出海量用户的行为特征,利用聚类算法获取行为特征与用户选择偏好之间的隐含关联,从而制定合理的服务方案,以提高图书馆针对性强的管理能力,为图书馆的长远发展,提供合理的技术支持。
1 图书馆移动用户行为分析
1.1 图书馆移动用户行为数据获取与处理
数据获取和预处理是数据挖掘分析的首要前提,预处理后的数据结果,直接关系到分析结果的可靠程度,因此分析用户行为,需要预先获取图书馆移动用户行为数据,并对此数据进行过滤。从图书馆应用系统的源数据库中,抽取图书馆移动用户的基本访问信息,并对这些基本信息进行预处理,过程如图1所示。
现阶段的数据抽取方式主要包括全量抽取和增量抽取。本文提出的分析方法,在全量抽取的基礎上,增量抽取insert,update或者delete数据[5]。通常,在这些庞大的用户信息数据中,包含有不完整、质量差的基本信息数据,从而无法从这些数据中获取有价值的信息。为了避免因数据采集错误、计算错误等失误造成噪声、不一致且重复数据的出现,需对这些数据进行过滤清洗,实现对数据的预处理[6?7]。首先将获取的数据清洗,通过清洗发现、纠正数据集合中的可识别错误,同时检查数据是否属性一致、真实有效。对于存在问题的集合,需要填补遗漏数据、消除异常数据以及平滑噪声数据,分别抽取、整合集合中的清洗数据,通过转换将数据集合统一格式,去除集合中冗余等数据,合并数据意义一致或属性类别相似的数据,再将数据集合到一个新的数据集中,实现对清洗数据的集成[8]。集成结果如表1所示。
根据表1中集成的数据信息,利用转换算法对行为特征数据进行转换处理,该算法的计算公式为:
式中:[H]表示转换后得到的评价指标;[n]表示转换次数;[λ]表示移动用户的日常活动参数。利用该公式转换不同行为特征数据集合,根据所获结果将集合无规律的混合,重新按照数据特征属性划分集合。
1.2 评估预测模型挖掘行为变化规律
评估预测模型是数据挖掘过程中的关键步骤,该环节直接决定了分析结果的可靠程度[9],因此该文以上述数据为基础,构建评估预测模型,利用该模型分析图书馆用户的行为变化规律。采用改进的BP神经网络算法,预测图书馆移动用户行为,将用户网络行为构成的参数作为样本数据,通过该算法的不断学习、判断、更新,促使数据输出值逼近预期数值。该神经网络的拓扑结构如图2所示。
BP神经网络结构确定后,初始化维度数据、位置数据、权重参数,确定用户行为特征集合,利用适应度函数[10]计算待分析数据的适应度值,将当前数据最优位置记为[b],将集合中同类属性特征数据收缩的最优位置记为[b0]。根据适应度函数的计算结果,得到评估预测模型为:
式中:[git]表示数据经由输出层[t]和隐含层[i]输出预测结果;[f*]表示适应度函数;[kit]表示隐含层[i]与输出层[t]之间的节点连接权值;[m]表示输出次数;[h*]表示预测函数;[ωij]表示隐含层[i]与输入层[j]节点之间的连接权重;[d]表示输入次数;[Xit]表示输出的行为数据影响因素;[τi]表示隐含层阈值;[μt]表示输出层阈值。利用评估预测模型分析用户行为变化规律,输出结果如图3所示。
根据图3曲线走势可知,利用该模型分析用户行为变化规律与期望结果基本相似,该模型分析的用户规律可信。根据该规律分析用户偏好行为,将特征数据进行排序,排序结果如表2所示。
根据挖掘的行为变化规律获取特征相互信息参数值,通过大数据聚类,实现对图书馆用户的行为分析[11?13]。
1.3 基于聚类算法交叉分析用户行为
利用聚类算法将所获特征数据划分为[n]个有序数据集,以数据集在空间分布的稠密度为依据,在带有干扰数据的数据集中,挖掘出影响用户行为的关键数据,同时允许这些数据之间大小不同、属性不一。在样本集合中,对象[a]在核心对象[q]的领域内,那么[a]从[q]直接密度可达;当样本集合中,存在[q=q1],[a=qn]时,那么此时[qi+1]从[qi]直接密度可达,此时称[a]从[q]密度可达,如图4所示。图中字母代表特征数据簇,利用聚类算法[14?15]对具有关联规则的数据进行聚类,并将聚类结果收敛,得到的结果为:
式中:[Q]表示多个特征数据的收敛结果;[r]表示特征数据类簇数量;[u]表示特征数据;[ui]表第[i]类特征数据的平均值;[k]表示特征数据总个数;[Wi]表示特征数据属性集合。根据上述聚类结果,交叉分析图书馆移动用户特征数据的内在性质,主要包括用户年龄层的交叉分析、使用图书馆目的交叉分析以及年龄和图书馆使用方式的交叉分析。根据该分析结果设置不同年龄层移动用户行为关键词,完成大数据挖掘技术的用户行为分析方法。
2 实 验
为了验证本文所提方法的有效性,对提出的分析方法进行实验测试,将文献[2]方法、文献[3]方法、文献[4]方法作为实验对照组,对比4种方法的分析效果,根据差异值明确分析方法之间的功能特性,得出实验测试结论。
2.1 实验准备
为保证实验数据真实可靠,选择某市已开设20年的图书馆作为实验环境,利用4种分析方法,分析该图书馆中移动用户的行为。该图书馆的实际环境如图5所示。
收集近1年内图书馆开馆基本信息,按照月份进行统计,统计结果如表3所示。
统计1年内图书馆出入用户的基本信息,包括人数、年龄、职业等,将这些用户作为行为分析对象,得到的统计结果如表4所示。
根据上述实验环境数据和实验对象数据,分别利用4种分析方法进行图书馆用户行为分析。 2.2 结果分析
将本文所提方法的测试结果作为实验A组,将文献提出的3种方法分别作为实验B组、C组和D组,图6为对比实验测试的结果。分析图6可知,所提出的分析方法共分析出6组行为特征影响程度不同的数据,且这些数据有序排列。文献[2]方法虽然获得了大量的特征数据,但这些数据属于同一类型;文献[3]方法获得的特征数据量少、特征种类不够齐全;文献[4]方法挖掘出的行为特征数据极少,分析结果不具备说服力。综上所述,本文所提分析方法挖掘到的特征数据量大、种类齐全,分析结果更符合实际。
3 结 语
本文提出大数据挖掘技术的图书馆移动用户行为分析方法,利用大数据挖掘技术将图书馆用户的行为偏好特征进行挖掘,找出特征数据之间的隐含关联,根据关联程度分析行为规律,实现对用户行为的分析。该方法有效解决了传统分析方法存在的问题,提升了行为分析结果的精准度,为图书馆的发展提供合理的技术支持。但该分析方法还存在很多不足,在今后的研究与探析中需要不断改进。
参考文献
[1] 毕强,王福,丁梦晓.移动图书馆信息接受关键影响因素识别及调控[J].图书情报工作,2018,62(15):6?15.
[2] 田磊,任国恒,王伟.面向阅读推广的微博用户转发行为预测[J].情报学报,2017,36(11):1175?1182.
[3] 高永梅,鲍福光.融入位置情景的移动用户行为挖掘方法研究[J].数学的实践与认识,2018,48(16):72?84.
[4] 陈鹤阳.基于元分析的云计算用户采纳行为影响因素研究[J].图书馆杂志,2018,37(4):86?94.
[5] 郑明辉,吕经华.基于机器學习的企业私有云用户行为分析模型[J].中南民族大学学报(自然科学版),2017,36(3):95?100.
[6] 赵从军.一种新的水平分布式隐私保护数据挖掘算法:NPPA算法[J].科技通报,2018,34(3):174?178.
[7] 曹树金,刘慧云,王连喜.大数据驱动的图书馆精准服务研究[J].大学图书馆学报,2019,37(4):54?60.
[8] 吴文光.基于流程挖掘的图书馆用户满意分析[J].图书馆杂志,2018,37(4):108?114.
[9] 梁荣贤.基于用户画像的图书馆精准信息服务研究[J].图书馆工作与研究,2019(4):65?69.
[10] 秦鹏,曹天杰.基于朴素贝叶斯网页分类的用户行为推衍[J].沈阳工业大学学报,2018,40(1):82?87.
[11] 弓建华,钊林真,李书宁.受众行为分析视角的图书馆微信运营策略[J].图书馆论坛,2019,39(3):91?96.
[12] 任永功,索全明,刘洋.基于环型网络模体应用马尔科夫聚类的图挖掘模型[J].模式识别与人工智能,2017,30(9):803?814.
[13] 徐永顺,刘渊,周宇,等.大学图书馆用户多需求深度挖掘设计研究[J].图书馆,2019(6):66?73.
[14] 高艳,岳昆,武浩,等.面向用户偏好发现的隐变量模型构建与推理[J].计算机应用,2017,37(2):360?366.
[15] 李裕礞,练绪宝,徐博,等.基于用户隐性反馈行为的下一个购物篮推荐[J].中文信息学报,2017,31(5):215?222.
转载注明来源:https://www.xzbu.com/8/view-15310239.htm