大数据技术的图书馆用户画像模型建构策略
来源:用户上传
作者:
摘 要: 针对在数字图书馆用户画像模型建构工作中用户数据分类效果较差的问题,提出基于大数据的数字图书馆用户画像模型建构策略。通过运用大数据网络与图书馆系统全面性获取用户操作信息;利用关键词抽取技术完成信息抽取,并采用分类技术实现用户分类,以此提升模型构建信息抽取分类能力;依据用户画像模型格式,设定用户画像标签体系,完成模型构建工作。通过与采用策略前构建方法的对比实验结果可以看出,采用所提策略后得到的用户人群区分人数与样本人数相同,而采用此策略前结果与样本人数相差较大。由此可以得出,此策略可有效解决用户数据分类效果较差的问题。
关键词: 图书馆用户画像模型; 大数据技术; 用户画像标签体系; 关键词抽取; 数字图书馆; 图像分析
中图分类号: TN911.73?34; G250.76 文献标识码: A 文章编号: 1004?373X(2020)09?0055?03
A construction strategy for library users′ portrait model based on big data technology
LIU Ying
(Changchun Normal University, Changchun 130032, China)
Abstract: For the poor classification effect of user data in the construction of digital library user portrait model, a big data based construction strategy of digital library user portrait model is proposed. The operation information of the library users is comprehensively obtained by means of big data network and library system. The keyword extraction technology is used to complete information extraction and the classification technology is used to achieve user classification, so as to improve the competence of information extraction and classification in the model construction. The user portrait label system is set up according to the format of user portrait model to complete the model construction. A contrast experiment was performed to compare the effect of the construction method before using the proposed strategy with that after using the proposed strategy. The experimental results show that the number of user group classification obtained after using the proposed strategy is the same as the number of samples, while that obtained before using the proposed strategy is quite different from the number of samples. Therefore, it is concluded that the proposed strategy can effectively deal with the poor classification effect of user data.
Keywords: library user portrait model; big data technology; user portrait label system; keyword extraction; digital library; image analysis
0 引 言
隨着信息技术的进步,数字图书馆应运而生。这是一种利用数字技术完成文献处理与存储的电子图书馆。实质来讲,数字图书馆是一种利用多媒体制作的分布式信息系统[1]。通过将不同载体、不同地址位置的信息资源利用数字技术存储,完成跨越区域、面向大众的网络查询与传播。在数字图书馆的应用中,对用户画像的研究与构建是其日后发展的基础[2?3]。用户画像是理解目标用户、具象化用户形象、明确服务目标的重要表达形式之一。用户需求是数字图书馆的基础,数字图书馆构建用户画像需获取用户的体征数据,精准了解用户的需求,以可视化的方式显示用户的喜好,从而实现数字图书馆用户服务提供方式由粗放走向精细的目标。就目前数字图书馆用户画像模型构建中存在分类效果较差的问题,本文提出用户画像模型构建策略。
在此次提出的策略中,采用大数据技术完成用户画像模型构建改进。大数据技术对于用户画像模型中的数据处理具有重要作用,综合运用定性与定量方式实现模型的精准构建,以此保证数字图书馆服务内容精准化、服务定位精准化、服务功能用户化、服务系统智慧化。 1 基于大数据的数字图书馆用户画像模型建构策略设计
针对原有用户画像模型构建过程中发现的问题,提出相应的用户画像模型构建策略。为提升用户画像模型构建结果的分类效果,从用户信息获取、信息分析方法以及信息过滤处理方法方面提出对策,以此完成模型构建的优化提升工作。将此次设计的策略分成几个方面,具象化显示其内容,采用图像体现,具体内容如图1所示。
在策略提出的过程中,对用户信息的处理为策略的核心部分。采用大数据技术增强对用户信息的整合处理能力,用户信息是用户画像模型构建的基础,通过上述部分提升模型构建的分类效果,为数字图书馆服务。
1.1 全面性获取用户操作信息
使用数字图书馆的用户都有自己特定的背景知识与个人爱好。构建用户画像可以帮助数字图书馆将用户喜爱设定为计算机可以理解的形式[4],实现信息化处理。在获取用户操作信息时,需要对用户的信息展开全面的采集。为保证采集结果的可靠性与全面性,设定采集内容如表1所示。
采用上述设定完成对用户操作信息的获取。将获取到的信息采用统一数据项名称存储至数据库内,以便于数据信息的抽取。基于用户数据信息过于庞大,在信息获取的过程中,应用大数据网络完成信息的部分采集工作,其余部分通过数字图书馆自身的信息记录完成。采用此方法可保证数据来源的多样性,为模型构建提供充分的数据来源[5?6]。
1.2 引用大数据技术实现信息精准分类
应用采集到的信息数据完成信息抽取工作。采取关键词抽取技术结合文本挖掘技术的形式,从数据样本内容中挖掘用户的个人信息,并采用关键词的形式体现。在文本挖掘的过程中,直接获取到的数据不能直接作为模型构建的源数据。一方面,获取到的数据中存在较多的重复数据;另一方面,数据易出现不完整的情况,造成模型组成缺失的问题[7?9]。因而,将获取的数据应用大数据技术中的分布式处理技术,得到处理结果,使其可以更好地适用于分类算法。数据信息的抽取流程如图2所示。
采用上述流程完成数据抽取过程。在数据抽取中引入更新机制,将抽取后的本体数据与用户兴趣不断地匹配与修正,最终获得数据抽取结果。基于抽取处理结果,使用大数据技术中的分类算法完成用户画像模型的数据分类。设定完成预处理以及抽取后的用户数据样本集合为[W={w1,w2,…,wn}],[wn∈Rn],其中,[R]为自然数,[n=1,2,…,n]。综上可知,[W]的类别划分为[{A1,A2,…,Am}],[m∈n]。则有:
[Ai≠?, i=1,2,…,m] (1)
[A1?A2?…?Am=W] (2)
[Ai?Aj=?, i,j=1,2,…,m且i≠j] (3)
式中[i,j]表示分类的序号。通过式(1)完成集合分类,确保集合结果不为空。将式(1)获取到的集合展开进行交集处理,保证处理后的集合为样本数据,最后通过式(3)完成信息的分类。通过多次计算保证数据分类的精准度。
1.3 设定用户画像标签体系
在模型构建的过程中,除对原始数据的采集与处理外,还需建立相应的画像标签体系。据研究可知,用户画像是真实用户的虚拟代表,是一种建立在真实数据上的目标用户模型[10?12]。因而,在构建中将模型体现为一种多元化多因素的画像,具体格式如图3所示。
通过上述格式可知,用户画像就是一种将用户信息标签化的技术,将用户通过标签显示,便于数字图书馆实现对用户科学管理。标签体系是模型构建的标准之一,因而设定标签内容如表2所示。
采用上述标签,结合分类处理后的基本屬性信息,完成用户画像模型的构建。至此,针对模型分类效果较差的问题,基于大数据的数字图书馆用户画像模型建构策略提出完毕。
2 仿真实验
根据现有数字图书馆用户画像模型存在的问题,提出相应的画像模型构建策略。为保证提出策略的有效性,构建测试环境,完成策略使用效果研究。在测试中,采用与传统用户画像模型对比的方式得出相应的测试结果,完成研究。
2.1 设定实验环境
此次实验的硬件环境为Windows 7操作系统,内存为10 GB。大数据技术以C语言开发工具为基础,大数据计算使用Python2.7编码实现。实验目标设定为某数字图书馆,其中部分用户为数据源,共包含10 000条用户行为数据,具体内容如表3所示。
由于用户画像具有其自身的特殊性,只能表示用户的个人画像与组群画像。此次实验仅对用户的群组画像展开研究,采用大数据平台对数据分组处理。将处理后的数据通过本文提出的策略二次加工,得出实验结果,并对比其分类效果。将实验样本中的特征数据通过表格形式显示[13?14],具体如表4所示。
以信息样本为实验指标,设定在此次实验以来,自北部地区的1999年后出生的男性用户、来自中部地区1979—1999年的女性用户以及来自中部地区的1979年前出生的女性用户为用户画像模型的构建目标,并采用本文策略后的用户画像分类效果作为实验对比对象,通过按要求划分用户人数与样本人数差异体现。
2.2 实验结果
采用上述设定完成实验过程,将实验结果通过数据形式显示,具体如图4所示。
通过实验结果可以看出:在使用本文提出策略前,用户画像分类结果与样本人数相差较大,由此,可以断定在使用策略前,采用原有用户分类结果获得的用户画像模型精度较差。采用这种用户画像对于数字图书馆而言,是具有较大弊端的,不易于数字图书馆对用户群体的分析与自身的内部优化。采用本文提出的策略展开模型构建工作,所得到的分类结果与样本人数一致,不存在误差,与采用策略前的结果相比,采用策略后的分类结果明显优于原有结果[15]。由此可知,本文提出的针对原有的用户画像模型构建具有显著的作用,可有效提升用户画像模型构建的精度与用户群体区分效果。 3 结 语
本文通过使用大数据技术完成对数字图书馆用户画像模型构建工作。通过实验结果可知,此次研究中提出的策略可有效改善原有模型构建中的问题。此次设计结果有效利用大数据技术,保证数字图书馆中海量的用户数据得到良好的应用,并以此服务于用户画像工作,保证数字图书馆日后的信息化发展。在此次研究中,仍存在一些不足,例如,数据处理方面的设定较为简单,不能充分体现大数据技术的应用过程等。在日后的研究中,对上述问题仍需改进。
参考文献
[1] 陈艳,李君亮.大数据技术的诠释学分析[J].学术探索,2018(7):7?12.
[2] 郑正广,冯必成,赵明月.基于大数据技术的腾讯王卡用户画像构建研究[J].邮电设计技术,2017(9):52?56.
[3] 王宪朋.基于视频大数据的用户画像构建[J].电视技术,2017,41(6):20?23.
[4] 杨润佳.大数据驱动下主动防御网络安全性评估技术[J].计算机测量与控制,2018,26(10):304?308.
[5] 张钧.基于用户画像的图书馆知识发现服务研究[J].图书与情报,2017(6):60?63.
[6] 刘速.浅议数字图书馆知识发现系统中的用户画像:以天津图书馆为例[J].图书馆理论与实践,2017(6):103?106.
[7] 李恒超,林鸿飞,杨亮,等.一种用于构建用户画像的二级融合算法框架[J].计算机科学,2018,45(1):157?161.
[8] 张海涛,崔阳,王丹,等.基于概念格的在线健康社区用户画像研究[J].情报学报,2018,37(9):912?922.
[9] 王乐,倪维健,林泽东,等.基于模型堆叠的上网行為日志用户画像方法[J].山东科技大学学报(自然科学版),2018,37(5):70?78.
[10] 万倩,欧阳峰,赵明.知识图谱在广电网络运营大数据分析中的应用[J].广播与电视技术,2018,45(12):79?86.
[11] 刘丹,张兴刚,任淑敏.基于用户画像的高校图书馆阅读疗法模式[J].中华医学图书情报杂志,2018,27(7):68?71.
[12] 张海旭,胡访宇,赵家辉.基于话单数据的移动通信用户画像研究[J].计算机系统应用,2018,27(11):271?277.
[13] 单晓红,张晓月,刘晓燕.基于在线评论的用户画像研究:以携程酒店为例[J].情报理论与实践,2018,41(4):99?104.
[14] 周景.基于商业智能WLAN的用户画像分析系统的设计及应用[J].微型电脑应用,2019,35(8):143?145.
[15] 洪芳林,邢文明.基于大数据平台的图书馆利用有声阅读平台开展用户服务研究[J].四川图书馆学报,2019(4):33?37.
转载注明来源:https://www.xzbu.com/8/view-15248909.htm