您好, 访客   登录/注册

大数据环境下基于用户画像的学术文献推荐系统研究

来源:用户上传      作者:

  
  关键词:大数据环境;用户画像;学术文献推荐系统
  摘 要:文章在阐述用户画像概念的基础上,从技术工具、数据模块、学术文献数据库、学术文献推荐模块等角度总结了基于用户画像学术文献推荐系统的构建方式,以期为用户推送符合其需求的学术文献。
  中图分类号:G250文献标识码:A文章编号:1003-1588(2019)12-0113-03
   随着社会发展进入大数据时代,信息数据越来越多,读者的需求也越来越多元化。面对这种趋势,图书馆应使用大数据技术针对用户的多元需求进行分析、定位及精准预测,在精准判定用户个性化学术文献需求的基础上,使用新型技术创新图书馆服务模式,使学术文献服务与用户需求精准契合。在用户感知层面,大多数图书馆习惯以调研的方式获取用户需求,甚至根据经验主观判定用户需求,造成对读者需求定位不准,学术服务精准性较差。伴随大数据技术的发展,图书馆应使用数据分析技术、数据挖掘技术根据用户的网络行为轨迹及有关数据记录获取用户数据,精准定位用户需求,以便为用户提供更有效的个性化服务[1]。同时,图书馆馆藏资源的增加尤其是多种数据资源的聚合,使用户利用图书馆查找符合自身个性化需求的资源越来越困难。用户画像作为大数据时代实现用户需求挖掘及行为偏好识别的新型技术体系,可以使图书馆根据用户行为偏好及个性化需求提供学术文献,使学术文献推荐服务更加精准。因此,构建基于用户画像模型的学术文献推荐系统,可以对用户行为偏好及个性化需求进行深度挖掘,从而实现图书馆馆藏资源与用户需求的精准匹配。
  1 用户画像概述
  1.1 用户画像的含义
   用户画像是指在大数据环境中对用户行为偏好和个性化需求进行分析和预测的一种技术机制,主要借助爬虫数据对用户浏览网页及进行互联网交互行为时产生的运动轨迹、网站浏览日志记录进行爬取搜集,以实现用户行为偏好数据的深度挖掘、提取、分析。用户画像实现的基础是对用户需求、个性、习惯的精准识别,核心机制是为可识别的用户偏好数据、行为数据贴“标签”,使面向用户的虚拟数据、个性化信息有据可依。综合来看,用户画像关注的焦点是用户的行为、个性,并将用户的社会属性、背景、经历、行为与服务预期关联起来[2]。
  1.2 用户画像在图书馆的应用
   用户画像应用的重要目的是精准刻画用户的行为偏好及个性化特点,分析用户的个性化需求,为图书馆实现精准的学术文献推荐以及对用户身份进行精准识别提供技术支持。用户画像在图书馆学术文献推荐领域的主要作用包括:①精准分析用户群,挖掘潜在用户,预测潜在用户需求并进行学术文献精准推荐。②根据用户的资源获取习惯、个性化资源需求、行为偏好分析用户可能产生的学术资源需求,分析学术资源的重点内容、应用趋向,为定制学术资源提供参考数据。③根据用户学术文献获取行为、兴趣习惯、行为偏好面向用户精准推荐学术文献,使用大数据技术实现某一时间段内用户需求的具体描述,考察资源利用效果,评价学术文献推荐效果。
  2 图书馆用户画像模型构建
  2.1 图书馆用户画像数据源
   图书馆构建用户画像模型是指根据用户使用网络系统、数字图书馆、智慧图书馆产生的行为数据、运动轨迹对用户行为偏好高度还原,采集的数据都与用户行为有关。在图书馆服务中,用户画像数据处于多重系统网络中,各类数据相互独立,缺乏关联[3]。在构建用户画像模型前,先要根据用户信息、行为数据对用户行为偏好进行初步刻画,建立简易的用户画像,后期通过抓取用户大量的行为轨迹及网络日志数据进行画像完善,并建立完善的标签系统。用户画像使用的用户数据可分为直接数据和关联数据。直接数据包括用户年龄、学历、性别、家庭、专业等基础信息;关联数据包括用户的行为动态、心理活动、情绪变化、阅读方式、知识获取程度、网络数据、网站瀏览轨迹等数据。
  2.2 用户画像模型
   图书馆可以借助大数据系统进行数据分析与挖掘,并利用数据标签进行标记,然后根据用户特征建立标签系统,再依托标签系统精准定位个体用户及用户群,从而建立描述用户个性化需求、个性特征及行为偏好的画像(见图1)。
  
   首先,图书馆要对用户使用图书馆过程中产生的各类数据进行融合和分析,如:使用爬虫工具、文本挖掘技术等对图书馆信息门户网站、图书馆线上信息服务系统、移动服务终端、线上知识库系统、信息处理系统、用户访问模块中的各类数据进行抓取,然后按照一定的数据获取规则及筛选标准对用户的基本信息及使用图书馆系统产生的各类行为数据进行整合归类,形成结构化的数据信息,再对获取的大数据进行清洗、转换等预处理,并进行深度聚类、结构化处理、深度挖掘,最后建成完整的分析机制[4]。其次,要建立完善的用户标签体系。用户画像标签是建立用户画像模型的核心步骤,是大数据环境下对用户基础数据、行为数据进行数字化抽象统计分析的信息,能有效反映出用户的特征和行为偏好。建立多种标签对关键数据进行标记,能更直观地反映出用户的行为偏好特征。再次,根据个体用户及用户群的需求偏好及特征向量,依靠用户画像建立反映个体用户及用户群的服务预测机制,即依靠清晰的画像描述反映个体用户与用户群的需求变化,再根据用户这种需求变化趋势向用户主动推送学术文献。值得注意的是,在图书馆学术服务中,用户的兴趣、行为偏好并不是固定的,而是会伴随用户的教育背景、职业经历发生变化,这就需要图书馆根据用户的兴趣、行为偏好及时优化与调整用户画像。
  3 大数据环境下基于用户画像的学术文献推荐系统构建
   通过对用户基本信息和行为数据的搜集、提取、分析、挖掘建立起反映用户行为偏好、个性化特征的画像模型,可以实现资源的精准匹配、个性化推荐及需求的科学预测。基于此,基于用户画像的学术文献推荐系统可由技术工具、数据模块、用户画像模型及学术文献资源推荐模块组成(见图2)。   
  3.1 技术工具
   图书馆构建基于用户画像的学术文献推荐系统会应用到一系列的技术工具。图书馆先要对用户使用图书馆系统产生的底层数据进行搜集分析,将数据转变成可供系统识别与运用的特征向量,并增加相关的特征标签,使基于用户基础信息与行为数据的画像更加丰富。对于初次使用系统的新用户,系统虽然无法准确判断用户的行为、兴趣偏好,但可以根据用户的注册信息将反映用户动态变化的数据组合成不同的数据集,使多种数据集中的元素尽可能地反映用户的特征与行为偏好,然后使用大数据技术对用户可能产生的需求进行精准预测,以实现用户需求的智能识别及学术文献的精准推荐。
  3.2 数据模块
   基于用户画像的学术文献推荐系统构建需要在底层建立数据搜集模块,也就是针对用户使用图书馆时产生的基础数据、行为数据及使用各类终端、浏览网站产生的网络轨迹进行搜集,并使用爬虫工具精准获取各类数据,然后依靠大数据分析系统将各类数据进行结构化处理,从中提取反映用户行为偏好、个人特征的个体或用户群的数据信息,实现用户学术文献需求的精准判断。数据模块要具备筛选过滤功能,在爬虫工具爬取用户各类信息的时候,能智能过滤各种无效信息,智能拦截恶意点击与含有病毒的
  数据流,并能构建智能防火墙抵挡病毒攻击,保障用户数据安全。同时,数据模块要与数据库关联,将反映用户特征、行为偏好的结构化数据存储到数据库中,并以有效的数据化标签进行标记,同时,将反映用户行为特征向量的数据存储到单独的数据库中,以便于智能识别用户身份。
  3.3 学术文献数据库
   在大数据环境下,图书馆基于用户画像为用户推荐学术文献,先要建立学术文献数据库对各类馆藏学术文献进行数字化分类存储,为学术文献推荐服务提供保障。充足的学术文献资源是学术文献推荐的基础,图书馆应使用数字化技术对馆藏实体学术文献进行数字化处理,并依照图书分类标准将其存储到不同的馆藏数据库中。数字化的学术文献资源不仅有利于共享传递,还能节约馆藏成本,便于用户高效获取。
  3.4 学术文献推荐模块
   学术文献推荐是在用户行为数据搜集、用户画像勾勒完成后实现的,是指依靠图书馆构建的用户画像模型预测用户的需求偏好及未来可能产生的学术文献需求为用户推荐学术文献。为了提高推荐的精准性,图书馆要依靠标签系统对用户数据做标记,再根据标记的用户数据分析个体用户以及用户群的行为偏好,将具有相似需求的群体用户、个体用户与学术资源进行匹配,并根据匹配程度反馈推送结果。由于不同个体用户的需求不同,并且这种需求随着时间的推移处在动态变化中,为了更高效地满足用户需求,学术文献推荐模块需设置个体用户推荐窗口、用户群推荐窗口两个部分,针对用户个体和用戶群分别推荐学术文献。为应对用户的兴趣转移和需求变化,学术文献推荐模块要设置用户需求变化预测机制和兴趣转移预测机制,对用户兴趣需求变化进行精准预测,只有掌握用户的动态变化才能实现学术文献的精准推荐。
  4 结语
   大数据环境下基于用户画像的学术文献推荐系统研究给图书馆学术服务、资源推荐带来了新的突破。基于用户画像对用户行为偏好、需求变化进行的定位与预测,能从多个维度实现用户需求的动态掌握,最终实现学术文献的精准推荐。
  参考文献:
  [1] 袁军.大数据环境下用户画像在高校图书馆的应用研究[J].图书馆研究与工作,2019(6):22-26.
  [2] 梁荣贤.基于用户画像的图书馆精准信息服务研究[J].图书馆工作与研究,2019(4):65-69.
  [3] 陈丹,罗烨,吴智勤.基于大数据挖掘和用户画像的高校图书馆个性化服务研究[J].图书馆研究与工作,2019(4):50-53,59.
  [4] 李雅.基于读者用户画像的高校图书馆精准化服务研究[J].农业图书情报学刊,2018(12):108-111.
  (编校:周雪芹)
  收稿日期:2019-11-05
  作者简介:刘相金(1964— ),山东大学图书馆副教授;王梦菊(1964— ),山东大学图书馆副研究馆员,系本文通讯作者。
转载注明来源:https://www.xzbu.com/4/view-15107793.htm