大数据情境下高校图书馆科研用户画像构建策略研究
来源:用户上传
作者:
摘 要:在大数据情境下,构建高校图书馆科研用户画像以助力科研创新,对于当前国家创新战略的实施具有重要意义。着重分析了当前科研用户画像所面临的标签不全、标签不准以及算力算法不足三大问题的成因,有针对性地研究了基于社交网络方法和知识图谱技术的用户画像标签的构建策略。在此基础上,提出由科研大数据收集与融合、图书馆科研用户画像引擎和用户画像系统应用三个部分构成的高校图书馆科研用户画像构建方案,从而为科研用户画像落地提供了理论支撑。
关键词:大数据;用户画像;高校图书馆;科研用户;科研创新
中图分类号:G252 文献标识码:A 文章编号:2095-7394(2019)06-0117-05
2016年5月,《国家创新驱动发展战略纲要》发布,引发了全社会关于科技创新活动的又一轮热潮,而以高校教师和研究人员为主体的高校图书馆科研用户,是国家创新群体的重要力量之一。当前,在大数据情境下,由于对海量数据缺乏快速分析和高效提取,科研用户普遍遭遇信息过载和知识迷航问题[1-2] ,同时在科研创新领域,也存在如何协调团队分工协作和成员个性发挥的问题;因此,如何恰当应对海量数据挑战以高质量利用科研大数据?如何有效分析科研用户行为以促进群体合作?如何及时提供精准个性化服务以助力个体创新?对于高校图书馆而言,这些问题的解决显得日益迫切。
用户画像(User Profiling)是在数据分析的基础上,通过对用户属性抽取并加以标记的方法来刻画用户特征,这些被标记的属性称为用户标签,而这些标签的集合形成了描述用户特征的“用户画像”[3-4]。基于画像中个性特征数据能精准提供个性化服务,并可洞察个体和群体的行为规律。
高校图书馆科研人员是指以科学探索和创新为己任的特殊图书馆用户,是致力于利用图书馆海量资源从事科学研究的个体(如高校教师、研究生)和群体(如科研团队)。[5]一方面,科研创新工作需要搜索和整理海量的数据资源,以全方位掌握科研领域研究现状和进展,因而要求科研用户画像的标签具有全面性;另一方面,科研用户常聚焦于某一前沿领域,并精准定位所研究的关键科学问题,这就要求科研用户画像的标签具有高度准确性。
1 高校图书馆科研用户画像面临的挑战
如上所述,科研人员是一类特殊的群体,其用户画像构建方法必然呈现自身的规律。[6]科研用户画像标签一般依照科研基础数据,在构建标签模型的基础上,根据模型抽取用户个性化属性数据作为画像标签。相关文献的研究结果表明,当前科研用户画像面临标签不全和标签不准的问题。[7]
1.1 标签不全问题
数据稀疏和隐私保护是造成标签不全的关键因素。科研人员的个性及偏好分化极为显著,因而要求用户画像能完整描述个性特征全貌。然而,目前存在以下问题:(1)由于科研人员往往专注于所研究的领域,将大量的时间用于科研活动,在通用社交平台(如QQ、微信、知乎等)上与其他用户的互动时间和互动行为较少,因而社交数据较为单一,描述用户个性的数据十分稀疏;(2)受到已标注的用户和可用于标注的数据来源较少等不利因素的影响,导致用于全面描述个性特征的数据非常缺乏,部分用戶的个性标签甚至缺失,这给用户画像标签的提取和完善带来很大困难;(3)科研人员的网络安全意识很强,善于保护个人的隐私信息,因而较难从前述通用的社交平台获取用户个性化数据,这种情形也导致用户标签不能全面描述用户特征。[8-9]
社交网络分析方法致力于发现隐藏的用户数据,因而能破解数据稀疏和隐私保护问题。
1.2 标签不准问题
噪音标签和粒度太细是导致标签不准的主要原因。在创新活动中,科研人员精准掌握所研究领域的知识将有利于其在该领域进行深度扩展,他们需要搜索各类科研文献数据库(如国内万方、知网,国外SpringerLink、ScienceDirect、Pubmed等)、专业知识库(如Dbpedia、Freebase和Yago等)和互联网网页数据(如常用搜索引擎谷歌、百度,知乎、Youtube网站等),应用数据挖掘和融合方法抽取领域知识标签。(1)因为上述海量数据中存在很多重复、歧义以及异形同义的专业术语,在标注过程中需要及时剔除这些重复或无效的噪音标签;(2)标签分类的粒度要适当,尤其要避免标签粒度太细的问题,在海量数据挖掘和分类过程中,大量的细粒度标签会导致对科研用户特征的准确描述严重受阻,从而影响用户画像标签的精准度。
知识图谱是基于语义网和本体构建的结构化知识库,采用语义匹配能有效发现噪音标签,通过标签泛化可以消除细粒度标签。[10]
1.3 算力和算法不足问题
算力和算法不足制约了用户标签的提取效率。在大数据情境下,从多源异构的海量数据中分析和抽取科研用户个性化标签,依赖于强大的算力和算法支撑。当前以hadoop平台为代表的分布式计算平台具有强大的算力,已成功应用于商业大数据运算,该平台上集成了丰富的算法库,可用于开发用户画像支撑系统。
2 高校图书馆科研用户画像应对策略
针对上述标签不全、标签不准、算力算法不足问题的挑战,本文提出高校图书馆科研用户画像应对策略,如图1所示。
2.1 标签不全问题对策
根据上述分析,标签不全主要源于用户数据稀疏和隐私保护两个方面。通过社交网络分析方法,可以构建社交网络图谱实现标签传播,挖掘更多的用户属性数据以应对数据稀疏问题。而应用以下基于本体和语义网技术的知识图谱方法,可以扩展用户标签,以应对隐私保护问题:(1)利用各类知识图谱中现存的实体(概念)关联,构建实体概念关联网络模型,分析实体之间相似度和关联的紧密性,使得具有高相似度和高相关度的实体用户相互共享标签,以达到扩展标签的目的;(2)利用随机游走等方法搜索语义网络可扩展的节点,以挖掘被保护的隐私数据。 2.2 标签不准问题对策
噪音标签和标签粒度太细是导致科研用户画像标签不准的两个主要原因。因为科研知识图谱是建立在专业或领域本体之上的规范知识库,因此,通过知识图谱语义匹配,其统一形式化的领域本体库能有效校对、修正和消除噪音标签;而应用基于领域的知识图谱,通过标签泛化以概括、覆盖细粒度标签,能够应对标签粒度太细的挑战。
2.3 算力和算法不足问题对策
2.3.1高性能计算平台需求
Hadoop + Spark + GraphX是建立在Hadoop分布式计算技术基础上,融合内存计算Spark平台和图计算库GraphX的开源工具,具有强大而快速的计算能力,能满足用户画像的高性能计算平台的算力需求。
2.3.2科研大数据分析算法
Hadoop + Spark + GraphX中的Spark平台集成了机器学习算法库(Machine Learning Library,MLib),而GraphX是网络分析的图算法库,二者分别用于分布式快速计算和大规模网络分析,以满足科研大数据分析算法需求,为用户画像系统提供主要的算法支撑。
3 高校图书馆科研用户画像构建框架
在上述科研用户画像构建策略的基础上,提出高校图书馆科研用户画像的构建框架,包括科研大数据收集与融合、图书馆科研用户画像引擎以及用户画像构建和服务三部分,如图2所示。
3.1 科研大数据收集与融合
科研大数据收集与融合是用户画像构建的数据基础。通过收集科研文献(论文、图书库等)、科研用户行为(借阅、检索、咨询等)、用户属性(姓名、性别、专业等)和互联网网页数据,进行元数据统一建模,经过数据清洗,融合成格式一致、结构清晰的基础数据库,再应用云平台上MonogoDB、MySQL等数据库进行分布式存储和检索。
3.2 图书馆科研用户画像引擎
用户画像引擎是科研用户标签构建的核心环节。
3.2.1构建标签分类体系
分类体系对用户画像标签库的易用性和连通性具有关键作用。基于科研文献编目规范、语义分词库和中文知识图谱,分别根据科研文献、用户兴趣、移动设备App、互联网页URL标签的各自特征,结合相适应的自动分类算法,构建标签分类体系。
3.2.2构建标签知识库
依据标签分类体系,构建与各类知识库相适应的标签模型,并基于本体和语义网技术,结合各类数据分析算法(机器学习算法、自然语言处理算法、复杂网络分析算法、网页内容解析算法等),针对网络大数据的基础数据库,应用语义分析和分类审核方法抽取标签,构建各类标签知识库。
3.3 用户画像应用与服务
用户画像应用与服务是科研用户画像的终极目标。在上述数据处理和分析的基础上,结合高校图书馆科研用户具体需求,构建科研用户行为分析模型,分析用户兴趣,预测科研用户行为模式;依据用户画像标签,结合用户偏好,实现科研知识个性化精准推荐;结合用户兴趣和知识图谱,提供科研知识问答。
4 结语
由于高校图书馆科研用户群体在创新过程中具有特殊地位及鲜明的个性特征,而且其个性化推荐、科研群体分析和科研知识问答等图书馆知识服务需求,又相对于其他类型的图书馆用户具有特异性;因此,其用户画像构建策略和构建方案的研究具有重要价值。
本文针对高校图书馆科研用户画像所面临的挑战,提出基于社交网络方法和知识图谱技术的标签构建策略,以及搭建在高性能分析平台Hadoop + Spark + GraphX之上的高校图书馆科研用户画像框架,以期能够有效破解当前科研用户画像所面临的三大困境,助力科研创新。
参考文献:
[1] 何胜,吴智勤,冯新翎,等.面向大学生创新实践活动的图书馆大数据服务探析[J].江苏理工学院学报,2017,23(2):64-67.
[2] 何胜,冯新翎,武群辉,等.基于用户行为建模和大数据挖掘的图书馆个性化服务研究[J]. 图书情报工作,2017,61(1):40-46.
[3] AWAIS A,MUHAMMAD B,SADIA D,et al. Socio-cyber network: The potential of cyber-physical system to define human behaviors using big data analytics[J].Future Generation Computer Systems,2018(1):10-18.
[4] 曾建勛.精准服务需要用户画像[J].数字图书馆论坛,2017(12):1.
[5] 袁莎,唐杰,顾晓韬.开放互联网中的学者画像技术综述[J].计算机研究与发展,2018,55(9):1903-1919.
[6] 曾频.网络环境下科研用户的信息行为探讨[J].情报探索,2009(8):17-19.
[7] 宋美琦,陈烨,张瑞.用户画像研究述评[J].情报科学,2019,37(4):171-177.
[8] HAORAN X,QING L,XUDONG M,et al. Community-aware user profile enrichment in folksonomy[J]. Neural Networks,2014,58(5):111-121.
[9] 陈慧香, 邵波.国外图书馆领域用户画像的研究现状及启示[J].图书馆学研究, 2017(20):16-20.
[10] 高广尚.用户画像构建方法研究综述[J].数据分析与知识发现,2019(3):25-35.
责任编辑 盛 艳
转载注明来源:https://www.xzbu.com/1/view-15158995.htm