基于主题词和LDA模型的知识结构识别研究
来源:用户上传
作者:黄月 张昕
关键词:知识结构;LDA模型;主题词;共词分析;数据挖掘
文献数据知识发现的研究对象一般是学术检索系统提供的科学文献题录,包含题目、作者、摘要、关键词、分类号、来源、参考文献等元素,这些元素分别作为检索系统的检索项提供检索入口,此外通用的学术检索系统还提供了包含题目、关键词、摘要3种元素构成的“主题词”。
知识结构(IntellectualStructure),指根据某一领域的科学文献进行分析,通过对基于某种关系构成的文献矩阵进行聚类而得到的组群及其关系。其中,每一组群对应该领域的一个研究子领域(或称研究主题)[1]。
针对科学文献题录信息进行知识结构识别是文献计量分析的一项重要任务,有助于帮助该领域的研究者了解研究主题及其关系。相比于关键词,学术检索系统中的主题词更能反映作者关于这篇文献主旨的概括。与传统的知识结构识别方法相比,LDA模型可以有效挖掘文献词语之间的语义关系,弥补传统文献计量在词语间处理能力的不足,对题目、摘要等长文本进行主题提取可以在更大程度上保留文献原始信息,能在一定程度上解决关键词无法很好概括文献信息的问题。本文探索基于主题词和LDA模型的知识结构识别,以数据挖掘领域顶尖期刊论文为例,并通过实验证明了其有效性。
1相关工作概述
1.1知识结构识别
传统学科知识结构识别方法是二步式的,即首先构建文献元素相似性矩阵,然后对该矩阵进行结构识别。常见文献元素相似性矩阵构建方法包括:文献共被引、作者共被引、文献耦合、作者文献耦合和共词分析等。这些思想已被广泛应用于知识结构识别,并获得了有效性验证。其中,通过共同词语联系到一起的文献可能表示一个共同的研究主题[2],共词分析常以高频关键词作为分析对象,在研究过程中没有涉及到文本中包含的语义信息,得到研究结果比较粗略。
越来越多的学者开始利用主题模型构建方法,对文本语义内容进行分析,对学科主题进行研究。隐含狄利克雷分配(LatentDirichletAllocation,LDA)模型,是一种比较成熟的主题模型[3],是一种无监督学习技术,可被用来识别大规模文档集中潜在主题信息,与针对某一领域进行知识结构识别的本质一致。LDA已被广泛用于科学文献情报分析,既包括主题识别[4]、主题演化[5]、新兴主题发现[6]、学科交叉主题识别[7]等将LDA应用于不同领域的研究,也包括不同语料下主题抽取效果分析[8]、最优主题个数确定[9]等利用LDA优化主题识别研究。
1.2LDA模型
LDA模型,在2003年由BleiDM等[10]提出认为一篇文档是由一组词组成的集合,词与词之间没有前后顺序关系,且语料库中的文档也没有顺序关系。它是一个关于文档、主题、词语的3层贝叶斯概率生成模型,其核心思想是把文档看成隐含主题的一个概率分布,主题看成词语的一个概率分布。文档到主题服从多项式分布,主题到词服从多项式分布,而该多项分布的参数服从Dirichlet分布。
LDA模型首先由Dirichlet分布得到主题分布的参数的分布,然后随机生成一个文档的主题分布,之后在该文档的每个位置,依据该文档的主题分布随机生成一个主题;然后由Dirichlet分布得到词语分布的参数的分布,再得到主题的词语分布,在该位置依据该主题的词语分布随机生成一个词语,直到文档的最后一个位置,生成整个文档;最后重复以上过程,生成所有的文档。
2研究设计
2.1研究思路
为探究考虑主题词和LDA模型进行知识结构识别的有效性,本文进行3步研究,如图1所示。首先,根据选定领域特点确定数据源、获取原始数据、进行数据预处理,以得到格式统一、主题词(题目、摘要和关键词)齐全的实验数据。然后,以关键词或主题词为实验对象,利用共现聚类或LDA模型分别进行知识结构识别,即进行4组知识结构识别实验。其中,利用文献计量网络可视化软件VOSviewer的共现聚类进行知识结构识别,利用自编的Python程序构建关键词或主题词语料库作为LDA模型输入,使用开源GibbsLDA++工具包进行LDA模型训练得到知识结构识别结果。最后,结合数据挖掘领域知识,对上述4组实验结果进行两两有共性分析元素的对比分析,获得基于关键词和主题词进行知识结构识别的差异、基于共现聚类和LDA模型进行知识结构识别的差异。
2.2基于LDA模型的知识结构识别方法
本文结合目前主流做法,提出如下基于LDA模型的知识结构识别方法。
步骤1:根据实验目的获取实验数据。本研究针对两种数据进行基于LDA模型的知识结构识别,一种是针对论文的关键词,另一种是针对由题目、摘要和关键~得到的切分后的主题词。
步骤2:语料库的数据预处理。因为题目和摘要是短句和短篇形式,需要针对实验数据进行分词、去符号、词性还原和去停用词处理。
步骤3:参数估计和推断。利用LDA开源工具GibbsLDA++进行模型训练,得到两个超参数α、β的值。
步骤4:最优主题个数K的确定。观察不同主题个数下困惑度[11]的变化,利用拐点来确定K。
步骤5:计算在确定α、β、K下的研究主题情况。
3实验数据
3.1数据源选取
数据挖掘作为一个相对新的研究领域还不是一种现有学科的子类别,因而采用在“谷歌学术指标(GoogleScholarMetrics,GSM)”的“工程和计算机科学”类别的子类“数据挖掘与分析”中出现的出版物作为数据源。
GSM主要使用h5指数和h5中位数两种指数来帮助研究者去评估近期学术出版物中文章的可见度和影响力。2019版GSM涵盖2014―2018年发表的文章,指标基于2019年7月在谷歌学术搜索中索引的所有文章的引用,这也包括来自谷歌学术指标本身未涵盖的文章的引用[12]。在2019版GSM中列出了数据挖掘领域的9种学术期刊[13],进行统计,如表1所示,数据挖掘顶尖期刊的历史都不是很长。《IEEETransactionsonKnowledgeandDataEngineering》是这里的第一个专业期刊,创刊于1989年,也比计算机其他领域(如:人工智能)的顶尖期刊历史要短。此外,只有3种数据挖掘顶尖期刊创刊于21世纪之前,其余期刊创刊时间全部在2007年之后。
转载注明来源:https://www.xzbu.com/4/view-15425512.htm