您好, 访客   登录/注册

词汇功能视角下关键词生存时间影响因素研究

来源:用户上传      作者:刘智锋 马永强 杨金庆

  摘要:[目的/意义]从语义功能角度探究不同类型关键词在学术文本中生存时间的影响因素,为识别领域热点主题和技术方法提供参考。[方法/过程]首先,采用深度学习的方法对关键词的词汇功能进行识别,将关键词分为问题类和方法类;其次,构建关键词生存时间的影响因素模型;最后,分别采用K-M曲线和Cox回归对关键词的生存时间影响因素进行探究。[结果/结论]研究结果表明,论文被引频次和下载次数与问题类和方法类的关键词生存时间存在正相关的关系;期刊等级、是否基金资助、作者合作规模和参考文献数4个因素与方法类关键词的生存时间存在显著的相关关系,而与问题类关键词生存时间的相关关系不显著。
  关键词:生存分析;词汇功能;生存时间;Cox回归
  DOI:10.3969/j.issn.1008-0821.2023.01.015
  〔中图分类号〕G203〔文献标识码〕A〔文章编号〕1008-0821(2023)01-0151-12
  Research on Factors Influencing Keyword Survival
  Time from the Perspective of Term FunctionLiu Zhifeng Ma Yongqiang Yang Jinqing
  (1.Department of Information Management,Peking University,Beijing 100871,China;
  2.School of Information Management,Wuhan University,Wuhan 430072,China)
  Abstract:[Purpose/Significance]This paper explores the factors of the survival time of different types of keywords in academic texts from the perspective of semantic function,so as to provide reference for identifying hot topics and technical methods in a field.[Method/Process]First,deep learning was used to identify the term function of keywords.The keywords were divided into problem keywords and method keywords;secondly,a model of influencing factors of keyword survival time was constructed;finally,K-M curve and Cox regression were used to explore the influencing factors of survival time of keywords.[Result/Conclusion]The results show that the number of citations and downloads have positive correlations with the survival time of the problem keywords and method keywords.In addition,journal,funding,and the number of authors and references have significant correlations with the survival time of method keywords,but have no significant correlations with that of problem keywords.
  Key words:survival analysis;term function;survival time;Cox regression
  随着学术大数据时代的到来,学术论文数量呈现指数增长[1]。科研人员已经不能单靠人力对学术论文进行逐一阅读来识别研究热点与研究前沿,如何快速从海量的文献中获取所需的知识和梳理领域知识脉络,成为当今科研社区的一个重要挑战[2]。由于关键词是由作者选取表征文章的主要研究内容的规范化学术词汇[3],科学计量学等领域的学者把学术论文中的关键词作为表示研究主题的重要计量对象。关键词作为研究主题与方法等的外化表现,与研究主题存在共生关系,会随着研究主题的变化而变化。具体而言,当研究主题保持一定的热度,相应的关键词可能会存在较长的时间;当研究主题热度衰减,相应的关键词可能会减少,甚至消失。目前,学者们主要采用共词分析以及词频统计等方法,分析学科领域的研究热点与前沿[4],鲜有学者从关键词生命周期视角揭示其内在规律与影响因素。
  2023年1月第43卷第1期现代情报Journal of Modern InformationJan.,2023Vol.43No.12023年1月第43卷第1期词汇功能视角下P键词生存时间影响因素研究www.xdqb.netJan.,2023Vol.43No.1因此,本文聚焦于关键词生命周期的量化分析,以期对研究主题演化和研究热点研究有一定的启发作用。学术论文关键词表征论文的主要内容,可以表示论文的研究问题,亦可以表示论文的研究方法,即关键词在论文内容的表示中具有不同的功能[5]。如“基于深度卷积神经网络的生物医学混合图像检测”论文中,关键词“混合图像检测”表示论文的研究问题,而关键词“深度卷积神经网络”表示论文的研究方法。在本研究中,将学术论文的词汇功能定义为词汇在学术论文上下文环境下所对应的内容或用途。因此,在词汇功能视角下,能够区分具有不同语义功能的关键词,如研究问题、研究方法等;在此基础上,结合关键词的生存分析,可以更加细粒度地对学科领域的问题类关键词与方法类关键词的生命周期进行测度和对关键词生存的影响因素进行分析,以更好地理解和把握关键词的演化规律,对研究主题演化和研究脉络梳理等相关研究,具有一定的借鉴意义。

nlc202301101724



  1相关研究
  1.1词汇功能分类与识别
  学术文本的词汇功能是指词汇在学术文本上下文环境下所对应的内容或者用途,其内涵和NLP领域的语义角色不同。一般情况下,学术文本的词汇功能包含研究问题、研究方法、研究领域、研究对象等。随着自然语言处理技术和学术文本的获取更加容易,国内外不少学者开始关注如何利用自然语言处理的技术,自动从学术文本中识别出问题、方法、技术等实体及其之间的关系[6]。在早期的研究中,学者们主要应用文献计量学、共词分析等方法,粗略地获取学科领域的研究主题[7]。然而,这些研究并不能深入地解决诸如特定的研究问题和特定的研究方法的演化情况。因此,学者们开始探索学术文本词汇功能的分类及其自动识别。
  学术文本词汇功能的分类研究,是进行词汇功能自动识别及其应用的前提,在学术文本词汇功能分类框架的基础上,大部分学者将学术文本词汇功能的识别转化为分类问题,并采用不同的方法进行研究。Kondo T等[8]将学术论文标题词汇功能分为研究主题、研究方法、研究目的和其他,并根据从标题中得到的规则,对这4类词汇进行识别。随后,Nanba H等[9]将论文的标题和摘要中出现的词汇分为技术和效果两大类,其中技术包含有算法、工具、数据等,效果由属性和相应的属性值组成,并构建相应的特征,用传统机器学习的方法进行自动识别。Gupta S等[10]将摘要中的词汇功能分为话题、技术和领域,其中,话题指的是论文的贡献,而技术是指使用的方法和工具,领域指的是论文的应用领域,并采用模式学习的方法进行自动识别。Dan S等[11]将计算语言学领域学术论文词汇语义功能分为技术和领域。Mesbah S等[12]将学术论文中的词汇功能分为方法、软件、数据集、目标和结果。最近,Heffernan K等[13]将科学研究定义为提出问题和解决问题的过程,并将词汇语义功能分为问题和方法两大类。
  国内学者亦对词汇功能进行初步的探索,赵洪等[14]对《情报学报》发表论文中的理论和方法实体进行标注,并采用条件随机场等方法对论文标题和摘要中的理论术语进行识别。程齐凯[15]在总结以往研究的基础上,提出了较为完整的学术文本词汇功能框架,将词汇功能分为领域无关词汇功能和领域相关词汇功能,其中,领域无关词汇功能分为研究问题和研究方法,并采用条件随机场和机器排序算法进行识别。刘智锋等[5]制定了信息计量学领域的关键词语义功能分类框架,包含研究主题、研究方法、数据、领域范围、研究对象以及其他6类,并构建了语义功能标注数据集。程齐凯等[6]通过构建标引规则自动从学术文献标题中识别研究问题和研究方法,从而构建了一个标准的词汇功能标注数据集。周笑盈[16]将数字图书馆领域的关键词语义功能分为研究背景、研究领域、研究热点和研究对象4类,并对国际图联大会收录的文章关键词进行标注,构建不同语义功能的关键词数据集,以揭示数字图书馆的研究热点。
  本研究参考Heffernan K等的观点,将科学研究视作提出问题和解决问题的过程,因此将词汇功能分为研究问题、研究方法和其他3类。此外,以往的词汇功能识别主要采用基于规则抽取、条件随机场等方法,而随着深度学习和自然语言处理技术的快速发展,将深度学习等方法应用到学术文本关键词语义功能的自动识别中可以得到更高的准确率。
  1.2关键词生存影响因素
  不同的关键词具有不同的生命周期,其生命周期受到很多因素的共同影响。关键词是反映论文语义内容的规范化术语,可以将关键词看成知识单元,根据知识扩散理论和信息老化理论,在关键词生命周期中,随着时间的推移,知识单元不断对外进行扩散,同时会伴随着知识单元价值的衰减,最终失去价值,走向消亡。知识单元的生命周期不仅受到自身属性的影响,亦会受到扩散因素的影响。本研究重点关注论文发表的期刊等级、是否基金资助、作者合作规模和参考文献数量等内部因素以及论文被引频次、下载次数等扩散因素对关键词生存时间的影响。
  1.2.1论文内部因素
  期刊等级指的是数据库或者机构根据期刊的影响因子等因素将期刊划分成的不同层级。不同等级的期刊对论文的评审有不同的标准,因此不同等级期刊收录的论文质量会存在差异,从而期刊在学术社区的认可度也不同。此外,不同期刊的受众亦会存在一定的差异,导致发表在不同期刊的论文关键词可能会有不同的生存时间。刘智锋等[17]以图书情报领域为例,研究发现图情领域权威期刊《中国图书馆学报》和《情报学报》关键词的生存时间比其他核心期刊的关键词生存时间还长,且具有显著性差异。计算机学科领域和图书情报学科领域存在一定的区别,因此有必要推广到计算机学科,进一步验证。
  获得基金资助可以看作是对研究项目的一种认可,论文作为研究目的重要产出,基金资助的论文亦可能会受到更加广泛的关注。以往不少研究分析基金资助对论文影响力的影响,大部分结果表明,基金资助的论文相比于非基金资助的论文可获得更多的被引频次[18-20]、具有更高的即时影响力[21]与传播力[22]。可知,论文是否受基金资助对于论文的认可度和关注度等具有显著的影响,从而可能影响论文关键词的生存时间。石磊[23]采用生存分析中的Cox回归方法,发现论文是否受基金资助对论文的零被引生存状况具有显著影响。然而,至今鲜有研究分析基金资助对论文关键词生存状况的影响。因此,本研究将论文分为基金资助论文和非基金资助论文两类,研究基金资助因素对论文关键词生存时间的影响。
  学者合作解决复杂的科学问题已经越来越普遍,随着合作研究的盛行,关于最佳合作规模与学术论文影响力之间的关系等问题,受到科学计量学等相关领域学者的广泛关注。马荣康等[24]以Financial Times TOP45商学院期刊论文为例,发现多作者论文比单作者论文获得更多的被引次数,论文的被引次数和论文的影响力之间存在倒U型关系,其中转折点大约为3人。杨瑞仙等[25]发现,作者合作与论文影响力存在正相关关系,同时发现科学合作最佳规模为2~4人。可见,论文作者合作规模的大小对论文的影响力具有显著影响;不同作者合作规模亦可能影响论文的认可度,从而影响论文关键词的生存时间。然而,未有学者对作者合作规模是否会对论文关键词生存时间产生影响进行研究;本文将对作者合作规模与论文关键词生存时间之间的关系进行分析。

nlc202301101724



  参考文献是论文的重要知识基础,参考文献的数量在一定程度上可以反映一篇论文的知识流入量,亦可以在一定程度上反映一篇论文的质量。陈仕吉等[26]采用Tobit多元回归模型对参考文献数量和论文被引频次之间的关系进行探析,发现参考文献数量对被引次数有积极的影响。肖学斌等[27]同样发现参考文献数与论文被引次数存在正相关。可知,参考文献数会对论文的采纳产生一定的影响,从而可能会影响关键词的生存时间,本文将对参考文献数对论文关键词生存时间的影响进行研究。
  1.2.2论文扩散因素
  科学知识通过引用关系发生扩散,其可以记录科学知识的演化过程[28]。论文被引作为科学知识扩散的重要途径之一,可以通过论文的被引频次来反映该论文知识的扩散情况。论文的被引次数越多,说明论文所蕴含的科学知识更多地被其他论文所采纳,论文的科学知识扩散的范围更广。论文的关键词可以看作是论文的知识单元[29],论文的科学知识扩散范围越广,关键词的生存时间可能越长,而零被引或者被引次数少的论文扩散范围窄,论文的关键词生存时间可能会比较短。因此,有必要对论文的被引频次与关键词生存时间之间的关系进行分析,揭示知识单元扩散对关键词生存时间的影响机制。此外,科研相关人员通过下载论文,之后进行阅读、学习、传递、引用等[30];因此,除了论文的被引情况,论文的下载情况亦能反映论文的扩散情况。本研究将采用知网记录的论文被下载次数来表示论文的下载情况,分析论文的下载次数与论文关键词生存时间之间的关系。
  2数据与研究方法
  2.1数据来源与预处理
  计算机学科领域作为当前的重点研究领域之一,学科知识不断更新迭代,适合于研究学科知识的生存情况,可促进对该领域研究主题演化的理解;且该学科领域论文的研究问题或研究方法常见于关键词,有利于研究不同词汇功能关键词的生存时间差异。因此,本研究以国内计算机学科领域为例,选取《中文核心期刊要目总览》第八版目录下的TP自动化技术、计算机技术类别下的32本期刊作为本文的数据来源,构建数据集。《中文核心期刊要目总览》是由北京大学图书馆和北京十几所高校图书馆合作的研究项目成果[31],是我国重要的核心期刊分类目录之一,其中TP类目涵盖了我国计算机学科研究的重点领域,因此,该数据集具有较好的代表性。本文根据期刊名称从中国知网进行数据采集,采集的数据字段主要包含论文发表年份、发表期刊、标题、作者、机构、摘要、关键词、基金资助、专辑、专题、分类号、被引频次、下载次数、页数以及参考文献数,采集时间为2020年12月15日―2021年1月15日。
  本数据集一共包含355 502篇论文,剔除征稿启事、报告、简介等非学术论文以及缺少关键词等字段的论文,最后一共有298 631篇论文,发表时间在1982―2020年之间。论文的关键词总数为1 277 017个,篇均关键词数为4.276个。其中,作者规模大小、参考文献数、被引次数和下载次数分布如图1所示。文数量和关键词数量时间分布如图2(a)所示。从图中可知,论文数和关键词数都呈现先快速增长、后有所下降的趋势。由于部分期刊在2010年之后出现刊期和载文减少的现象,导致2010年之后论文数呈现下降趋势。
  本研究基于词汇功能显现机理和词汇功能分类框架,将关键词的词汇功能分为研究问题、研究方法和其他3类,并采用陆伟等提出的BERT和LSTM关键词词汇功能标注方法,对关键词的词汇功能进行标注,分别构建问题类关键词集和方法类关键词集,该方法将论文的摘要和关键词作为输入,采用BERT预训练模型对文本进行向量化表示,随后输入LSTM网络中间层,最终使用Softmax分类器进行标签的预测,结果表明,准确率、召回率和F1值分别达到0.83、0.87和0.85,优于传统的方法[32]。最终本研究一共得到问题类关键词63 327个,方法类关键词596 366个,表明计算机学科领域一个问题会采用不同的方法进行研究,关键词更多的表示论文的研究方法;问题类关键词数和方法类关键词数时间分布如图2(b)所示。从图中可知,问题类关键词数量随着时间不断增长,而方法类关键词先增加,后减少。
  此外,为了生成可以直接用于生存分析的数据格式,本研究做了如下处理:
  1)确定生存分析的起始观察年份n,通过与第n年之前发表的论文关键词进行逐年匹配,获得在第n年之前未出现过的关键词,构建起始观察年的新生关键词;同时通过与第n年之后t年内发表的论文关键词进行逐年匹配,获得第n年新生关键词在之后t年的生存状态。
  2)为了避免分析一年数据的结果存在偶然性,同时考虑前面有足够的年份用于确定新生关键词和观察新生关键词的生存状况,本研究选取2007―2009年3年的新生关键词作为整体,分析其在随后10年内的生存状况,即观察期分别为2008―2017年、2009―2018年和2010―2019年,并选取关键词最后一次出现的时间点,来计算关键词的生存时间。
  3)分别对论文的期刊等级、是否基金资助、作者合作规模、参考文献数、被引频次和下载次数6个字段进行结构化处理,并根据各个字段内容的类型和分布情况,构建相应的自变量,用于研究关键词生存时间影响因素。
  2.2研究方法
  生存分析统计方法主要包含寿命表、Kaplan-Meier曲线和Cox回归3种生存分析统计方法。其中,Kaplan-Meier曲线由Kaplan和Meier于1958年提出,横轴为生存时间,纵轴为生存率,可以直观地展示生存分析的结果,适合于单个因素的组间对比分析。因此,本研究将Kaplan-Meier曲线应用于关键词生存时间单因素影响分析,并采用Log-Rank和Wilcoxon(Gehan-Breslow)对两组或多组生存曲线差异进行显著性检验。此外,Cox回归适用于研究多个因素对生存时间的影响,因此,本研究同时采用Cox回归对关键词生存时间多影响因素进行分析。

nlc202301101724



  3基于K-M曲线的关键词生存时间单因素分析3.1期刊等级
  中国计算机协会(CCF)2020年首次发布了《CCF推荐中文科技期刊目录》,从347本中文期刊中遴选37本推荐期刊,并将其分为A、B、C共3类期刊。CCF作为中国计算机科学领域重要的学术团体,其发布的推荐期刊目录具有较强的权威性。因此,本研究根据期刊类型将32本期刊分为两类,分别为A类期刊和非A类期刊,分析期刊等级对论文关键词生存时间的影响。
  不同等级期刊的问题类关键词生存函数如图3(a)所示,可知来自A类期刊的问题类关键词生存时间略长于非A类期刊,A类期刊的问题类关键词平均生存时间为2.322年,而非A类期刊的为2.268年,根据Log Rank和Breslow检验结果显示,两者之间差异不显著。不同等级期刊的方法类关键词生存函数如图3(b)所示,同样来自A类期刊的方法类关键词生存时间长于来自非A类期刊的关键词,比来自非A类期刊的方法类关键词长0.301年。可见,期刊等级与论文问题类关键词生存时间不存在相关关系,而与方法类关键词生存时间存在显著相关关系。
  本研究根据论文是否受基金资助,将论文分为两组,分别为基金资助和非基金资助。是否基金资助论文的问题类和方法类关键词生存函数如图4(a)和图4(b)所示。实验结果表明,基金资助论文和非基金资助论文的问题类关键词生存时间相近。基金资助论文的方法类关键词生存时间比非基金资助论文的方法类关键词生存时间更长。在0.05置信度水平下,基金资助论文和非基金资助论文的问题类关键词生存时间不存在显著性差异;而方法类关键词生存时间存在显著性差异。
  3.3作者合作规模
  本研究中的论文作者合作规模分布情况(图1(a)),作者合作规模主要集中在1~5人之间,其中作者数为3人的论文最多。根据杨瑞仙等[25]的研究发现,作者合作规模2~4人为最佳,本研究拟将作者合作规模分为3组,作者合作规模为1对应组1,作者合作规模为2~4对应组2,作者合作规模大于等于5归为组3,分析论文不同作者合作规模与论文关键词生存时间的相关关系。
  由图5(a)所示,当作者合作规模为2~4时,论文问题类关键词的生存时间为最长,达到2.338年;其次为作者合作规模大于等于5时,其生存时间为2.232年;最短的为作者合作规模为1时。由图5(b)可得,作者合作规模为大于等于5的论文方法类关键词平均生存时间最长,略长于作者合作规模为2~4的论文方法类关键词生存时间,只有1个作者的论文方法类关键词生存时间最短。作者合作规模与问题类关键词生存时间不存在相关关系;而作者合作规模为1的论文方法类关键词和作者合作规模为2~4与大于等于5的论文方法类关键词的生存时间具有显著性差异。
  3.4参考文献数
  根据论文参考文献数分布(图1(b))可知,大部分论文的参考文献数小于20。基于此,本研究拟将参考文献数为0~20的划分为组1,将参考文献数大于等于20的划分为组2,以研究不同参考文献数与论文关键词生存时间的相关关系。
  不同参考文献数的论文问题类关键词生存时间差异如图6(a)和图6(b)所示,可知参考文献数大于等于20的论文问题类和方法类关键词生存时间,均大于参考文献数小于20的论文问题类和方法类关键词生存时间。通过Log Rank和Breslow检验发现,论文参考文献数与论文问题类关键词生存时间不具有显著的相关;而在0.05置信度水平下,与方法类关键词生存时间存在显著的相关关系。
  3.5被引频次
  论文被引频次分布符合幂律分布特征(图1(c)),被引频次在0~10之间的论文数快速下降,而被引频次大于等于30的论文数趋于稳定。因此,本文拟将论文的被引频次分为3组,被引频次在0~10之间的为低被引组,被引频次在10~30之间的为中被引组,被引频次大于等于30的为高被引组。
  从图7(a)和图7(b)可得,不同被引频次论文的问题类和方法类关键词的生存时间长短为:高被引论文>中被引论文>低被引论文,且高被引论文关键词生存时间和中被引论文关键词生存时间之间的差异,大于中被引论文关键词生存时间和低被引论文关键词生存时间之间的差异。具体而言,高被引论文问题类关键词生存时间比低被引论文的长1.264年;高被引论文方法类关键词生存时间比低被引论文的长0.977年。高被引论文、中被引论文和低被引论文的关键词生存时间两两均存在显著性差异。可见,论文扩散广度与论文关键词的生存时间存在正相关。
  3.6下载次数
  由论文下载次数的分布情况(图1(d))可知,随着下载次数的增加,相应的论文数先增加,后不断减少;下载次数约为100时,论文数量最大,当下载次数大于等于300时,论文数逐渐趋于稳定。本研究根据下载次数分布情况将论文分为3组,分别为:下载次数小于100为低下载组、下载次数介于100和300之间为中下载组、下载次数大于等于300为高下载组。研究不同下载次数的论文关键词生存时间是否存在一定的差异。
  不同下载次数论文的问题类和方法类关键词生存情况如图8(a)和图8(b)所示,高下载论文的问题类和方法类关键词生存曲线始终在最上方,而低下载论文的问题类和方法类关键词生存曲线始终在最下方,中下载论文的生存曲线介于两者之间,即高下载论文的问题类和方法类关键词的平均生存时间最长,低下载论文的平均生存时间最短,中下载论文的平均生存时间介于两者之间。此外,高下载论文问题类和方法类关键词生存时间和中下载论文问题类和方法类关键词生存时间之间的差异,大于中下载论文问题类和方法类关键词生存时间和低下载论文问题类和方法类P键词生存时间之间的差异。高下载论文、中下载论文和低下载论文两两之间的关键词生存时间均存在显著性差异。进一步验证了论文扩散与论文关键词生存时间存在正相关的关系。
  4基于Cox回归的关键词生存时间多因素分析Kaplan-Meier曲线仅能对生存时间的单个影响因素进行分析,且无法具体量化影响因素单位值变化对生存情况的影响大小;而Cox回归比例风险模型则可以建立生存时间的多影响因素模型,考察多个变量对关键词生存时间的影响。因此,本研究采用Cox回归方法更加精确地分析关键词的多因素生存风险。关键词Cox回归分析的自变量和因变量与上述分析保持一致,具体如表1所示。

nlc202301101724



  本研究先以全部关键词为分析对象,研究关键词的多因素生存风险;再分别对问题类和方法类关键词进行多因素生存风险分析。全部关键词的Cox回归比例风险模型如表2所示,在0.05置信度水平下,是否基金资助、被引频次和下载次数与关键词生存时间存在显著的相关关系,且这3个变量的系数B均小于0,表明基金资助论文的关键词生存风险小于非基金资助论文的关键词生存风险,即基金资助论文的关键词生存时间长于非基金资助论文关键词生存时间。同理,高被引论文的关键词生存风险小于低被引论文的,中被引论文的关键词生存风险亦小于低被引论文的;高下载和中下载论文的关键词生存风险小于低下载论文的关键词生存风险。此外,作者合作规模为2~4人的论文关键词生存时间长于作者合作规模为1人的论文关键词生存时间。
  4.1问题类关键词多因素生存风险分析
  问题类关键词的Cox回归结果如表3所示,在0.05置信度水平下,论文的被引频次和下载次数与关键词的生存时间具有显著的相关关系,其中,高被引论文的问题类关键词生存风险为低被引论文的问题类关键词生存风险的0.840倍,高下载论文的问题类关键词的生存风险为低下载论文的问题类关键词生存风险的0.850倍,而结果表明,论文内部因素对于问题类关键词的生存时间不具有相关关系。进一步地,将论文扩散因素排除之后,构建新的Cox回归模型结果表明,A类期刊、基金资助、作者合作规模大于1人和参考文献数大于等于20等因素,可以降低问题类关键词的生存风险,然而仍然不具有显著性。
  4.2方法类关键词多因素生存风险分析
  方法类关键词的Cox回归模型如表4所示,从表中可得,论文扩散因素中的被引频次和下载次数与论文方法类关键词的生存时间具有显著的相关关系,其中高被引和中被引论文的方法类关键词生存风险分别为低被引论文的方法类关键词生存风险的0.869倍和0.946倍,高下载和中下载论文的方法类关键词生存风险分别为低下载论文的方法类关键词生存风险的0.867倍和0.936倍。此外,基金资助论文的方法类关键词生存时间长于非基金资助论文的方法类关键词生存时间;方法类关键词的多因素生存风险分析Y果与全部关键词的多因素生存风险分析结果一致。
  同样地,将论文的扩散因素排除,构建新的Cox回归模型,结果显示,在0.05置信度水平下,期刊等级、是否基金资助和作者合作规模与方法类关键词的生存时间具有显著的相关关系,其中A类期刊论文的方法类关键词的生存风险为非A类期刊论文的方法类关键词生存风险的0.949倍,基金资助论文的方法类关键词的生存风险为非基金资助论文的方法类关键词生存风险的0.970倍,作者合作规模为2~4人的论文方法类关键词生存风险为作者合作规模只有1人的0.951倍,作者合作规模为5人及以上论文的方法类关键词的生存风险为作者合作规模只有1人的0.933倍。而参考文献数与方法类关键词的生存时间仍不具有显著的相关关系。
  5结论与展望
  本研究从关键词词汇功能的视角出发,构建了关键词生存时间影响因素模型,并分别从单因素和多因素两个视角,探究了不同影响因素与不同词汇功能的关键词生存时间的相关关系。研究结果表明,论文的扩散因素包含论文的被引频次和下载次数,这两个因素与问题类和方法类关键词生存时间存在显著的正相关关系,具体表现为高被引论文关键词生存时间>中被引论文关键词生存时间>低被引论文关键词生存时间,高下载论文关键词生存时间>中下载论文关键词生存时间>低下载论文关键词生存时间;论文的内部因素中,期刊等级、是否基金资助、作者合作规模和参考文献数与方法类关键词生存时间存在显著的相关关系,具体表现为A类期刊论文方法类关键词生存时间>非A类期刊论文方法类关键词生存时间;基金资助论文方法类关键词生存时间>非基金资助论文方法类关键词生存时间;作者合作规模为2~4人论文方法类关键词生存时间>作者合作规模大于等于5人论文方法类关键词生存时间>作者合作规模为1人论文方法类关键词生存时间;参考文献数大于20论文方法类关键词生存时间>参考文献数小于等于20论文方法类关键词生存时间。
  本研究在词汇功能视角下,将生存分析方法应用于关键词的分析,探究了论文内部因素和扩散因素与关键词生存时间的相关关系。本研究尚属于探索阶段,存在一定的不足,如本研究通过深度学习方法仅构建计算机学科领域的问题类和方法类关键词集,词汇功能自动识别的方法和技术有待进一步完善,以支撑构建更多学科领域的数据集。此外,关键词生存时间可能受到复杂因素的影响,后续将采用因果推断等方法,探究关键词生存时间的其他影响因素以及其他学科领域的关键词生存规律,并进一步应用于热点识别等研究。
  参考文献
  [1]Hey T.The Fourth Paradigm-Data-Intensive Scientific Discovery[M].Berlin:E- Science and Information Management.Springer Berlin Heidelberg,2012:1-5.
  [2]李信,程齐凯,刘兴帮.基于词汇功能识别的科研文献分析系统设计与实现[J].图书情报工作,2017,61(1):109-116.
  [3]Lu W,Liu Z,Huang Y,et al.How Do Authors Select Keywords-A Preliminary Study of Author Keyword Selection Behavior[J].Journal of Informetrics,2020,14(4):101066.
  [4]高劲松,彭博.关键词频度演化视角下的研究热点挖掘方法研究[J].图书与情报,2020,(3):61-70.
  [5]刘智锋,李信,程齐凯,等.学术文本关键词语义功能数据集构建与分析――以Journal of Informetrics为例[J].图书馆论坛,2019,39(7):64-74.

nlc202301101724



  [6]程齐凯,李信,陆伟.领域无关学术文献词汇功能标准化数据集构建及分析[J].情报科学,2019,37(7):41-47.
  [7]Hu J,Zhang Y.Research Patterns and Trends of Recommendation System in China Using Co-word Analysis[J].Information Processing & Management,2015,51(4):329-339.
  [8]Kondo T,Nanba H,Takezawa T,et al.Technical Trend Analysis By Analysis Research Papers Titiles[M].Human Language Technology:Challenges for Computer Science and Linguistics.Belin:Springer,2009:512-521.
  [9]Nanba H,Kondo T,Takezawa T.Automatic Creation of a Technical Trend Map from Research Papers and Patents[C]//International Workshop on Patent Information Retrieval.ACM,2010:11-16.
  [10]Gupta S,Manning C D.Analyzing the Dynamics of Research By Extracting Key Aspects of Scientific Papers[C]//Proceedings of Ijcnlp.Thailand:The Association for Computer Linguistics,2011:1-9.
  [11]Dan S,Agarwal S,Singh M,et al.Which Techniques Does Your Application Use?:An Information Extraction Framework for Scientific Articles[EB/OL].https://arxiv.org/abs/1608.06386,2018-10-19.
  [12]Mesbah S,Fragkeskos K,Lofi C,et al.Facet Embeddings for Explorative Analytics in Digital Libraries[C]//International Conference on Theory and Practice of Digital Libraries.Greece:Springer,2017:86-99.
  [13]Heffernan K,Teufel S.Identifying Problems and Solutions in Scientific Text[J].Scientometrics,2018,116(2):1367-1382.
  [14]赵洪,王芳.理论术语抽取的深度学习模型及自训练算法研究[J].情报学报,2018,37(9):923-938.
  [15]程齐凯.学术文本的词汇功能识别[D].武汉:武汉大学,2015.
  [16]周笑盈.基于关键词标引的近5年国际数字图书馆研究热点与趋势分析[J].农业图书情报,2019,31(4):37-47.
  [17]刘智锋,李信.作者关键词生存分析――以国内图情领域为例[J].图书馆杂志,2020,39(7):48-57.
  [18]李昕洁.基金论文的使用次数是否高于非基金论文?[J].图书馆论坛,2019,39(2):11-17.
  [19]Hu A G Z.Public Funding and the Ascent of Chinese Science:Evidence from the National Natural Science Foundation of China[J].Research Policy,2020,49(5):103983.
  [20]lvarez-Bornstein B,Bordons M.Is Funding Related to Higher Research Impact?Exploring Its Relationship and the Mediating Role of Collaboration in Several Disciplines[J].Journal of Informetrics,2021,15(1):101102.
  [21]许鑫,于霜,王立梅.科学基金对开放存取论文的影响力分析――以SCI收录的自然科学领域论文为例[J].数字图书馆论坛,2019,(5):26-36.
  [22]Jiang S,Gao Q,Chen H,et al.The Roles of Sharing,Transfer,and Public Funding in Nanotechnology Knowledge-diffusion Networks[J].Journal of the Association for Information Science and Technology,2015,66(5):1017-1029.
  [23]石磊.期刊文零被引现象实证研究[D].蚌埠:安徽财经大学,2015.
  [24]马荣康,李真真.高被引还是零被引:基于论文被引的最佳科研合作规模研究――来自Financial Times TOP45商学院期刊的证据[J].情报学报,2020,39(11):1182-1190.
  [25]杨瑞仙,李贤.科学合作与论文影响力之间的相关性研究[J].现代情报,2019,39(4):125-133.
  [26]陈仕吉,江文森,康温和,等.论文被引频次的影响因素研究[J].情报杂志,2020,39(5):83-88.
  [27]肖学斌,柴艳菊.论文的相关参数与被引频次的关系研究[J].现代图书情报技术,2016,(6):46-53.
  [28]闵超,张帅,孙建军.科学文献网络中的引文扩散――以2011年诺贝尔化学奖获奖论文为例[J].情报学报,2020,39(3):259-273.
  [29]周志超,盖双双.国内知识元研究的缘起与发展脉络[J].情报科学,2019,37(10):158-163.
  [30]刘智锋,马永强,杨金庆.引文学科多样性与论文影响力的关系研究[J].情报杂志,2020,39(7):190-195,207.
  [31]北京大学图书馆.《中文核心期刊要目总览》(2017年版)相关问题说明[EB/OL].https://www.lib.pku.edu.cn/portal/bggk/dtjj/qikanyaomu,2020-12-14.
  [32]陆伟,李鹏程,张国标,等.学术文本词汇功能识别――基于BERT向量化表示的关键词自动分类研究[J].情报学报,2020,39(12):1320-1329.
  (责任编辑:陈媛)

nlc202301101724




转载注明来源:https://www.xzbu.com/4/view-15443885.htm

相关文章