基于自述研究兴趣相似性网络的机构潜在合作关系挖掘
来源:用户上传
作者:胡志伟 裴雷
摘要:[目的/意义]定量描述图书情报与档案管理学科的研究图景,为各机构之间合作关系的建立提供决策支持,从而推动跨机构合作的发展。[方法/过程]采用LDA主题模型和网络分析方法,以国内67所图书情报与档案管理教育机构为例,通过对教师自述研究兴趣文本进行主题聚类构建机构相似性网络,并进行社群划分与潜在合作关系挖掘。[结果/结论]当前国内图书情报与档案管理教师的研究兴趣主要涉及信息资源管理、信息计量与竞争情报、信息服务与用户等11个主题,样本机构可划分为7个社群,包含457对潜在合作关系。未来,图书情报与档案管理学科除了向5种路径进行学科融合之外,还可在不同领域充分展开科研与教育实践的跨机构合作。
关键词:相似性网络 自述研究兴趣 科研合作 教育机构 LDA模型
分类号:G203
引用格式:胡志伟,裴雷. 基于自述研究兴趣相似性网络的机构潜在合作关系挖掘: 以国内图书情报与档案管理教育机构为例[J/OL]. 知识管理论坛, 2022, 7(2): 143-152[引用日期]. http://www.kmf.ac.cn/p/282/.
1 引言
2019年4月,为提高高校服务经济社会发展能力,教育部、中央政法委、科技部等13个部门联合启动“六卓越一拔尖”计划2.0,该计划包括全面推进新文科建设[1]。较传统文科而言,新文科更加强调学科发展中的继承与创新、多学科的交叉与融合以及多机构的协同与共享[2]。在大数据、云计算、人工智能等新技术高速发展和信息社会需求不断变化的时代背景下,图书情报与档案管理学科展现了日益显著的跨学科特性,而学科的多向发展也对跨系统组织之间的科研合作提出了更多的要求。跨机构合作能够在信息共享的基础上充分利用科研资源,形成解决复杂研究问题的有效方法[3]。如何挖掘机构之间的潜在合作关系、提升跨机构合作效率,也成为了科学研究中的重要议题。
一般认为,研究内容更为相近的实体之间具有更高的潜在合作程度。对此,相关研究[4-6]主要从学者的科研成果中直接获取或间接识别研究主题,并采用网络分析等方法,从不同角度对科研实体进行相似度测算或社群分析。然而,此条研究路径很少利用公开于互联网中的官方自述资料。当前以自述资料为数据来源的研究[7-9]主要是对主题分布情况的内容分析,而基于主题模型的方法存在一定程度的缺位。鉴于此,笔者拟以国内图书情报与档案管理教育机构为例,基于学者的自述研究兴趣文本,利用隐含狄利克雷分布(Latent Dirichlet Allocation,LDA)主题模型和网络分析方法,试图回答如下两个问题:
(1)当前国内图书情报与档案管理专业教师的研究兴趣集中表现为哪些主题?
(2)国内的哪些图书情报与档案管理教育机构之间存在潜在的合作基础?
本文的研究结果有助于理解国内图书情报与档案管理专业教师研究兴趣的分布情况,协助各机构在做出战略定位和规划的基础上寻求同自身教学科研实践内容相似的对应机构,为其间合作关系的建立提供决策支持。
2 相关研究
2.1 学者研究兴趣主题挖掘
学者的研究兴趣代表了学者在一定时间段内感兴趣的研究内容,可通过学术成果(包括论文、项目、专利等)[10]、科研社交网站[11]、个人主页[12]等途径获取相关数据。由于学者与研究兴趣之间往往是多对多的关系,即一名学者会对多个研究主题感兴趣,且不同的学者会同时对某项研究主题感兴趣,因此许多研究聚焦于学者研究兴趣的主题识别与表征工作。当前研究主要采用主}模型和知识网络方法实现上述目标,例如刘晓豫等[13]利用加权K-means聚类算法对多专长专家研究兴趣的识别方法的改进,熊回香等[14]利用LDA主题模型对学者主题档案的建构,刘萍等[15]利用关键词共现网络对特定机构学者的社区划分等。值得注意的是,当前相关研究主要将科研成果的题录信息作为底层数据,而很少针对学者自述资料进行分析。一般而言,学者自述研究兴趣在表达凝练的同时蕴含着丰富语义内容,且在时效性得到保证的前提下,能够有效减小科研成果发表周期较长、与学者实际研究兴趣关联程度较低所带来的影响。因此,有必要对学者的自述资料给予一定的重视。
2.2 科研实体潜在合作关系挖掘
为了推动潜在科研合作以提高科研效率,研究者对科研实体之间的相似性进行了探讨。X. Kong等[16]基于LDA主题模型所揭示的学者动态研究兴趣矩阵,通过计算学者个人之间的余弦相似度构建了合作者推荐模型;安璐等[17]基于“机构―文献类别”矩阵,利用自组织映射方法测算了中美图书情报科研机构研究领域的相似性;林原等[18]基于“高校―合作”和“高校―主题”矩阵,分别借助改进后的Katz和余弦相似性指标,对高校之间的潜在合作关系进行了分析;E. Yan等[19]基于SimRank模型,对学者、机构和国家3个层次的合作网络进行了链路预测。总体而言,在机构相似性测度层面,相关研究主要利用机构主题模型和已有合作网络实现测算,其中余弦相似度在关于前者的研究中得到了广泛应用。笔者以国内图书情报与档案管理教育机构为例,借助LDA主题模型对专职教师的自述研究兴趣进行主题挖掘,从而依次构建机构的主题向量模型和余弦相似性网络,探测并分析其间的潜在合作关系。
3 数据与方法
3.1 研究设计
笔者主要采用网络调查、LDA主题聚类和网络分析方法,在R语言和Gephi软件环境中完成以下研究路径(见图1):①数据获取与预处理。通过样本机构的官方网站采集教师的个人资料,经文本数据清洗和分词操作后,构建“教师―词项”DTM(Document Term Matrix)矩阵。②教师自述研究兴趣主题发现。确定LDA主题模型的各项基本参数,根据“主题―词项”分布情况对主题发现结果进行标识。③机构相似性网络分析。基于机构的主题向量模型计算机构之间的相似度,从而构建机构的相似性网络,对机构进行社群划分,识别具有潜在合作关系的机构组。
nlc202206071506
转载注明来源:https://www.xzbu.com/1/view-15432966.htm