基于图注意力网络的科技实体关系联合抽取方法
来源:用户上传
作者:周义恒 陈颢天 周向东
摘 要:实体关系抽取在科技文献挖掘、文本知识发现等应用中起着重要作用。本文提出了一种新的实体关系联合抽取模型,利用关系之间存在的关联性来提升实体与关系联合抽取的性能。即将实体二元组(实体对)映射到关系语义子空间,并利用图注意力网络(Graph Attention Network)来探索关系之间相关性,实现了实体关系三元组抽取性能的改进。在两个常用的公开数据集上的实验结果表明本模型达到了目前已知的最好性能指标。
关键词:关系相关性;联合抽取;图注意力网络
中图分类号:TP391文献标识码:A文章编号:2097-0145(2022)03-0039-06doi:10.11847/fj.41.3.39
Joint Extraction of Science Entity and Relation Based on Graph Attention Network
ZHOU Yi-heng1,2, CHEN Hao-tian1,2, ZHOU Xiang-dong1,2
(1.College of Computer Science and Technology, Fudan University, Shanghai 200438, China; 2.Shanghai Key Laboratory of Data Science, Shanghai 200438, China)
Abstract:Entity and relation extraction plays an important role in science text mining and science knowledge and information discovery. In this paper, we propose a novel entity and relation joint extraction model, utilizing the association information between relations to improve model performance. Specifically, we project entity pair vectors to corresponding relation-spaces, and adopt Graph Attention Network (GAT) to adaptively explore the association information between them, thereby improving the model performance. The experimental results on two commonly used datasets show that our proposed model outperforms other existing models and archives the state-of-the-art performance.
Key words:association information between relations; joint extraction; graph attention network
1 引言
随着信息技术的迅速发展,科学研究中累积了大量文本数据。这些数据往往蕴含着丰富的知识,相关的知识抽取与挖掘技术具有重要的应用价值。实体关系三元组是以三元组形式将文本(如科技文献)中提取的人名、地名等为代表的专用名词表示为主、宾实体对象,两个实体之间的联系表示为关系的数据结构。实体关系三元组是当前构建知识库或语义网络最常用的基本数据对象,因此从非结构化的文本数据中自动抽取实体关系三元组具有重要的研究意义。
实体关系三元组通常以<Subject,Relation,Object>(表示为<s,r,o>)形式表达。如图1所示的一段文本:“张三出生于上海,一个位于中国东部的城市”,可以从中抽取诸如<张三,出生于,上海>(Z-BornIn-S),<张三,出生于,中国>(Z-BornIn-C)和<张三,家乡是,上海>(Z-Home-S)等三个实体关系三元组。通过进一步的观察可以发现许多句子中蕴含的不同三元组之间存在实体或关系共享情况,称为实体关系重叠问题。本文将这种重叠问题分为两类:单实体重叠Single Entity Overlap(SEO)和实体对重叠Entity Pair Overlap(EPO)。图1中三元组Z-BornIn-S和Z-Home-S属于 SEO问题,而三元组Z-BornIn-S和Z-BornIn-C属于EPO问题。由于实体或关系重叠会产生遮蔽或混淆的情况,往往对三元组自动抽取带来不利的影响。
随着深度学习技术的迅速发展,实体关系三元组抽取技术从早期的流水线模式已经发展到基于各种深度网络的联合抽取方法[1~4]。基于深度W络的抽取方法通常将整个句子编码,利用解码器逐一生成三元组或者先抽取三元<s,r,o>的主语部分subject,然后预测其余部分即<Object,Relation>。而基于图网络的方法在抽取三元组的过程中可以捕获不同节点之间的相关性,从而提升性能。但是前人工作大多忽略了实体关系重叠问题或者缺乏对该问题的深入探索。Fu等[4]提出了GraphRel方法利用关系之间的交互以改善关系抽取模型的性能,为解决和利用实体关系重叠带来了新的启发和思路。该工作使用关系加权图卷积神经网络Graph Convolutional Network(GCN)对命名实体与关系之间的交互进行建模。但是GCN无法自适应地利用关系相关性,三元组抽取性能与一些最新的研究工作相比并不理想。
nlc202207011744
转载注明来源:https://www.xzbu.com/2/view-15435242.htm