多源异构数据情境中学术知识图谱模型构建研究
来源:用户上传
作者:
摘 要:[目的/意义]随着大数据和人工智能技术的蓬勃发展,数据驱动的智慧学术研究以及基于学术大数据的知识发现受到产业界和学术界的广泛关注。学术知识图谱是学术信息挖掘和学术知识管理的基础,在智慧学术研究中具有重要的学术价值和产业价值。[方法/过程]本文以构建智慧学术服务的实际需求为出发点,从学术大数据的获取、学术实体识别、学术实体链接与知识融合、学术知识图谱本体模型构建、学术知识图谱表示与存储等核心问题入手,提出智慧学术领域的知识图谱构建的理论模型。[结论/结果]多源异构数据融合的學术知识图谱是支撑智慧学术的数据基础,同时也是人工智能及知识表示技术在学术大数据领域的重要应用。
关键词:学术知识图谱;多源异构数据;知识图谱;知识表示;智慧学术
Abstract:[Purpose/Significance]With the rapid development of big data and artificial intelligence technology,data-driven intelligent academic research and knowledge discovery based on academic big data have received extensive attention from industry and academic.Academic knowledge graph is the foundation of academic information mining and academic knowledge management,and has important academic value and industrial value in intelligent academic research.[Method/Process]This paper started from the actual needs of building intelligent academics service,begining with the core issues of academic big data acquisition,academic entity identification,academic entity link and knowledge fusion,academic knowledge map ontology model construction,academic knowledge graph representation and storage,and proposed the theoretical model for the construction of knowledge graph in the field of smart academics.[Result/Conclusion]The construction of academic knowledge graph for multi-source heterogeneous data fusion was the data foundation supporting intelligent academics,and also an important application of artificial intelligence and knowledge representation technology in the field of academic big data.
Key words:academic knowledge graph;multi-source heterogeneous data;knowledge graph;knowledge representation;smart academic
随着学术信息数字化的不断发展,学术机构以及学术出版集团的互联网公开学术数据库的涌现产生了海量的学术数据。这些数据中蕴含了大量隐性学术知识,如潜在的合作团队、潜在的合作作者等。如果这些隐性的知识能够被加工处理,并以有效的知识呈现,不仅可以为潜在学术团队构建、潜在科研兴趣预测与潜在科研能力量化研究提供辅助决策,还可以为各种学术应用平台的构建提供可靠的数据源,从而增强学术研究者的科研能力,并丰富智慧学术的研究内涵。因此,如何抽取多源异构学术数据自身的隐性特征,形成有价值的知识,并使之为学术研究者提供行之有效的辅助决策,已成为数据挖掘技术在学术大数据领域应用研究的新趋势[1]。
近年来,由于单一数据源描述事实具有很大偏向性,尤其是个性化智能搜索的需要。多种数据源语义统一表示技术研究受到业界的广泛关注。2012年,Google公司提出了Google知识图谱技术,并将其成功用于智能搜索领域[2]。随后,关于知识图谱的应用研究席卷各个领域。最为常见的应用就是借助维基百科构建知识图谱。因为维基百科是迄今为止依靠群体智慧所创建的最大互联网数据源,具有丰富的半结构化数据,且易于提取事实知识。比如,国外有名的知识图谱项目DBpedia[3]、YAGO[4]和Freebase[5]等通用知识图谱的数据来源都是维基百科。
相对而言,虽然国内有关知识图谱的研究起步较晚,但是在工业界和学术界也取得了不菲的成就。例如,在商业应用方面成功的案例就有百度公司研发的知识图谱“知心”和搜狗公司自主开发的知识图谱“知立方”。在学术领域应用研究方面有清华大学主导研发的知识图谱XLORE以及上海交通大学自主研发的知识图谱Zhishi.me[6]。他们都是借助互动百科和百度百科所研发的大规模知识图谱项目。其中,XLORE知识图谱是以英文维基百科为载体,采用跨语言链接技术构建的融合中英文百科的双语言知识库。但是,这些依托互联网百科知识所构建的通用知识图谱数据来源多、知识覆盖面广,不能有效聚焦特定领域图谱构建和知识推理等应用研究。这是由于,通用图谱本身知识表示的粗粒度和语义表示的泛化性容易造成所构建的智能应用预测的准确性和客观性降低。尤其是在对准确性要求极高的学术领域,比如重大科研攻关项目研发团队的组建或者科研合作团队预期科研产出评估,都需要相当精确的领域知识图谱做智能应用的研究数据基础。因此,构建面向学术大数据的知识图谱是一个亟待解决的新问题。 另外,通过相关的文献梳理发现,国外的通用知识图谱的发展比较成熟,尤其是Google公司,其理论研究和商业应用都处于领先地位。相反,国内有关知识图谱的研究应用还尚不成熟,特别是学术领域知识图谱的构建研究。为此,本文聚焦学术领域知识图谱的构建研究,其意义主要体现在以下几方面:
1)有助于更加精确和合理地评估科研工作者个人和团队的科研贡献度,为重大课题攻关团队的选择提供可靠的决策指导。众所周知,科研实力是国家科技的生命线,重大攻关项目团队的组建是其能否顺利实现的根本保障。团队成员的筛选需要根据与项目主题相关研究者已有科研积累作参考进行决策。而决策能否有效实施,依赖于相关数据源的广泛性。通常,依托的相关数据源种类越多,其决策的准确度越高。毫无疑问,知识图谱是表征多源异构数据的最佳方式。
2)有助于更加科学地衡量科研工作者的科研成果,为荣誉评定和基金评估提供有价值的参考。这是由于知识图谱能够涵盖学术大数据中所涉及的各类实体、属性和关系,以三元组的形式将事实统一表征,并能够为科研工作者绩效评判和基金审核提供更为合理的知识参考。
3)有助于潜在合作伙伴的发掘和学术热点的探究,为智慧学术的发展奠定坚实的数据基础。学术知识图谱是海量学术大数据的语义抽取,是多源异构的学术数据的融合表示,是对学术大数据以三元组表示事实的精准刻画。通过知识图谱,可以借助复杂网络的相关技术与方法对学术大数据进行更为高效的价值发掘,尤其是学术伙伴的预测与研究趋势的预判。
综上,本文以多源异构学术大数据为数据源,从数据的获取、数据分类、学术实体识别、学术实体间关联关系发现、学术知识图谱本体构建以及学术知识图谱表示与存储等核心问题入手,将多源异构数据融合的理念引入智慧学术领域中学术图谱的构建,提出学术大数据领域知识图谱构建的理论模型。然后,系统阐述多源异构数据情景中学术知识图谱的模型构建流程,以及图谱构建过程中关键技术问题(如实体识别、关系抽取、知识融合等)的解决方法,并建立学术知识图谱的本体模型,以解决单一数据源构建学术知识图谱时存在的信息表示不全、语义匮乏的问题。本研究旨在为学术知识图谱的理论研究和工程应用提供方法借鉴,从而为智慧学术决策提供可靠的数据保障。以进一步提高多源异构数据条件下,构建学术领域主题知识图谱的科学性与准确性。
1 知识图谱概述
知识图谱[7]是一种图数据,它具有大规模、多语义和高质量等特点,能够通过其独有的三元组数据表示结构完成现实世界中事实的抽取。下面从知识图谱的定义和架构对其进行简要描述。
1.1 知识图谱定义
知识图谱(Knowledge Graph,KG)从本质上讲,是一种用图结构表示数据的形式,由万维网发明人蒂姆·伯纳斯-李(Tim Berners-Lee)提出的“语义网”概念(Semantic Web)延伸扩展而来,用符号描述客观世界中的实体、概念、事件、属性和相互关系[8]。其发展历程如图1所示。用资源描述框架(Resource Description Framework,RDF)来描述,采用“主语—谓词—宾语”或“实体—关系—实体”的三元组结构来表示事实。例如,三元组(Andy,Write,AAAI18)和三元组(AAAI,Publish,AAAI18)表示学者撰写了一篇AAA18的文章,并且会议AAAI发表了文章AAAI18,其可视化表示如图2所示。直到2012年,Google公司正式推出Google知识图谱。知识图谱这一数据表示方式才正式进入公众的视野。目前,知识图谱已经成为学术界和工业界使用最为广泛的数据表示方式之一。
1.2 知识图谱架構
一般来讲,知识图谱架构由自身逻辑结构和构建知识图谱使用的体系结构组成。
1)自身逻辑结构
自身逻辑结构由数据层和模式层两部分构成。其中,数据层的知识包含一系列的事实,以事实为单位将知识存储在图数据库。模式层构建在数据层之上,是知识图谱的核心,是数据层中知识的泛化和抽象,是知识的知识(元知识)。通常用本体库来表示,其作用相当于数据层知识库的模具,用于进一步规范知识库。
2)构建知识图谱体系结构
知识图谱构建体系结构是指面向特定主题运用知识提取技术对各类数据源中的事实三元组进行抽取,并进行实体消歧、共指消解、知识融合、知识存储、动态更新的过程。逻辑结构如图3所示,虚线框代表知识图谱的构建过程和图谱更新迭代。一次迭代包含信息抽取、知识融合与知识处理3个阶段。通常,知识图谱的构建可分为自顶向下(从百度百科等信息类网站提取高质量知识模板存入知识库)和自底向上(借助信息抽取技术从公开数据集中提取事实模式,采用人工审核的方式将可信度高的事实纳入知识库)两种方式。知识图谱发展初期,由于知识抽取技术和信息加工方式的不成熟,知识图谱的构建多采用自顶向下的方式完成构建,比如Freebase知识图谱。随着深度学习技术的不断发展,特征自动提取技术日趋成熟,越来越多的领域知识图谱采用自底向上的方式构建,如微软的Satori。本文中,学术知识图谱的构建也是采用自底向上的方式严格按照图谱的体系结构进行构建。
2 学术知识图谱数据源
学术知识图谱旨在对学术领域的各类数据源中所涉及的事实进行统一的提取和表示。学术大数据[9]主要包括期刊论文、会议论文集、学位论文、专利、学术搜索引擎等数据源。另外,还包括在这些数据源中所隐藏的学者信息、机构信息、论文信息等潜在数据集。
2.1 学术数据分类
通常,不同的分类原则,数据分类有所不同,学术数据也不例外。对于学术数据的分类,可从以下3方面考虑。
1)从数据自身固有的原始形态看,可以将其分为结构化数据(如CNKI中文数据库中记录的论文信息等)、半结构化数据(如网页形态呈现的学者主页)和非结构化数据(如学者撰写的论文文本)。 2)从数据的表现形式看,可分为显性数据(如学者论文、专利等)和隐藏数据(通常指包含在显性数据中的数据,如论文中的作者信息、机构信息、参考文献)。
3)从数据的组合形态看,可分为简单数据(如作者信息)和复杂数据(如学者论文)。
因而,不难发现,同一种数据可能会呈现不同的分类状态。因而,在实际数据类别划分时,可根据业务需求统一采用一种分类方式,以免造成数据的冗余表示。
2.2 数据获取
学术数据本身的可靠性决定了其对应的事实的可信度,其直接影响对应知识图谱的质量。然而,已有的学术知识图谱都是业务需求方根据自己的需求有偏向性的构建的知识库。比如,微软公司开发的微软学术图谱(Microsoft Academic Graph,MAC),只包含作者、科研机构、论文、期刊(会议文集)及研究领域(主题会议),其功能主要体现在文献检索,其本身是学术知识图谱构建的很好的数据源;清华大学唐杰研究团队依托自主研发的AMiner学术服务平台构建的科学知识图谱(Science Knowledge Graph,SciKG),面向ACM computing Classification System,只提取了研究领域、专家和论文3个实体,收录了计算机领域大部分的文献;上海交通大学的王新兵研究团队借助自主研发的Acemap学术搜索数据库构建了AceKG学术知识图谱,聚焦计算机领域兼顾医学和通讯等领域的学术信息,含有22亿三元组数据集。
然而,现有学术知识图谱突出特点就是数据源的选择领域偏向性比较明显,又或者过于泛化不能很好地实现个性化的定制需求。因此,构建面向特定主题的领域垂直学术知识图谱是进行学术大数据纵深挖掘与知识发现及精准的智能推荐不可或缺的环节。另外,结合垂直领域特定主题学术知识图谱构建的实际需求,需重点考虑以下数据资源:
1)学者主页:这类资源囊括了特定主题领域的杰出科研工作者的关键信息,比如,其所撰写的论文,主持的科研项目等,这类资源的可信度高,是学术知识图谱作者实体的重要数据来源。
2)领域会议论文(代表性论文):这类文章通常奠定了所涉研究主题的基础框架,文章的文本内容尤其是参考文献所涵信息量大,而且影响力高,同样也是学术知识图谱应该关注的重要数据源。
3)领域文献数据库:领域文献数据库是对应领域所有研究成果的有机整合,也是高质量的学术大数据来源之一,文献摘要、文献关键字是文献内容的高度凝练,同样也是学术知识图谱的重要数据源。
4)学术社交网:学术社交网是学者们交流思想,相互学习的在线交际平台,积累了大量用户原生的学术内容,这类用户生成数据的专业性强,数据量大,也是学术知识图谱需要考虑的数据源。
总之,在设计领域学术知识图谱时,需尽可能的容纳广泛的数据来源,并且在抽取事实前,对数据源进行一定的冗余处理。这样,有助于减轻后续知识图谱构建过程中的实体消歧、关系消解的工作量。
3 学术知识图谱模型构建
文中依托知识图谱的技术架构构建学术知识图谱模型,并从现有的学术知识图谱AceKG和SciKG中提取可靠的概念模式,然后再根据领域主题的需要选择合适的学术数据库、领域学者主页、学术社交网用户自生成内容作为数据源进行实体填充。
3.1 学术知识图谱构建流程
根据图3知识图谱构建体系,绘制学术知识图谱构建流程如图4所示。具体操作如下:
1)确定特定主题学术知识图谱的数据源,其中,包括结构化文献数据源(比如Web of Science,ScienceDirect等);半结构化数据源(比如百度学者主页,CNKI学者库等);非结构化数据(比如,科研之友等)。
2)将半结构化、非结构化数据统一转为JSON格式进行清洗、分词和标注,并进行属性抽取、关系抽取和实体抽取,然后以文章实体为核心发掘其与其他实体的关系,进行实体消歧和关系消解构建本体库,并对其进行质量评价,形成初始的领域主题学术知识图谱。
3)将结构化数据直接转换为知识并与从现有的学术知识图谱中抽取的知识进行实体消歧和指代消解操作,然后将其融入已构建的领域主题知识图谱。
4)对已构建的领域知识图谱进行知识推理操作并挖掘潜在的关系,然后对新产生的知识进行评价,并纳入知识库。
5)对所有的知识使用RDF描述,并用Neo4j图数据库进行存储。
综上,知识图谱的构建过程是一个迭代修正的过程,特别是知识的关系指代消解和实体的去歧义性操作需要反复迭代。与此同时,生成的知识图谱的知识发现工作也不容忽视。
3.2 学术实体识别
实体抽取(Named Entity Recognition,NER)是指从文本数据集中识别人名、机构名等命名实体的过程[10-12]。实体抽取的质量取决于其所采用的抽取技术是否能够准确将属于同一概念或事物的实体的不同表达进行统一的规约表示。一定程度上,实体抽取技术的好壞决定了获取知识的价值。因而,实体识别是知识图谱构建的基础和关键。通常,实体抽取的方法可归纳为两类,主要包括:
1)手工实体抽取。利用专家编制的启发式规则或字典分析句子的句法特征,并进行实体的识别。比如,文献摘要是按照固定的格式来撰写的,可通过构造相应的学术字典进行摘要实体的提取。
2)自动实体抽取。机器学习是目前实体抽取比较流行的方法,其优势在图谱构建比较成熟的医学领域得到证明[19-20]。常用的实体抽取方法有条件随机域(Conditional Random Field,CRF)[13]、支持向量机(Support Vector Machine,SVM)[14]及循环神经网络(Recurrent Neural Networks,RNN)[15]等。例如,在研究文献主题相似度时,可采用隐马尔可夫模型提取学术数据中文章摘要中的研究对象实体。学者Collier N等[16]已将该方法成功用于MEDLINE数据库文献的摘要和正文中基因名称的提取。另外,学者Liu X等[17]利用K最近邻算法和条件随机域也成功从Twitter文本中抽取相关实体。同样,在对学者社交网络中实体的识别时,可采用类似的方法。与此同时,学者Lin B Y等[18]通过实验证明,利用字符和句法信息采用双向的LSTM-CRF模型就可高效完成带噪声的文本命名实体识别。 总之,随着人工智能技术的不断发展,各类机器学习方法将更好地满足非结构化文本中实体的识别,这一点在医学领域知识图谱构建的实体识别中已得到较好验证[19-20]。
3.3 学术实体关系抽取
在学术知识图谱的构建过程中,实体关系的抽取与实体抽取同等重要,它是用于表征实体间相互关联的操作。与实体抽取相似,实体关系的抽取也可划分为基于人工构造的语义规则识别实体关系和基于联合推理的实体关系抽取。其中,针对人工构造语义规则实体关系的识别,学者BANKO M等人[21]提出的开放域信息抽取框架(Open Information Extraction,OIE)是人工实体关系抽取方式的里程碑。随后,一些学者[22-26]在OIE的基础上,提出了更多的优化的二元关系或多元关系的抽取技术,如WOE[22](一种Wikipedia的OIE方法)等,该类OIE方法可用在领域文献数据库中文献实体与作者实体关系的识别、作者实体与机构名称关联关系等实体关系的抽取中。而对于非结构化数据中实体关系的抽取,可采用基于联合推理的实体关系的抽取方法。该类方法的典型代表是马尔科夫逻辑网(Markov Logic Network,MLN),是一种将马尔科夫网络和一阶谓词逻辑融合的关系抽取技术,同时也是一种将推理与OIE框架融合的高效实体关系提取模型[27]。同样,基于该模型也衍生出了许多改良的模型。如学者杨博等[28]提出的简易Markov逻辑(Tractable Markov Logic,TML),主要用于抽取实体或概念之间的层次化关系。因而,此类方法能够较好地满足非结构化数据中实体关系的提取,如文献数据库中文章自身与其所引用的参考文献的关系抽取。
3.4 学术实体链接与知识融合
学术实体链接是指将多源异构数据源中经过实体对齐操作的实体通过已抽取的关系关联起来,更好地表示不同数据源中实体的语义关系,进而实现多源异构数据语义的统一表征。然而,不同的期刊文献的作者姓名、参考文献格式也不尽相同,尤其是关键字的中英文等价关联,以及文章摘要内容中实体的上下文指代不明给实体链接造成巨大的困难。针对类似实体链接问题,一方面,可抽取实体自身特征并构建特征向量进行相似度计算,并评估实体间的相似度。如学者Pedersen T等[29]利用奇异值分解技术对实体自身的文本向量空间进行分解,得到给定维度的浅层语义特征,用以计算待链接实体与目标实体的关联度;另一方面,可根据实体的上下文背景信息进行关联度评估。如,学者Wang C等[26]依托词袋模型对待链接实体所在页面的上下文信息和目标实体所在语料的上下文信息构造特征向量进行相似度评估,作为实体链接的依据。
知识融合是知识再重构,是指在統一标准下将不同数据源的知识进行整合、消歧、加工、更新等操作的过程,进而优化知识图谱,并提升图谱质量。其主要包括两个关键步骤:实体对齐和实体填充。其中,实体对齐是指知识的动态融合,即识别出同一对象在不同数据源、不同语言、不同地域以及同一数据源中同一实体的不同表现形式,然后,用一个全局的唯一的实体统一表征。比如,论文中作者姓名的表示,不同的期刊有不同的格式要求,那么,如何将同一作者的不同格式的姓名进行正确识别并统一表示,便是实体对齐的主要任务;实体填充是指在特定的语境下为实体赋予合理的特征,使其能够正确的被人和机器理解和区分。比如,把文献当作一类实体,在文献数据库中检索时,便会出现对文献应的标题、作者、摘要、引用量等描述该实体的特征。这些特征便是对文献实体的合理表示。
3.5 学术知识图谱本体模型
本体是特定领域不同实体之间进行连通与交流的语义载体,概念上具有严格的“ISA”关系[30]。可采用手动方式构建也可采用自动的方式生成。在学术知识图谱构建中,本体模型的描述以论文为资源为核心,而且其自身也包含了许多属性,如论文的作者、论文的分类号、论文的主题等。它的主要载体有期刊论文集合会议论文集。其中,将期刊(如情报杂志)所收录的指定主题的文章集合称为期刊论文集;将会议(如Special Interest Group on Knowledge Discovery and Data Mining,ACM SIGKDD)所收录的特定领域的文章的集合称为会议论文集。另外,论文与论文之间也包含一系列的相关属性,如共同作者、共同领域等。并且,论文也有与之相关联的隶属于特定机构的作者。其相互之间的关联关系形成了学术知识图谱的本体模型,如图5所示。
3.6 学术知识图谱表示与存储
知识图谱的表示和存储是指将学术实体以及实体之间的关系按照一定的数据描述模型(如RDF和图数据库)进行存储的过程。其中,RDF数据模型的使用较为常见,国内的一些学者[31-32]已将其成功的用于医学领域知识图谱的存储中。同样,在构建学术知识图谱时,也可采用RDF描述模型进行图谱的存储。例如,构建以“文章”实体为中心的学术图谱时,每一个实体都有一个URL与之对应,通过URL就能跳转到对应的实体,实现实体之间的关联。比如,图2的RDF伪代码示意图如图6所示。另外,知识图谱本身也是一种图结构。因而,也可利用图数据库存储知识图谱中的实体和实体间的关系。以Neo4j图数据库为例,通过局部代码片段如表1,展示学术知识图谱中实体的可视化交互效果如图7所示。
4 结 语
学术知识图谱不仅能够为构建智慧学术的相关服务提供知识支撑,而且也能为学术领域多源异构数据的统一表示提供有效的解决措施。本文针对智慧学术服务的实际需求,提出了融合多种不同类型数据源的学术知识图谱的概念模型,该模型主要包括各类学术数据的获取、学术实体识别、学术实体链接与知识融合、学术知识图谱本体构建、学术知识图谱表示与存储等关键操作步骤。基于多源异构学术数据融合的理念,提出了学术知识图谱构建的基本框架,详细阐述了学术知识图谱实现的完整流程以及学术知识图谱的本体模型。通过多源异构数据融合的方式解决了单数据源构建学术知识图谱时存在的信息不全、语义缺失的问题。通过研究知识图谱构建中涉及的实体识别、关系抽取、实体链接等关键技术,挖掘适合学术领域数据源特征的相关技术,以提高学术数据源实体识别、关系抽取、实体链接的准确性。通过分析知识图谱构建流程和本体模型的实现方法,提出适用于学术领域的图谱构建流程和本体模型,以提升学术知识图谱构建的规范性和可靠性。从而,为多源异构数据融合的学术知识图谱的构建提供客观依据。 下一步的研究,我们将以“图书情报学领域”的学术信息为数据源,依托文中提出的知识图谱框架模型构建图书情报领域的学术知识图谱。从模式定义、数据源分析、词汇挖掘、实体发现、关系发现、知识融合、质量控制7个步骤完成图书情报学领域知识图谱实现,尤其注重图谱实现过程中的知识抽取、知识加工、知识更新的精准度研究。同时,我们将利用生成的知识图譜对图书情报领域的研究发展脉络进行精准的呈现,预测图书情报领域可能存在的研究热点,分析并挖掘图书情报领域文章的引用模式,预测图书情报领域潜在的学术合作关系等,以进一步丰富图书情报领域智慧学术的研究内涵及解决路径。
参考文献
[1]Khan S,Liu X,Shakil K A,et al.A Survey on Scholarly Data:From Big Data Perspective[J].Information Processing & Management,2017,53(4):923-944.
[2]Nelson B.Make the Web Work for You[J].Google,2012.
[3]Bizer C,Lehmann J,Kobilarov G,et al.DBpedia-A Crystallization Point for the Web of Data[J].Social Science Electronic Publishing,2009,7(3):154-165.
[4]Suchanek F M,Kasneci G,Weikum A G.Yago-A Large Ontology from Wikipedia and WordNet[J].Web Semantics Science Services & Agents on the World Wide Web,2008,6(3):203-217.
[5]Bollacker K,Cook R,Tufts P.Freebase:A Shared Database of Structured General Human Knowledge[C]//Aaai Conference on Artificial Intelligence.DBLP,2007.
[6]Niu X,Sun X,Wang H,et al.Zhishi.me-Weaving Chinese Linking Open Data[C]//The Semantic Web-ISWC 2011-10th International Semantic Web Conference,Bonn,Germany,October 23-27,2011,Proceedings,Part Ⅱ.Springer-Verlag,2011.
[7]Wang Q,Mao Z,Wang B,et al.Knowledge Graph Embedding:A Survey of Approaches and Applications[J].IEEE Transactions on Knowledge & Data Engineering,2017,29(12):2724-2743.
[8]Rezk E,Foufou S.A Survey of Semantic Web Concepts Applied in Web Services and Big Data[C]//IEEE/ACS International Conference on Computer Systems & Applications.IEEE,2015.
[9]Xia F,Wang W,Bekele T M,et al.Big Scholarly Data:A Survey[J].IEEE Transactions on Big Data,2017,3(1):18-35.
[10]Nadeau D,Sekine S.A Survey of Named Entity Recognition and Classification[J].Lingvisticae Investigationes,2007,30(1):3-26.
[11]Pletscher-Frankild S,Jensen L J.Design,Implementation,and Operation of a Rapid,Robust Named Entity Recognition Web Service[J].Journal of Cheminformatics,2019,11(1).
[12]Zhang H,Guo Y,Li T.Multifeature Named Entity Recognition in Information Security Based on Adversarial Learning[J].Security and Communication Networks,2019,2019(2):1-9.
[13]Zhang L,Li H,Shen P,et al.Improving Semantic Image Segmentation with a Probabilistic Superpixel-based Dense Conditional Random Field[J].IEEE Access,2018:1-1.
[14]de Lima Márcio Dias,Luiza C N,Rommel B.Improvements on Least Squares Twin Multi-Class Classification Support Vector Machine[J].Neurocomputing,2018. [15]Che Z,Purushotham S,Cho K,et al.Recurrent Neural Networks for Multivariate Time Series with Missing Values[J].Scientific Reports,2018,8(1):6085.
[16]Collier N,Nobata C,Tsujii J I.Extracting the Names of Genes and Gene Products with a Hidden Markov Model[C]//International Conference on Computational Linguistics,2000.
[17]Liu X,Zhang S,Wei F,et al.Recognizing Named Entities in Tweets[J].Acl,2011,(1):359-367.
[18]Lin B Y,Xu F,Luo Z,et al.Multi-channel BiLSTM-CRF Model for Emerging Named Entity Recognition in Social Media[C]//Proceedings of the 3rd Workshop on Noisy User-generated Text,2017.
[19]Bhattacherjee A,Limayem M,Cheung C M K.User Switching of Information Technology:A Theoretical Synthesis and Empirical Test[J].Information & Management,2012,49(7-8):327-333.
[20]Davis F D.Perceived Usefulness,Perceived Ease of Use,and User Acceptance of Information Technology[J].MIS Quarterly,1989,13(3):319-340.
[21]Banko M.Open Information Extraction for the Web[C]//University of Washington,2007.
[22]Wu F,Weld D S.Open Information Extraction Using Wikipedia[C]//ACL 2010,Proceedings of the 48th Annual Meeting of the Association for Computational Linguistics,July 11-16,2010,Uppsala,Sweden,2010.
[23]Shi-Rui S,Jun-Hua X.Identifying Relations for Open Information Extraction[C]//Conference on Empirical Methods in Natural Language Processing.Association for Computational Linguistics,2011.
[24]Schmitz M,Bart R,Soderl S,et al.Open Language Learning for Information Extraction[J].In Proceedings of EMNLP-CoNLL,2012,4590(5):523-534.
[25]Rafael G,Daniela B C.A Systematic Mapping Study on Open Information Extraction[J].Expert Systems with Applications,2018.
[26]Wang C,Ma X,Chen J,et al.Information Extraction and Knowledge Graph Construction from Geoscience Literature[J].Computers & Geosciences,2018,112:112-120.
[27]Domingos P,Lowd D.Markov Logic:An Interface Layer for Artificial Intelligence[J].Morgan & Claypool Publishers,2009,3(1):155.
[28]楊博,蔡东风,杨华.开放式信息抽取研究进展[J].中文信息学报,2014,28(4):1-11.
[29]Pedersen T,Purandare A,Kulkarni A.Name Discrimination By Clustering Similar Contexts[C]//International Conference on Intelligent Text Processing and Computational Linguistics.Springer,Berlin,Heidelberg,2005.
[30]Studer R.Knowledge Engineering:Principles and Methods[J].Data & Knowledge Engineering,2008,25(1-2):161-197.
[31]Beyan O D,Decker S.An RDF Based Semantic Approach to Model Temporal Relations in Health Records[C]//SWAT4LS,2016.
[32]Wang M,Zhang J,Liu J,et al.PDD Graph:Bridging Electronic Medical Records and Biomedical Knowledge Graphs via Entity Linking[J].2017.
(责任编辑:陈 媛)
转载注明来源:https://www.xzbu.com/4/view-15227740.htm