基于本体学习的自动化本体构建探讨
来源:用户上传
作者: 邱 欣
摘要:通过本体学习来构建本体库是有效解决人工构建本体繁杂、容易出错的有效途径,文章分析了自动化本体构建技术的3种方法,对实践具有借鉴意义。
关键词:本体学习;自动化;本体构建
一、本体的定义
本体一词来源于哲学,它指的是一种存在的系统解释。近年来,在计算机科学中关于本体的研究越来越多。在人工智能界,Ontology被定义为“给出构成相关领域词汇的基本术语和关系,以及利用这些术语和关系构成的规定这些词汇外延的规则的定义”。在信息系统、知识系统等领域,最著名并被引用得最为广泛的定义是由Gruber提出的,“本体是概念化的明确的规范说明”。W.N.Borst对该定义进行了引申“本体是共享的概念模型的形式化的规范说明”。Fensel对这个定义进行分析后认为Ontology的概念包括4个主要方面:
概念化(conceptualization):客观世界的现象的抽象模型。
明确(explicit):概念及它们之间联系都被精确定义。
形式化(formal):精确的数学描述。
共享(share):本体中反映的知识是其使用者共同认可的。
目前,关于本体的公认的定义是Gruber在1994年提出的:“本体是关于领域共享概念的一致的形式化说明”。这个定义包含3层含义:
共享概念包括用来对领域知识进行建模的概念框架、需要互操作的主体之间用于交互的与内容相关的协议以及用于表示特定领域的理论的共同约定等。
本体必须是一致的,即本体概念和关系不能出现逻辑上矛盾的陈述或推理上的逻辑矛盾。
本体的描述是形式化的,支持对领域概念和关系的推理。
二、基于本体学习的自动或半自动本体构建方法
由于人工的方法费时费力,使得本体的构建成为一项艰巨的任务。因此,如何利用知识获取技术来降低本体构建的开销是一个很有意义的研究方向。
国外在该方向的研究很活跃,把相关的技术称为本体学习技术(Ontology Learning),其目标是利用机器学习和统计等技术自动或半自动的从已有数据资源中获取渴望的本体。根据源数据结构化程度,可以将本体学习技术分为以下类别:
(一)基于结构化数据的本体学习
结构化数据主要是包括关系数据库或面向对象数据库中的数据。现在的应用大多采用关系数据库来组织和存储数据。但是关系模型有一个致命弱点,即它不能用一张表模型表示出复杂对象的语义。
基于结构化数据的本体学习的主要任务就是分析关系模型中蕴涵的语义信息,将其映像到本体中的相应部分。
从数据库中抽取本体,一般的做法是:利用数据库的逆向工程或映射技术将关系模型转换为一种中间模型,然后将该中间模型转换成本体。
例如,Johannesson提出了将关系模型转换成一个概念模型,该概念模型实际上是扩展的实体――关系模型的形式化表示,然后由用户对该概念模型进行修订生成最终的本体。
Rubin等人提出了一种使用关系数据库中的数据来丰富指定本体中的实例,并自动获取这些实例在相应属性上值的方法。Stojanovic等人使用映射技术将关系数据库模式映射为本体。通过考察数据库中的表、属性、主外键和包含依赖关系,给出了一组从关系模型到本体的映像规则,在根据这些规则的基础上能够直接获取候选本体。由于关系模式中蕴涵的语义十分有限,所以只适合构建轻量级的本体。Kashyap提出首先根据关系模式得到一个初步的本体,然后基于用户查询进一步丰富该本体中的概念和关系。由于用户查询具有很大的随机性,所以很难保证结果的质量。Astrova通过对数据库中的元组的分析,得到了概念间的继承关系。
(二)基于非结构化数据的本体学习
非结构化数据是指没有固定结构的数据,例如纯文本、Web网页、Word文件和PDF文件等。目前,基于非结构化数据的本体学习技术的研究主要集中在从纯文本中获取本体。由于缺乏一定的结构,要使机器能够自动地理解纯文本并从中抽取出需要的知识,必须利用自然语言处理(Natural Language Process,NLP)技术对其预处理,然后利用统计、机器学习等手段从中获取知识,重点是从文本抽取领域概念、实例,并发现概念之间的关系。
对于概念的获取,常用统计方法是计算概念在文本集中出现的频率,如果该频率大于指定的阀值,则将其作为领域本体中的概念。对于概念间关系的获取有基于模式,概念聚类,关联规则挖掘的方法。基于模式的方法需要判断文本中词的序列是否匹配某个模式,如果匹配,则可以识别出相应的关系。概念聚类的方法是利用概念之间的语义距离,对概念进行层次聚类,聚类的结果就是概念间的分类关系。关联规则挖掘的方法常用来获取概念间的非分类关系,其基本思想是,如果两个概念经常出现在同一文档(或段落,句子)中,则这两个概念之间必定存在关系。
目前,从纯文本中获取概念和概念间分类关系的研究比较多,但对概念间非分类关系的获取,大部分方法都停留在判断两个概念之间是否存在关系的层次。该方法需要人工预先制定模板。
(三)基于半结构化数据的本体学习
大量的XML格式和HTML格式的网页,以及它们遵循的文档类型定义(XML Schema或DTD)等具有隐含结构的数据都是半结构数据。本体学习的方法是利用一些映射规则从中获取本体。
另外,机器可读的词典也是一种特殊的半结构化数据,通常使用语言学分析,语义分析和模式匹配等方法来获取特定领域的概念及概念之间的关系。鉴于传统字典对于每个字词所定义的同义词、字根、原形等关系,该建构方法就是利用这种词汇与词汇之间的关系――上位词、下位词来确定概念的阶层关系。基于字典的建构方法是其他建构方法的基础,然而以此方法建构的本体通常为一般性的描述,并不是与特定领域相关的本体,因此必须结合其他方法以及由领域专家的参与才能形成有意义的本体架构,故此方法无法独立使用。该建构方法不仅受限于字典本身的范围大小,而形成不同范围的子领域,还存在无法适应环境变化的要求而造成遗漏信息。
Papatheodorou等人提出了一种从XML或RDF格式的文档中获取概念间分类关系的方法;Modica等开发的OntoBuilder工具能够用户浏览行为从XML和HTML标记的半结构化数据源中生成本体的功能。2003年,Volz等人提出了一种基于XML Schema和DTD的本体学习方法。该方法依赖于一组从源数据到本体的映射规则或模式匹配规则,如何获取这些规则就成为关键。
总之,采用本体学习技术,虽然可以简化人工构建本体的工作量。但在实际的知识获取过程中,有些知识虽然人能理解,但很难确切地表达出来,比如很多隐含的概念和概念间的关系,这些关系都是隐含在人的头脑中或者是文档中的。另外这些隐含的概念及概念间的关系要用形式化的方式确切地表示出来更加困难。
参考文献:
1、邓志鸿,唐世渭,张铭等.Ontology研究综述[J].北京大学学报(自然科学版),2002(5).
2、Thomas R,Gruber.Toward Principles for the Design of Ontologies Used for Knowledge Sharing[J].Revision,1993(23).
3、Fensel D,Harmelen F Vl.OIL:An Ontology Infrastructure for the Semantic Web.IEEE Intelligent Systems,2001(2).
4、杨秋芬,陈跃新.Ontology方法学综述[J].计算机与信息技术,2002(4).
(作者单位:武汉理工大学经济学院)
转载注明来源:https://www.xzbu.com/2/view-436214.htm