基于文献标题词汇共现获取词间关系研究
来源:用户上传
作者:
[摘要]通过词汇在文献里共现特征分析,可以为人工确定词间关系起到指引和减轻工作量的作用。文章具体使用水利水电领域专业词汇,通过在重庆维普核心科技期刊数据库中的共现频次和共现率的统计分析,以“水电站”与其他高频词组合检索,统计词频、共现频次以及共现率,结果认为,词频、共现频次、共现率等信息对人工确定词间关系具有指导意义,并且讨论了可能存在的问题及解决办法。
[关键词]词间关系 词频 共现率
[分类号] G254.2
随着信息技术、网络技术的飞速发展,用户通过网络获取信息逐步成为主要的信息获取方法。但在目前的网络搜索引擎,例如Coogle和百度,为普通用户提供强大搜索功能的同时,越来越多的用户却受到了信息查准方面问题的困扰,即目标信息淹没在海量的搜索结果中,用户无法浏览所有的查询结果。为了解决此类问题,计算机科学、图书情报学领域的科研人员开始探索智能检索、语义检索等新的检索方式。这些检索方式的基础就是必须事先具备一个相关领域的概念知识体系,基于这样的概念知识体系进行标引和检索,就可以解决信息查准问题。叙词表就是比较完善的概念知识体系,在数据库检索领域曾经或者正在发挥着强大的作用,但叙词表词间关系相对简单,无法准确表达语义方面关系;本体论(ontology)是近年来兴起的新的概念知识体系,可以表达更为精确的概念关系,而且机器可以理解这些关系。无论是叙词表,还是本体论,都必须事先进行人工构建,这样的工作费时费力,影响了应用的开展和推广。本文就是在这样的背景下,使用具有完整数据信息的巨型文献数据库资源,通过关键词词频统计、词汇组合在文献标题中共现统计,协助领域专家建立基于数据库文献语料、基于用户的概念间关系,促进叙词表或本体论的构建和应用。我们具体使用重庆维普中文核心科技期刊数据库文献进行统计和试验。
1、叙词表及本体中常见词间关系
1.1叙词表主要词间关系
叙词表诞生于20世纪50年代。在我国,叙词表的主要发展始于70年代的“748”工程,1980年《汉语主题词表》的出版是叙词表发展的标志产物,从此我国进入叙词表的大规模编制和应用时代。到90年代以后,部分叙词表在使用中得到了不断维护和更新,但包括《汉语主题词表》在内,许多叙词表处于发展停滞状态。从本世纪起,随着语义网络的兴起,许多研究人员又开始关注叙词表的功能,叙词表重新获得新的发展机遇。
标引和检索是叙词表的主要功能,是通过代表概念的、来源于自然语言的具体词汇实现的。这些词汇也可以称为术语或者概念。概念间有一定的关系,统称为词间关系。叙词表中主要有三种词间关系,一种为等同关系,也称用代关系,是指含义相同或相近(个别情况下甚至是相反)的叙词与非叙词之间的关系;一种为等级关系,也称上下位关系,或属分关系,即上位概念包含下位概念、下位概念属于上位概念的关系;还有一种为相关关系,即一个概念与另一个概念相关,概念相关关系有多种,比如因果关系、材料与功能关系等多种类型,但在叙词表中统称为相关关系,不进行细分。
1.2本体论常见词间关系
20世纪80年代,本体论主要应用于计算机科学人工智能研究领域,到90年代末本世纪初,由于因特网的普及和语义网研究的兴起,更多的计算机科学领域研究人员、图书情报研究人员参加到本体论的研究和应用当中,目前本体论的研究有本体构建、本体映射、基于本体的信息检索、从叙词表向本体转化等多个方向。由于本体人工构建需要大量的人力物力,所以完善的本体产品发展缓慢,成了本体应用推广的瓶颈。
在本体构建中,需要考虑概念、属性、实例等自身之间以及相互之间的关系,统称为词间关系,其中概念与概念之间的关系是本体中最重要的关系。目前已经有一些研究者正在研究本体中概念之间的关系。一般研究认为,本体概念间的关系,要比叙词表概念间的关系更加详细或复杂,例如叙词表只有相关关系,但本体可以进行设定和细分,明确部分与整体、成分与功能等多种关系;叙词表中设定了叙词与非叙词之间的等同关系,而本体中则区分出概念与实例的关系,例如“城市”可以理解为一个概念,而“北京市”则是一个实例。
2、数据获取试验与方法
2.1领域词汇获取方式
在重庆维普中文科技期刊数据库中,选取水利水电核心期刊,提取这些期刊1989-2008年文献所使用的关键词,将这些关键词统一建库,通过查重和词频统计,以及水利水电领域专家参与,在一定词频范围内人工筛选一定数量的专业领域概念词汇,具体数量视具体目的而定,选词方式我们将另文研究报道。作为试验,本文只选取词频比较高、有可能成为叙词表或本体论概念的关键词,一个基本的指标为关键词词频达到100次以上,具体选用的词有291个,这些词包括:研究、处理、水、水电站、水库、混凝土、废水处理、水处理、水土保持、水资源、坝、地下水、洪水、拱坝、土壤、黄河等。
2.2标题词汇词频及共现率统计
将291个词汇中的每个词都分别与其他的词俩俩组合,在维普核心科技期刊数据库的标题中,通过程序统计共现的频次,具体方法为使用291个词分别作横坐标和纵坐标,组成一个矩阵,去掉每个词自身组合,实际俩俩组合数为291*290=84 390个,去掉俩俩组合的前后顺序,例如词汇A和词汇B的组合等同于词汇B和词汇A的组合,则实际组合数为84 390/2=42195。一些常用词,例如“研究”、“设计”等在标题中的词频非常高,所以与其他词组合在标题中的共现现象也高,为了便于比较,我们参考孔晨妍等的研究论文,利用公式R=(a and b)/(a or b),计算共现率的大小,其中“a and b”是词汇A和词汇B同现的文献标题数;“a or b”是词汇A和词汇B单独出现或同现的文献标题数。可以看出,共现率应该介于0到1之间。鉴于统计数据庞大,而且共现频次为零也占很大比率,本文只以其中任意一个词与其他词组合为例进行分析与说明,在核心期刊文献题名中搜索含有“水电站”的词频为4 299次,统计的是共现词频达到24以上的共现率,并进行相应关系确定和分析,具体统计计算结果见表1:
3、共现案例分析
通过高频关键词在标题中词频统计、共现次数统计以及共现率统计分析,我们发现以下一些特征,这些特征为我们确定词间关系提供了文献依据,具有指导作用。
3.1 通过控制共现率可以帮助人工确定词间关系
通过表1共现率高低及相应的组合概念可以看出,共现率越高,则词间关系越专一,共现率越低,则词间关系越泛化,甚至没有关系。例如“水电站”与“坝”的共现率最高,值为0.057 8,在叙词表中可以直接确定“水电站”与:坝”相关;在本体论中则可以通过属性
进一步确定这两个概念的关系,例如,一个“水电站”同时是一种“坝”,但一个“坝”不一定是一个“水电站”等。共现率最低的组合是“水电站”与“研究”,这种关系基本没用,因为在科学研究中可以“研究”一切事物或现象,所有的科技论文也都可以看作是一种“研究”,所以对概念间关系的确定没有帮助。根据以上分析的特点,基于关系组合的数量以及可以提供的人工干预,确定一个共现率范围,比如只选取大于等于0.010 0的所有组合,再进行人工确定词间关系,既可以大大减少需要人工判断的组合,又可以帮助领域专家快速确定词间关系的范围和内涵。
3.2通过单边高频组合词可以确定一些公共概念
对于共现率比较低、但其中一个词的词频又特别高的那些组合,虽然在专业叙词表中对关系确定没有多大作用,但这类组合可以帮助科学工作者发现大量的公共概念,可以将这些概念集中编排,确定相互关系,编制通用概念的叙词表或本体论。在本案例中,“研究”、“分析”、“应用”、“技术”、“设计”等5个概念,在标题中的词频达十万以上,共现词频也比较高,可是共现率却非常低,最高的是“设计”与“水电站”的组合,也只有0.004 1,所有具有这些特点的概念都可以作为专业叙词表的外围词,或者作为公共用词,以副表的方式编排,在所有叙词表中均可以通用。
3.3通过共现词汇在标题中的位置特征析出相应词间关系
对于共现率和共现频次都比较高的概念组合,可以浏览相应的共现词汇在标题中的位置,通过词汇位置的共同特征,可以析出一些特定的词间关系。在本案例中,例如“水电站”与“开挖”组合,共同在标题中出现了113次,共现率也比较高,数值是0.020 8,浏览这些标题,这两个词的位置共同特点是“水电站”一般在前面,“开挖”在后面,中间有一个名词类的概念词汇,表示对“水电站”相关的某个部位进行“开挖”,具体词汇有“导流洞”、“引水隧洞”、“厂房边坡”、“竖井”、“地下厂房”、“防陶墙墙体”等等。通过这种方法,可以发现部分与整体的关系,即“水电站”与“开挖”之间的名词概念,一般都是概念“水电站”的组成部分,即部分与整体的关系。根据人工干预的力度,针对那些高共现频次、高共现率的组合,探究它们在标题中共现的共性位置特点,往往可以获得一些特定的词间关系,可以丰富叙词表的等级关系或相关关系,更有利于发现本体概念间的更加复杂的词间关系。
4、讨论
4.1关键词内切词问题
在本案例中,理论上在关键词内存在切词问题,从而对词频共现统计造成一定的误差。例如,人为想象标题中存在“水电”与前面的字是一个概念,“站”与后面的字是一个概念,从而出现了误差统计结果。事实上,目前数据库提供的精确检索已经避免了将关键词自身拆分,例如将“水电站”拆分为“水电”和“站”到标题中统计,保证了在标题中“水电站”三个字肯定是连在一起的。而且在统计的目标标题中,经过浏览查证,确实没有发现“水电站”是由于切词问题错误得到的。所以,专业概念在科技文献标题中的切词问题并不严重,统计结果仍然具有参考意义。凭经验思考,对于文学或社科领域的普通概念估计在标题中存在的切词问题严重一些,但也需要具体考证。
4.2包含关系关键词切词问题
统计标题中词汇共现,需要重点排除一些包含关系的单字词概念共现词频噪音现象。例如“水电站”与“水”的组合,我们统计时“水电站”与“水”的组合非常高,共4 299次,共现率达到最大的1.0。其实按照我们的规则,完全可以解释这种现象,所有含有“水电站”词汇的标题,当然含有单字“水”,所以在数值计算中达到了完全共现的特征,造成了含有单字词组合的共现频次统计意义不大。对于这种情况,我们的观点是最后通过人工干预确定这些组合具体词间关系;还有一个办法是在4 299条目标记录中去除含有“水电站”的词汇,将剩下的所有标题再检索有多少记录含有单字“水”,这样的推理理论上可行,但增加了检索程序的复杂性,仍然需要进行考证,而且即使有不与“电站”组合的单字“水”,也有可能是“水库”、“水轮机”、“洪水”等与“水”相关的其他概念。所以对于具有包含关系的单字词共现组合,需要人工干预来判定具体的词间关系。
4.3关键词重叠的切词问题
对于通过共现率、共现词频统计推荐的具有潜在词间关系的组合,需要具体人工浏览和分析相应的标题信息,才能具体确定真实的词间关系,排除可能存在的切词问题。例如“水电站”与“洪水”的组合,共现频次与共现率都比较高,但浏览目标标题时也发现许多标题中含有“景洪水电站”这个词汇,在共现检索时就会出现标题中既含有“水电站”又含有“洪水”的共现现象,这对“水电站”与“洪水”的真实词间关系的确定是噪音,需要通过最后的人工干预才能确切判断真实的词间关系。对于这样的问题,在所有文献的关键词字段中直接统计文献关键词共现,理论上可以避免这样的切词问题,我们将在以后的论文中进行研究。
5、结语
将科技论文中的高频次关键词通过人工干预确定为学科领域的基本概念,将这些概念俩俩组合,通过程序统计在所有核心科技期刊标题中的共现频次和共现率,通过词频、共现频次、共现率等信息,可以为领域专家和信息组织科技工作者提供基于巨型文献数据库的概念间关系依据,既可以为确定语义关系提供线索和范围,同时也大大减轻了人工干预的工作量,避免了完全依靠领域专家个人隐性知识确定词间关系的缺陷,为加快专业领域叙词表及本体论编制奠定了坚实的基础。
转载注明来源:https://www.xzbu.com/1/view-154043.htm