您好, 访客   登录/注册

基于文本结构解析的动态共词方法研究

来源:用户上传      作者:

  [摘要]实施共词分析的核心在于设定共现分析的窗口。在标记文献内容结构的前提下,动态共词方法具有三个主要特征:多阶段的文本切分、按位置加权的短语频次、动态调整的共现统计范围。共同结果能更贴切地反映文献集内的主题关联,为情报研究人员提供质量更高的分析结果。
  [关键词]共词分析 DT方法 文本结构解析 共现 动态共词法
  [分类号]G350
  
  1 引言
  
  随着世界各国在科技领域的高额投入,各类科技文献产出量越来越大。为了发掘文献中的有用知识,图情领域的专家们常常利用引文分析法来描绘学科内的核心研究领域。不过,由于无法直接揭示文献内容,且某些类型的文献(如科技报告)没有引文库,所以引文分析有时也会“力不从心”。而共词分析法直接处理文献内容,可以识别学科领域的主题结构、探索研究空白点和可能的创新点等,因而得到了广泛应用。经过30余年的发展,共词分析法在科研政策评估、专利分析、领域主题结构揭示以及科技文献知识发现等多个方面都有了成功应用。
  据冯璐博士研究,共词分析法已经发展了三代,最新一代是由原任职于美国海军研究总署(ONR)的Kostoff博士于1992年提出的数据库内容结构分析(Database Tomography),简称“DT方法”。该方法将计算语言学融入科研评估领域,可以分析自由文本、自动统计抽取多词短语、实施邻近共现分析,并请领域专家来判断以提高选词质量,可以获得更有意义的发现。近些年来,国内图情领域和医学领域的学者对共词方法的研究和应用越来越多,虽也有对DT方法的介绍,但并未涉及方法的细节。本文在深入研究DT方法的基础上,结合对文献内容结构的识别,提出以文本结构解析为前提,视语境动态调整共现范围的优化思路,以求提高共现词语的质量和分析结果的可解释性,也进一步拓展该方法的应用领域。
  
  2 DT方法概述
  
  1992年,Kostoff提出了“DT方法和系统”的专利申请,此后便将其用于多个科技领域的分析和评估。自2001年起,他逐渐将DT方法与引文分析法结合,并统称为“文本数据挖掘”;2008年以后,DT作为其“文献相关的知识发现”体系中的自由短语分析模块,已不再进行专门论述。
  
  2.1 DT方法的核心思想
  DT方法主要有三个步骤:先从科技文本中识别出核心主题短语,再确定核心主题之间及其与相关子主题间的定量和定性关系,然后追踪其相互间的关联关系随时间的演变。
  该方法的核心思想在于处理“共现分析窗口”的策略,主要包含三个方面的内容:分析窗口的位置,即分析时选择什么以及怎样选择核心短语用作共词分析起点;窗口大小指分析时在核心短语周围设定多大的分析界限抽取共现短语;窗口内容,即分析时应该抽取哪些技术短语作为有效短语。
  对于窗口内容(即共现短语)的统计,DT方法采用两种方式:一种是核心短语共现(NonZoom),即仅统计所选出的核心短语之间的共现数量关系,这也是国内多数学者采用的方式;另一种是自由短语共现(zoom),即统计范围内所有找到的短语。相对来说,后者对分析更为有效,但必须另外采取措施过滤共现后的短语。
  
  2.2 DT方法的关键环节
  2.2.1 多词短语统计抽取DT方法首先过滤文本中的停用词,但并不归并单词形式。因为Kostoff认为:采用Porter算法之类的词形合并方法会导致重要内容信息的丢失。随后,自动抽词算法会遍历文本集,顺次抽取位置相邻的一、二、三个单词作为单词短语、两词短语和三词短语,统计其各自的出现频次。进一步,分别为三种短语设定阈值,过滤掉低频短语;再请领域专家从保留下的高频短语中选出感兴趣的短语。两轮筛选后,从三种词语中根据实际情况按比例选出频次较高的作为“核心主题短语”,用作深入分析的起点。不过,从Kostoff的多个研究报告中看,多数核心短语是两词短语,少数是单词短语,三词短语很少。
  2.2.2 邻近共词分析
  以核心主题短语为起点,DT方法限定共现统计范围为核心短语前后各M/2个单词(M表示距核心短语的单词数量)。容易理解,当M较小时,所得共现短语在句法上会与核心短语更相关,但可能难以发现主题间的潜在关联;若M较大,则所得共现短语数量多,可能包含的潜在主题关联也更多,但同时干扰因素也会更多。
  Kostoff试验发现,当M值在20~30之间时,强关联短语会得以较好地体现;在40~50之间时,较低频次的“两词短语”能获得有意义的统计频次。可以预计,许多不相关短语会被频次阈值过滤掉。综合考虑之下,他将DT方法的共现分析窗口(M)设为50。
  2.2.3 共现短语筛选及关联描述通过邻近共词分析获得共现短语后,DT方法使用等价指数(Eij)和包容指数(Iij)来筛选出与核心短语关联紧密的共现短语。Eij值越大,表明两个短语的关联可能越密切;计算Iij值则有助于保留那些绝对频次低但与核心短语共现次数多的词语。
  在得到共词矩阵后,DT方法借鉴Turnel’提出的“密度”和“中心度”两项指标来度量类簇的特性。密度度量的是类的聚合度,其值为类内所有成员的Eij均值;所有与其他类有链接的短语的重叠指数(某词语在其各个所属类的Eij值总和)之和则计为中心度。同时,若某短语的Eij值小于类内最大Eij值的2/3,或其Iij值小于类内最大Iij值的1/2,则该成员将被排除。限于篇幅,其他描述参数不在此展开。
  
  3 基于文本结构解析的动态共词法
  
  设定共词分析窗口的大小,无论采用定距(如DT方法)还是定结构(同句、同段等)的方式,均会带有明显的不足:有些相关概念不在同一句内,段落长短可能会有较大差别,而定距内共现的意义并不十分明确。为此,本文提出了结合上下文语境而动态调整共现范围的共词分析法,简称“动态共词法”。
  3.1 动态共词法的共现规则
  动态共词法的最主要特点是共现范围依据语境动态调整,其前提是实现对文本物理结构的解析和标记。解析和标记的算法及过程较为繁琐,将另行专门撰文讨论。解析项目包括题名、摘要、关键词、各级标题以及正文段落和句子等逐级细小的结构单元。在解析完文本各级结构后。再综合使用停用词表、分隔词表、数量短语识别和多词短语统计抽取等算法(与文献[2]的统计抽词算法类似)对文本进行切分,由此得到单词或短语级的文献精细结构。
  由科技论文的特点可知:句子是作者表达完整意思的最小语言单元,一级、二级标题常常作为结构划分的标记,段首和段尾句常常相互呼应且表达重要内容。据此,本文借鉴DT方法的邻近共现思想提出了动态共词法的共现规则:①文献一、二级标题作为共词分析边界:共现统计到一、二级标题即中止,若一、二级标题邻近出现,则都计人统计;②设定前、后向共现统计基

本范围:若前向统计提前抵达边界,则剩余统计量补充给后向;③以句子为基本共现单位,若已达最大统计量,仍在最后一词所在句内继续共现统计;④位于段首/尾句内的核心短语,若其共现统计范围未能覆盖本段,则将与其对应的段尾/首句也纳入统计;⑤位于文献题名、摘要、关键词、各级标题、段首/尾句以及普通句子中的短语,分别赋予不同权重。
  3.2 动态共词法的优点 相对于DT方法来说,动态共词法主要在三方面进行了优化:①对文本结构进行解析并支撑共现分析,能比直接分析自由文本的DT方法更准确和灵活地控制共现范围;②应用分隔词表、数量短语识别等进行短语切分,比不切分时减少了无效短语数量;③按短语所在位置分配权值,更能反映短语的重要性。
  动态共词法五项共现规则的优势在于:①以句子为单位的邻近共词、共现短语更有意义;②按短语所在位置设定权重,考虑了论文的篇章语义结构;③前向共现统计补后向的策略,既维持统计量稳定又限定了同段内共现。这样一来,所得共现短语将与核心短语的意义更加相关,而且可解释性更强。基于上述规则,很容易设定前向和后向共现统计的算法。
  
  4 方法对比试验
  
  为了对比检验动态共词法与DT方法的实际应用效果,从SPIE数据库中下载了2004年~2010年初发表的71篇“激光二极管”(Diode Laser)领域的科技文献全文作为分析对象,先将待分析文献从PDF格式转换为DOC格式,然后进行格式规范和文本结构解析,随后设计了4次试验来从不同角度考察方法优化的效果,如表1所示:
  试验A是DT方法的完整应用,试验B采用了动态共词范围,试验c应用了位置加权,试验D是动态共词法的完整应用(共现范围M为50,赋值权重简单设定为:题名、关键词为3;摘要、各级标题为2;段首/尾为1.5;正文为1)。
  容易理解,对比试验A和B可以得到动态共词范围的应用效果。结果表明:由于动态共词法以句子为共现单位,统计范围较DT方法有所扩大,故统计到的共现短语频次更高一些。对比试验B和c会得出短语位置加权的筛选效果。结果表明:加权能有效地突出位于重要位置的短语。另外,对比试验C和D发现,将分隔词表用于切分文本,杜绝了许多常见的干扰词;而识别数量短语的做法令科技文献中普遍存在的数字与量纲的组合也具有了分析意义;同时,在分隔词表和数量短语识别的共同作用下,动态共词法抽取的两词短语比DT方法少12%,三词短语少了16.7%。
  限于篇幅,本文仅以核心短语“激光二极管阵列”(Diode LaserArray)为例,展示试验A和试验D的对比结果,如表2所示:
  相对DT方法的结果来说,在动态共词法得到的共现短语中,光栅(grating)等短语排在前列;利用等价指数排列后,与核心短语关联紧密的共现短语显示位置则更加靠前。值得注意的是,在未经等价指数筛选前,短语“电光转换效率”(Wall-Plug Efficiency)就已经出现在了动态共词法得出的前20个相关短语内。事实上,提高电光转换效率正是激光二极管阵列研发的一个重要方面。这表明:动态共词法能够有效地识别出主题概念间的实际关联,能够为科技情报人员提供质量更高的分析结果。
  
  5 结论及展望
  
  近20年来,Kostoff围绕科研评估这一核心目标,利用DT方法先后分析了数十个科学技术领域的文献集,发表了数十篇学术论文和科研评估报告,足见DT方法巨大的应用价值所在。遗憾的是,DT方法始终没有得到广泛推广。本文在深入研究DT方法的基础上,借鉴其位置邻近的共现分析思想,从多个角度探索了优化方法,包括解析文献结构、利用多种手段切分文本、按位置赋权值等,各项优化措施的效果集中体现在了共词分析范围的动态调整上。对比试验的结果表明,优化后的方法在多词短语切分、共现短语筛选等方面都较之DT方法有所提高。
  动态共词法的应用前提是准确标记文本的物理结构,虽然具体操作起来有些复杂,但文本结构识别已不存在技术障碍:只需以自上而下的顺序,先识别出文档的各级标题,再在处理各种文档段落的异常情况之后标记段落和句子即可。共现分析过程中选词质量的提高,必将带来分析结果的改进以及可解释性的增强。不过,由于方法尚处于小规模文本数据试验阶段,其有效性仍有待进一步检验;但相信随试验进程的推进,动态共词法很快就有望投入实际应用。


转载注明来源:https://www.xzbu.com/1/view-152643.htm