您好, 访客   登录/注册

科技术语自动提取技术

来源:用户上传      作者:常宝宝

  摘 要:文章简要介绍了自动术语提取任务的定义、主要方法和评价指标。针对传统的自动术语提取方法,以互信息、t值、tf-idf、C/NC-value为例介绍了单元度和术语度的概念;针对自动术语标注方法,主要介绍了基于序列标注的建模思想。从提取效果来看,现有自动术语提取技术距离期望仍有差距,文章也尝试给出了一些值得探索的方向。
  关键词:自动术语提取;自动术语标注;单元度;术语度;机器学习
  中图分类号:TP391;H083 文献标识码:A DOI:10.12339/j.issn.1673-8578.2022.01.001
  Techniques of Automatic Term Extraction:Current Sate and Reflections//CHANG Baobao
  Abstract: This paper overviews the definition, major approaches and the evaluation metrics of the ATE task. For the traditional approaches, we mainly elaborate the measurement of the Unithood and Termhood, using pointwise mutual information, t-value, ti-idf weighting and C/NC-value as examples. For Automatic Term Labelling, we mainly present the sequence labelling modelling. We think the performance of Automatic Term Extraction/Labelling is still not satisfactory from a point of view of real application, and try to offer a few directions of further improvements.
  Keywords: automatic term extraction; automatic term labelling; unithood; termhood; machine learning
  引言
  术语(term)是“各门学科的专门用语,在专业范围内表示单一的专门概念”[1]。术语处在专业知识体系构建的基石位置,术语的获取、整理和规范不仅对专业知识体系的构建和发展有重要作用,也会对专业领域之外的其他许多行业产生影响。
  传统上,术语的收集整理主要依靠领域专家进行,这种工作方式的优点是质量高,缺点也很明显,成本高,速度慢,难以适应当今科技高速发展中术语大量急速涌现的现状。20世纪90年代前后,伴随着语料库建设的进步,利用信息技术和自然语言处理技术进行术语快速获取――自动术语提取(automatic term extraction,ATE)的想法就应运而生并成为一个重要的研究议题[2]。
  术语自动提取有着不言而喻的重要意义。如果拥有可靠的术语自动提取技术,科技术语整理、审定与专业词典编纂的工作效率和质量就会得到极大提高。术语作为一种特殊词汇,在语言实践中,常有与普通语言词汇不同的处理策略和规律,可靠的术语自动提取技术也会对许多语言文字工作带来积极影响,例如,在翻译、教育等很多行业,及时、规范、全面的术语资源都是非常宝贵的资源。术语提取和识别还是专业自然语言理解的基础技术,对于自然语言处理而言,术语通常都是未登录词(out of vocabulary,OOV),术语自动提取技术的进步有助于改善自然语言处理系统未登录词的处理能力,有助于推动专业文本机器理解技术的发展。
  经过研究人员近三十年的努力,自动术语提取技术取得了许多进展,也出现了一些术语提取工具。例如,在许多机器辅助翻译平台中都有相应的自动术语管理和提取工具,譬如在著名的机器辅助翻译平台SDL-Trados中就配备了术语提取组件SDL MultiTerm Extract,可用于辅助翻译工作者定位专业文档及翻译记忆库中潜在的单语或者双语术语,从而辅助翻译工作者改进术语翻译质量。不过,自动术语提取也是一个有挑战性的研究任务,总的看来,自动术语提取技术的性能还不能令人满意,还需要研究人员的持续攻关和努力。
  1 自动术语提取的任务定义
  自动术语提取研究从特定专业文本中提取术语的自动技术和方法。自动术语提取系统的输入是特定领域的专业文本,任务是通过对这些文本的自动分析和处理,提取其中的术语条目并以列表的形式输出。例如,从给定计算语言学文本中,提取其中的计算语言学术语。尽管自动术语提取系统在应用时面向特定的目标领域,但现有自动提取技术基本上是通用的,并不因为所处理的领域不同采用不同的方法。为了指称的统一,在本文中,我们把自动术语提取所处理的特定领域文本统称为目标领域文本,即自动术语提取系统的输入是目标领域文本,输出是目标领域文本中所使用的目标领域术语条目。
  文献中,除了术语自动提取这个名称外,还有一些其他说法也指向术语提取或相关研究,例如,自动术语识别(automatic term recognition或automatic term identification)、自动术语检测(automatic term detection)、自动术语挖掘(automatic term mining)等。许多文献不加区别地使用这些术语,含义都是从目标领域文本中提取相应的术语条目。
  不过,这里也想特别指出,针对目标领域文本中的术语,从语型(type)和语例(token)两个处理角度,实际上可以构思出两种既相互联系又相互区别的处理任务。在语型处理层面,旨在提取目标领域文本中的术语条目,而不关心精确标记术语条目在目标领域文本中的每个使用实例。与之不同,我们还可以界定一N语例层面的自动术语处理任务,即在目标领域文本中精确标记所有的术语实例。传统上所说的自动术语提取主要指语型层面的处理,我们在本文中称之为自动术语提取。为了与之区别,在本文中,我们把上述语例层面的术语处理任务统一称作自动术语标注(automatic term labelling,ATL)任务。二者区别如下:
转载注明来源:https://www.xzbu.com/8/view-15421861.htm

相关文章