一种IT领域术语识别系统的设计与实现
来源:用户上传
作者:木合亚提·尼亚孜别克 古力沙吾利·塔里甫
摘 要:针对信息领域的术语识别平台的设计和开发是对该领域术语资源进行更有效利用的重要手段之一。文章阐述了信息领域的哈萨克语术语识别平台的设计,该平台采用条件随机场和人工修改的方法,基于信息领域术语本身的特点分析了该领域术语的构成规则及相关术语识别方法。
关键词:信息领域;术语识别;系统设计
Abstract:The design and development of the terminology recognition platform in information technology field is one of the important means for more effective use of term resources. This paper describes the design of Kazakh language terminology recognition platform in the information technology field. Based on the characteristics of the information technology field terminology, the platform analyzes the rules of terminology formation and related terminology identification methods using a conditional random field (CRF) and manual modification method.
Keywords:information technology field; terminology recognition; system design
引 言
随着中文各语言信息处理应用领域的不断扩展,对于不同语言不同领域术语的检索需求也越显迫切。其中以计算机作为工具的哈萨克语信息技术领域术语识别平台的构建对哈萨克语自然语言信息处理、哈萨克语语言学研究、信息安全检索、机器翻译、语料库建设、IT领域术语库等民族语言信息化建设的作用日显重要[1]。术语是代表特定学科领域基本概念的语言单元,是该领域核心知识的体现,方便人们快速获取专业知识,如何自动获取术语自然也成为相关专业人员的研究热点。术语自动抽取是信息处理领域中一项重要的研究任务,在词典编纂、本体构建、机器翻译等领域都有重要应用。术语抽取技术是大规模本体工程自动或半自动构建、扩充的关键技术之一。近年来,人们已经认识到了术语抽取方法的重要性并进行了大量研究,而目前广泛采用的术语提取思想主要分为基于统计学、基于机器学习、基于语言学和多种思想结合的混合方法。本文阐述的系统设计为结合语言学规则,并采用条件随机场(conditional random fields,CRF)和人工修改的方法。望通过信息领域哈萨克语术语识别系统的设计实现,对民族文化的挖掘、传承、创新及民族科技教育工作和社会安全、稳定与繁荣发展尽一份力。
一 系统设计
本系统是基于各类哈萨克文网站及中小学信息技术教材中获取的各种文本的电子版语料,通过目前多语种信息技术实验室使用的各种语言语料工具进行原始语料的词法分析后获得的已经完成单词提取、词缀提取和词性标注的熟语料。在输入基于规则的哈萨克语信息技术领域术语抽取系统中的熟语料后,通过领域术语词典和术语聚类规则库进一步过滤得到最终的术语生成候选术语和候选术语标注语料[2-4]。再通过修改将候选术语标注语料生成为训练语料。系统具体流程如图1所示。
二 系统功能模块
从系统功能角度出发,以随机场的方法为处理哈萨克信息技术术语抽取问题的提取条件,将哈萨克语信息技术领域术语识别看作一个序列词性标注问题,将哈萨克语信息技术领域术语分布的特征量化作为系统的训练的特征,利用条件随机场(CRF)的工具包训练出哈萨克语信息技术领域术语特征模板。整个系统可分为术语标注语料库和CRF模式识别两个子系统,术语标注语料库子系统还包括预处理部分、生成训练语料部分、术语识别部分、术语抽取部分、定界规则部分等,另一个CRF模式子系统还包括模型参数部分、特征选择部分、特征模板选取部分等。系统功能模块如图2所示。
三 系统主界面
整个系统由术语抽取、生成训练语料、术语识别、退出系统等四个部分组成。术语抽取部分可以进行术语的打开、抽取、保存、退出等操作步骤,生成训练语料、术语识别部分进入后也有各自不同的操作界面。系统主界面如图3所示。
1. 术语抽取
因存在单词术语、多词术语等区别,不同的语言中术语组成形式也不同,例如名词+名词、形容词+名词、名词+动词等,故术语抽取将根据语言特点及术语的组成结构来界定抽取规则。该模塊主要为相关的资料中的术语抽取,进入页面后分左右两个界面,左侧可以进行文件打开、抽取、保存、退出、术语统计等操作,右侧显示已抽取的术语及抽取个数等信息。系统的术语抽取架构图详细操作界面如图4所示。
2.生成训练语料
IT术语语料库中存放的语言材料均在语言的实际使用中真实出现过,是以电子计算机为载体承载语言知识的基础资源,真实语料需经过加工才能成为有用资源。以系统中的熟语料作为输入,依语言学规则自给定文档中抽取术语,再经过进一步修改过程后生成训练语料。术语本身可以是词也可以是词组,哈萨克语IT领域术语结构多种多样,有些术语由一个词或两个词连接组成,也有些术语由不同的附加成分或者嵌套组成,构成形式有名词+名词、形容词+名词、名词+动词等。生成训练语料部分包括打开XML文件、打开术语文件、XML文件中标注术语、保存标注文件等模块,可根据需要进一步进行相关操作,如打开术语库文件进行XML标注等[5-8]。界面上也包括上一个、下一个或者上一段、下一段等选项,每个选项都有不同的阶段性的操作步骤,生成训练语料模块详细操作界面如图5所示。 3.术语识别
该模块包括训练、测试、分析三个部分,不同的操作界面自不同部分进入。进入训练语料部分后,可见添加语料、特征抽取、模型训练等选项,每个选项中可继续进行相应操作。测试模块包括测试语料、术语识别、保存结果及快速测试等部分,分析模块中可显示正确识别的术语个数、错误识别的术语个数、系统标注为术语的个数、未判断的术语个数、准确率、召回率、F值等内容。术语识别方法都已先预选,即首先候选出候选术语,哈萨克语虽属于黏着语,但IT术语的词性具有一定的规律性,通过分析、观察,写出IT术语的词性规则表,再利用规则和已标注好词性的文本进行匹配,抽取相应的词或者词组作为候选术语。系统的术语识别训练语料操作界面如图6所示。
四 结 语
术语识别平台的建设是一个周期长、数据需求量大的大型工程。而针对信息领域的术语仅完成了原始数据的收集工作与基本信息的整理工作,术语识别系统的构建还处于初始阶段,任重而道远。相关专业人员还需不懈努力,提升加工处理和分析语料工具的技术方法,不断完善该系统的建设,才能进一步满足哈萨克语语言学信息研究的多种需要。
参考文献
[1] 戴庆厦,赵小兵.中国少数民族语言文字信息处理研究与发展[M].北京:民族出版社,2010.
[2] 木合亚提·尼亚孜别克,古力沙吾利·塔里甫,达吾勒·阿布都哈依尔.采用CRF模型的哈萨克语信息技术术语自动抽取技术研究[J].西北师范大学学报:自然科学版,2016,52(1):53-56.
[3] 郑家恒,张虎,谭红叶,等.智能信息处理:汉语语料库加工技術及应用[M].北京:科学出版社,2010.
[4] 木合亚提·尼亚孜别克,古力沙吾利·塔里甫.哈萨克语IT领域术语识别研究与实现[J].中文信息学报,2016,30(3):68-73.
[5] 哈斯.蒙古语语料库语言资源管理平台的设计与实现[J].内蒙古师范大学学报:自然科学汉文版,2008,37(6):743-745.
[6] 木合亚提·尼亚孜别克,古力沙吾利·塔里甫.哈萨克文信息处理现状中的若干问题探讨[J].智能计算机与应用,2011,1(4):45-46.
[7] 刘剑,唐慧丰,刘伍颖.一种基于统计技术的中文术语抽取方法[J].中国科技术语,2014,16(5):10-14.
[8] 张榕.面向术语识别的术语界定研究[J].中国科技术语,2014,16(4):5-8.
转载注明来源:https://www.xzbu.com/8/view-15190308.htm