字符序列标注的维吾尔语词干提取方法
来源:用户上传
作者:
摘 要: 词干提取是形态丰富语言信息处理中的基础任务,对其他自然语言处理任务有着重要的影响。该文将词干提取任务看作序列标注问题,以字符为切分粒度来表征维吾尔语单词的构成机制,结合条件随机场模型,实现基于字符序列标注的维吾尔语词干提取方法。首先使用词典查询方法进行词干提取,然后结合字符的弱化发音特征、音类特征以及语音特征,针对受限数据和非受限数据采用条件随机场训练模型及预测结果。实验结果表明,该方法在非受限数据集上效果较佳,且能广泛应用到其他语言。
关键词: 词干提取; 序列标注; 条件随机场; 特征提取; 模型训练; 预测结果
中图分类号: TN912.34?34; TP391 文献标识码: A 文章编号: 1004?373X(2020)12?0151?04
Abstract: Stemming is a fundamental task in the morphologically rich language information processing and has an important influence on other natural language processing (NLP) tasks. Taking the task for stemming as the process of character sequence labeling in this paper, and using the character as the segmentation unit to represent the formation mechanism of Uyghur word, the method of Uyghur stemming based on character sequence labeling is realized in combination with the conditional random field model. The dictionary query method is used to stemming, and then the model training with the conditional random field and the results′prediction are performed for the restricted data and unrestricted data by combining with the weak pronunciation features, sound class features and speech features of characters. The experimental results this method has well effect on unrestricted datasets and can be widely used in other languages.
Keywords: stemming; sequence labeling; conditional random field; feature extraction; model training; prediction results
0 引 言
維吾尔语是典型的形态复杂的黏着性语言。黏着性语言的主要特点是没有词内部的屈折,每个语法范畴都由一类词缀来表示?[1]。由于词干连接的词缀不同,因此会构成不同的单词,将造成严重的数据稀疏问题。如“Biz(我们)”与“ni?(的)”相连接会构成“Bizni?(我们的)”,与“ni(把)”相连接会构成“Bizni(把我们)”,而词干提取是去除词缀获取词干的过程,使单词的不同形态变体还原成一种统一形式,从而有效地提高自然语言处理?[2]以及信息检索??[3]等任务的性能。
由于维吾尔语构词方法较为丰富,因此,利用相关技术深入研究词干提取才能有效解决维吾尔语形态复杂问题。目前主要采用基于规则的方法和基于统计的方法,其中,基于规则的方法是根据形态构成中的规律进行词缀删除、词干还原,其严重依赖于形态构成规律,局限性较强;基于统计的方法主要借助词干在单词中的分布进行概率统计,但是针对维吾尔语而言,目前的研究结果还不够理想。
基于以上分析,本文将词干提取问题看作是序列标注问题,以字符为序列标注单元,提出一种基于条件随机场模型的维吾尔语词干提取方法,且能广泛应用到其他语言。
1 相关工作
目前为止,国内外流行的词干提取方法主要有基于词典和规则的方法[4?5]、基于统计的方法[6?7]和基于混合的方法[8?9]。20世纪六七十年代,研究者们使用基于词典的方法和基于规则的方法对文本进行词干提取。孙汉博等人利用改进的Porter Stemmer算对英文词干提取并应用于垃圾邮件的过滤上??[5]。基于词典/规则的方法准确率很高,但基于词典的方法只能提取词典中存在的词干,不能处理词典中不存在的单词;而基于规则的方法只能处理普遍存在的语言规则,不能处理特殊的情况。Gupta等人提出了基于无监督的词干提取方法?[6]。
随着词干提取技术的不断发展,国内少数民族语言的词干提取技术也发展起来了。赵伟等通过分析蒙古语词的构形特点,提出一种有效的蒙古语词标注方法,并基于条件随机场模型构建了一个蒙古语词切分系统?[7]。吾兰等人提出了基于N?gram语言模型的哈萨克语词干提取方法?[9]。维吾尔语词干提取研究处于起步阶段?[10],文献?[8]提出了融合词性特征和上下文词干信息的维吾尔语词干提取模型。文献?[11]提出基于双向门限递归单元神经网络的维吾尔语形态切分方法,将维吾尔词自动切分为语素序列,从而缓解数据稀疏问题。 2 基于CRF的维吾尔语词干提取
本文利用少数民族语言分词技术评测(MLWS2017)语料,以字符(字母)为切分粒度,构建一种结合特征的条件随机场模型。首先利用词干/词缀词典对评测语料进行过滤,然后使用受限CRF模型和非受限CRF模型分别进行预测,最终评估结果。整体流程图如图1所示。
2.1 预处理
训练集是在官方提供的数据集基础上抽取的词对(Kursantlarda|Kursant),再对其进行字符切分和标记;而测试集使用新疆多语种信息技术实验室自然语言处理组维吾尔语自然语言处理工具包,将进行词例、词性标注等预处理操作,词性标注集如表1所示。本文根据词性进行筛选,仅保留部分词性的单词,保留单词的词性见表中的加粗部分。
2.2 问题描述
词干提取问题可视为一个序列标注问题,维吾尔语词干最少由两个字符构成,本文以字符为切分粒度,利用条件随机场模型对单词进行标注,将每个单词作为一个字符串的观测序列,目标是获取对应的标记序列 。
为了更好地提高词干提取效果,本文采用“SF标记符号”对单词进行标注,其中S表示当前单词的词干部分,F表示当前单词非词干部分,如“d?wirl?rg? (时代)”标注模型如图2所示。
2.3 条件随机场模型
2.4 特征选择
条件随机场序列标注算法中,特征选择关系到训练模型对维吾尔语词干提取的性能。本文主要选取字符(C)、弱化发音特征(WP)、音类特征(S)、语音特征作(P)为特征?[13]。
2.4.1 字符(C)
由于单词主要由字符构成,一个字符代表一个维吾尔语字母,而这些字符构成单词存在一些规律,因此字符本身具有信息,可以作为有效的特征。
2.4.2 弱化发音特征(WP)
在维吾尔语中,当词干与词缀相连接时一般会发生弱化发音现象,这将会影响词干提取的过程,如“a,?,o,u”弱化成“e,i,?,ü”。如果发生此现象,则取弱化后的字符,如果没有弱化则填写NL。
2.4.3 音类特征(S)
维吾尔语单词由一个或者一个以上音节构成,而音节是由元音和辅音组成,其中元音8个,辅音24个。判断当前字符的音类(元音或者辅音)作为特征,若当前字符是元音,则表示V;如果是辅音,则音类特征为C。
2.4.4 语音特征(P)
根据音类特征,本文按照文献?[13]分别将元音和辅音划分為3类特征,元音和辅音都具有各自的语音(音系)特征,如下:
1) 元音
① 纵向舌位位置
按照发音时纵向舌位的位置分为高位元音(VH)、中位元音(VM)、低位元音(VL),以当前字符发音时纵向舌位的位置作为特征。
② 横向舌位位置
如果按照发音时横向舌位的位置分为前位元音(VR)、后位元音(VF)、前后自由浮动性元音(VB),以当前字母发音时纵向舌位的位置作为特征。
③ 展圆情况
维吾尔语元音发音时根据嘴唇的展圆情况分为展唇元音(OV)和圆唇元音(RV),判别当前元音发音时的嘴唇展圆情况作为特征。
2) 辅音
① 振动情况
辅音根据发音时声带的振动情况,分为浊辅音和清辅音,因此本文考虑该特征,如果是浊辅音,则表示为CT,否则表示为CC。
②发音部位
维吾尔语的24个辅音发音时会受到气流阻力的部位不同,分为双唇(PA1)、唇齿(PA2)、舌尖前(PA3)、舌尖中(PA4)、舌尖后(PA5)、舌面中(PA6)、舌面后(PA7)、小舌音(PA8)、喉音(PA9),故本文将当前字符的发音部位作为特征。
③ 发音方式
辅音发音时气流受阻和除阻的方式也不同,并分为塞音(MA1)、塞擦音(MA2)、擦音(MA3)、鼻音(MA4)、颤音(MA5)、边擦音(MA6)、半元音(MA7)等,本文将不同的发音方式作为当前字符的考虑特征。
2.5 特征模板
维吾尔语形态的丰富性造成了词干提取的复杂性。如果单一地从字符特征出发,难以达到理想的结果。条件随机场模型的关键是利用选取的特征构建特征模板,因此,选择具有代表性的特征模版能够充分利用相关信息且能减少信息冗余,同时还能提高词干提取性能。本文在特征模板的设计中不仅定义了原子特征模板,还定义了复合特征模板。假设C是字符特征,F为非字符特征,则特征模板定义如表2 所示。
3 实 验
3.1 数据集
目前,针对维吾尔语词干提取公开语料库未见报道,因此,本文使用两种数据进行训练,分别是受限数据和非受限数据。受限数据中的训练语料来自MLWS2017评测语料;非受限数据中的训练集是由MLWS2017评测语料和新疆大学建立的词干提取语料组成。两种数据的测试语料是来自MLWS2017评测语料的测试语料,具体的语料统计如表3所示。
3.2 实验结果与分析
在维吾尔语词干提取中,本文共提供了两个实验结果,分别为受限结果和非受限结果,各系统描述如下:
受限实验主系统(UY?2017?U1?primary?a):首先根据评测举办方发布的语料进行词对提取,其次构建一个词干/词缀词典,最后按字符串的序列标注,提取单词特征,为CRF模型准备数据并训练受限系统模型。
非受限实验主系统(UY?2017?U1?primary?b):此系统与上述受限系统唯一区别在于词典的构建,在构建非受限系统的词典时,加入了内部数据集,扩大了词典的规模。两个系统测试结果如表4所示。 从总体的实验结果可以发现,非受限系统的实验结果比受限系统的实验结果较好一些。从准确率上看,当扩大词典的规模时准确度比较高;从召回率上看,非受限系统中有些词干没有召回或错误提取。通过分析实验结果发现,如果构词词缀与构形词缀一样时,模型可能没有准确区分;将序列标注的方法应用于以字符构成的语言进行词干提取时,对实验结果还是有效的。以上的实验结果是参加MLWS2017的评测结果,并在评测中获得了第三名。
4 结 论
本文从维吾尔语形态丰富的特点出发,提出一种基于字符序列标注的维吾尔语词干提取方法。以MLWS2017评测数据作为受限数据,融合新疆大学建立的词干提取语料作为非受限数据。结合字符的弱化发音特征、音类特征以及语音特征,对两种数据使用基于字符序列的条件随机场模型预测提取结果。实验结果表明,该方法在非受限数据结果较佳,且能够广泛应用于其他语言。以后,将进一步采用神经网络的方法实现维吾尔语词干提取,提高准确率。
注:本文通讯作者为吐尔根·依布拉音。
参考文献
[1] 叶蜚声,徐通锵.语言学纲要[M].北京:北京大学出版社,2006.
[2] 吴思竹,钱庆,胡铁军,等.词干提取方法及工具的对比分析研究[J].图书情报工作,2012,56(15):109?115.
[3] FLORES F N, MOREIRA V P. Assessing the impact of stemming accuracy on information retrieval?a multilingual perspective [J]. Information processing & management, 2016, 52(5): 840?854.
[4] 塔依尔·阿不都外力,艾山·吾买尔,吐尔根·伊布拉音,等.基于标注词典和规则的维吾尔文动词词干提取方法[J].新疆大学学报(自然科学版),2013(1):6?12.
[5] 孙汉博,冯国灿.基于改进的Porter Stemmer词干提取与核方法的垃圾邮件过滤算法[J].计算机科学,2017,44(z1):61?67.
[6] GUPTA D, KUMAR Y R, SAJAN N. Improving unsupervised stemming by using partial lemmatization coupled with data?based heuristics for Hindi [J]. International journal of computer applications, 2012, 38(8): 1?8.
[7] 赵伟,侯宏旭,从伟,等.基于条件随机场的蒙古语词切分研究[J].中文信息学报,2010,24(5):31?36.
[8] 赛迪亚古丽·艾尼瓦尔,向露,宗成庆,等.融合多策略的维吾尔语词干提取方法[J].中文信息学报,2015,29(5):204?210.
[9] 吾兰·努鲁别克,热木土拉·麦麦提,艾斯卡尔·艾木都拉.基于N?gram模型的哈萨克词干提取方法[J].电脑知识与技术,2017(12):160?162.
[10] 吐尔根·依布拉音,袁保社.新疆少数民族语言文字信息处理研究与应用[J].中文信息学报,2011,25(6):149?156.
[11] 哈里旦木·阿布都克里木,程勇,刘洋,等.基于雙向门限递归单元神经网络的维吾尔语形态切分[J].清华大学学报(自然科学版),2017(1):1?6.
[12] LAFFERTY J D, MCCALLUM A, PEREIRA F C N. Conditional random fields: probabilistic models for segmenting and labeling sequence data [C]// 18th International Conference on Machine Learning. San Francisco: Morgan Kaufmann Publishers, 2001: 282?289.
[13] 力提甫·托乎提.现代维吾尔语参考语法[M].北京:中国社会科学出版社,2012.
转载注明来源:https://www.xzbu.com/8/view-15248546.htm