基于DNN-HMM的佤语语音声学建模
来源:用户上传
作者:贾嘉敏, 程振, 潘文林, 王欣
摘 要: 在佤语语音识别中,以孤立词作为识别单元时,未登录词对识别性能的影响很大。结合佤语语音特点,以音素作为识别单元,提出基于DNN-HMM声学模型的佤语语音识别方法。实验结果表明,与传统的GMM-HMM声学建模方法相比,基于DNN-HMM的声学模型表现出更加优越的识别性能,词错误率(WER)最优达29.24%。
关键词: 佤语; 语音识别; 识别单元; Kaldi; DNN-HMM
中图分类号:TN912.34 文献标识码:A 文章编号:1006-8228(2022)08-61-04
Acoustic modeling of Wa language based on DNN-HMM
Jia Jiamin1, Cheng Zhen2, Pan Wenlin1, Wang Xin1
(1. School of Mathematics and Computer Science, Yunnan Minzu University, Kunming, Yunnan 650500, China;
2. School of Electrical Information Engineering, Yunnan Minzu University)
Abstract: In Wa language speech recognition, when isolated words are used as recognition units, unknown words have a great impact on recognition performance. Taking phonemes as recognition units, Wa language speech recognition method based on DNN-HMM acoustic model is proposed. Experimental results show that compared with the traditional GMM-HMM acoustic modeling method, the proposed acoustic model shows better in recognition performance, and the word error rate (WER) is 29.24%.
Key words: Wa language; speech recognition; recognition unit; Kaldi; DNN-HMM
0 引言
语言是人类彼此传递信息最便捷的工具,更是文化传承的重要载体。汉语和少数民族语言作为中华民族的文化基石,更是中华民族最为重要的符号象征。随着经济的发展和各民族文化的不断融合,对少数民族语言文化遗产的传承与保护愈加体现出无可替代的重要性;其中对于跨中缅边境的少数民族――佤族,为维护边境稳定、增强国家认同,对其语言的传承保护则更凸显重要[1]。相比于语言资源较为丰富的藏语、维吾尔族语等语种,佤语由于缺乏有声语档及语料库资源的建设,其语音识别研究还处于起步阶段[2]。
目前,对于佤语的语音识别研究工作中,陈绍雄等[3]在HTK平台上实现非特定人的佤语孤立词语音识别,建立训练HMM模型验证其可行性;和丽华等[4]使用基于多窗谱估计谱减法和能熵比法的语音端点检测复合算法对佤语语音进行仿真实验,其准确率为82%;王翠等[5]利用傅里叶变换将佤语转换为对应的语谱图信息,将AlexNet模型用于佤语语谱图识别,其识别精度达96%。杨建香[6]基于ResNet网络的佤语语音语谱图识别率达90.2%,证明其模型系统具有良好的鲁棒性。这些工作都获得了相当不错的成果,但是这些工作主要是以孤立词的语谱图为识别单元进行分类研究,这样就存在明显的缺陷,即以孤立词为识别单元,随着语料库规模的不断扩大,新词也会不断出现,在佤语语音识别系统中可能会出现较多的未登录词(out of vocabulary,OOV)问题[7],所以建立覆盖佤语中所有孤立词的发音词典具有一定的难度。同时以数量规模庞大的孤立词为识别单元的话,模型的复杂度会随之更高,进而影响模型的识别性能。所以,Y合佤语的语音特点,可将孤立词分解为更小的音素结构,其中佤语仅有214个音素。若以音素作为佤语语音识别系统的识别单元,随着语料库规模的扩大,识别单元的数量并不会再增加,可有效解决未登录词的问题。故本文在结合佤语语音特点的基础上,设计基于音素的佤语语音声学模型。
结合佤语语音的结构特点,本文选取音素作为佤语语音的识别单元,构建深度神经网络-隐马尔科夫模型(DNN-HMM)[8]的佤语声学模型。为提高佤语语音特征的区分度并减少说话人口音对声学建模的影响,采用线性判别分析(Linear discriminant analysis,LDA)[9]、最大似然线性变换(Maximum likelihood linear transformation,MLLT)[10]和说话人自适应训练(speaker adaptive training,SAT)[11]对模型输入的语音特征进行优化训练,从而提高佤语声学模型的鲁棒性。
1 模型介绍
1.1 深层神经网络
深层神经网络(Deep Neural Networks,DNN)是经典的前馈神经网络之一,主要由输入层、隐藏层和输出层三部分构成[12],DNN的结构如图1所示。其中,输入层为输入的语音声学特征,中间的隐藏层为多层感知器,其中相邻层的神经单元以全连接的方式传送信息,层与层之间的参数则通过误差反向传播(Back Propagation,BP)算法进行优化调整。输出层是一个线性的分类器,使用Softmax函数对激活值进行归一化处理,得到声学的输出特征和每个神经元对应的概率。由于DNN拥有更多层的非线性变换器,使其在处理语音声学特征方面,对语音等复杂信号建模的能力则更强大,优势更显著。
nlc202208151712
转载注明来源:https://www.xzbu.com/8/view-15437591.htm