您好, 访客   登录/注册

语音识别的发展及应用

来源:用户上传      作者:

  摘 要: 本文介绍了隐马尔可夫模型(Hidden Markov Model,HMM),传统的人工神经网络语音识别方法以及改进的人工神经网络,针对最近研究热点深度学习在语音识别中的应用做了详细的描述,并对与人工神经网络在语音识别中的缺点进行阐述,就如何将HMM与深度神经网络联合起来运用到语音识别中进行详细的分析与介绍。
  关键词:隐马尔科夫模型    人工神经网络    深度学习
  中图分类号:TN91 文献标识码:A      文章编号:1003-9082(2015)12-0007-01
  一、引言
  伴随着计算机技术的不断进步以及人工智能学科的飞速发展。人们对大脑学习、思维机能的研究逐渐深入。人工神经网络作为借鉴人脑神经元互相连结构的信息处理网络,受到了广泛的关注。深度学习作为人工神经网络的一个分支,能够从海量的数据中挖掘到有效的信息,成为语音识别领域的一个研究热点。
  二、隐马尔科夫模型
  隐马尔可夫模型[3](HMM)是马尔可夫链的一种,它的状态不能直接观察到,但能通过观测向量序列观察到,每个观测向量都是通过某些概率密度分布表现为各种状态,每一个观测向量是由一个具有相应概率密度分布的状态序列产生。所以,隐马尔可夫模型是一个双重随机过程――具有一定状态数的隐马尔可夫链和显示随机函数集。
  隐马尔科夫模型(HMM)可以用五个元素来表示,包括两个状态集合和三个概率矩阵:1.隐含状态S;2.可转移状态O;3aaaa.初始状态概率矩阵π;4.隐含状态转移概率矩阵A;5.观测状态转移概率矩阵B。一般的,可以用λ=(A,B,π)三元组来简洁的表示一个隐马尔科夫模型。应用隐马尔科夫模型通常解决三类基本问题 :1.评估问题;2.解码问题;3.学习问题。
  隐马尔可夫模型是目前进行声学建模的主流技术。采用5状态的连续HMM模型(见图1),其中1、5状态只起连接作用,没有观测概率,第2、3、4状态有高斯概率分布,假设特征参数是相互独立的,所以规定协方差矩阵为对角阵。
  图1 五状态HMM模型结构
  三、深度神经网络模型
  1.神经网络的基本概念
  神经网络即人工神经网络,是一种模仿动物神经网络行为特征,进行分布式并行信息处理的算法的数学模型。此网络依靠系统的复杂程度,通过调整内部大量节点之间相互连接的关系,从而达到处理信息的目的,并具有自学习和自适应的能力[1]。
  神经网络包含三个要素[1]:
  1.1神经元:它是神经网络的最基本的组成部分,也是网络核心的处理单元。它的作用就是把输入加权求和,并做非线性处理;
  1.2网络拓扑:即神经网络中神经元的互联模式。神经系统稳定的拓扑结构规定且制约着神经网络的性质和信息处理能力的大小。
  1.3学习方式:神经网络的一个重要特点是可以通过向环境学习来获得知识并改进自身的性能。通过对网络种各神经元初始参数值的设定改善网络性能。最终达到输入和输出误差值最小。
  2.BP神经网络算法
  传统的BP算法[2]是一种有监督式的学习算法,主要的运算方法是输入学习样本,采用反向传播算法对网络的权值和偏差进行反复的调整训练,使输出的向量与期望的向量尽可能地接近,当网络输出层的误差平方和小于指定的误差时训练完成。
  BP算法实质上是把一组样本的输出与输入采用非线性优化的方法进行处理,通过负梯度下降算法和迭代运算来解决问题。但是BP的收敛速度容易陷入局部极小,而改进的BP算法则解决该问题,即给定输入和输出模式,通过神经网络建立线性方程组,进而利用高斯消元法得出加权系数,然后利用上面介绍的传统的BP算法的非线性函数误差反馈得出最优的结果。
  虽然BP算法在神经网络领域不断改进,但是一些问题也在暴露出来。
  2.1在训练过程中容易出现过拟合的问题参数也比较难以训练一致。
  2.2在训练三层以下网络时,训练结果并没有明显的优势,当训练多层网络时训练速度比较慢。且残差传播到最前面的层已经变得太小,出现梯度扩散。
  四、 HMM与深度学习模型的建立
  1.深度学习模型
  深度学习本质上是一种采取多层非线性变换的信息提取技术,通过其层次化的结构特征,从而实现对数据间复杂关系的建模。在过去的几十年间,深度神经网络作为语音识别的一项关键技术,吸引了国内外一大批专家学者、科研机构从事这一领域的研究。
  2006年,Hinton提出了在非监督数据上建立多层神经网络的一个有效方法,简单的说,分为两步:1)每次训练一层网络;2)是调优,使原始表示x向上生成的高级表示r和该高级表示r向下生成的x'尽可能一致。方法是:
  1.1首先逐层构建单层神经元,这样每次都是训练一个单层网络。
  1.2当所有层训练完后,Hinton使用wake-sleep算法进行调优。
  2. HMM与深度学习模型的建立
  2.1 MFCC特征参数
  Mel 频率倒谱(MFCC)是将普通频率映射到 Mel 频率,然后在求其倒谱系数,所求得的倒谱系数就是 Mel 倒谱系数。其计算方法如下:
  倒谱的计算方法:首先将时域信号进行傅里叶变换,然后取其对数,最后再进行傅里叶反变换即得到倒谱。
  Mel 频率倒谱系数是将普通频率先映射到 Mel 频率,然后再求其倒谱。
  本文中,语音特征参数一律采用MFCC特征参数,1维归一化短时能量,并求其一阶差分及二阶差分,共39维特征参数。
  2.2建立和训练DNN-HMM声学模型
  在训练过程中采用根据每一层建立相应的网络,根据每层来训练网络,通过第一层参数的学习来进行训练,模型容量有一定的限制和稀疏性的约束,从而得到的声学模型能够学习到数据本身的结构。在学习到第n层的时候,把第n层的输出作为第n-1层的输入,通过不断的训练然后各层的参数。
  深度学习的第一步不是随机初始化,而是通过学习输入数据的结构得到的,所以初值更接近全局最优,从而在语音识别中能够取得更好的效果。
  五、结束语
  深度学习在语音识别领域的应用已经越来越广泛了,而且国内外已经成功地将此应用在语音识别中,大大提高了语音识别率,相信在不久的将来,基于深度学习的语音识别产品将会应用在市场,给人类做出更大的贡献。
  参考文献
  [1]张雄伟,陈亮,杨吉斌.现代语音处理技术及应用.机械工业出版社,2003.
  [2]张震男.人工神经网络技术在语音识别中的应用[J].甘肃政法学院.2008.
  [3]吴义坚.基于隐马尔科夫模型的语音合成技术研究[D].中国科学技术大学.2006
  作者简介:安蕾(1990-),女,河北石家庄人,在读研究生,研究方向为语音信号处理。
转载注明来源:https://www.xzbu.com/4/view-12708278.htm