基于混合深度神经网络的语音增强方法研究

> 中国论文网 >
科技论文 >
基于混合深度神经网络的语音增强方法研究

基于混合深度神经网络的语音增强方法研究

来源:用户上传作者:

　　摘要：针对基于混合深度神经网络的语音增强方法展开研究，阐述了该方法提出的背景、模型原理和实施过程。搭建了基于混合深度神经网络的深度学习语音增强模型，并与仅基于DNN的语音增强模型进行了对比实验，验证了基于混合深度神经网络的语音增强方法，进一步提高了增强语音的质量。
　　关键词：混合深度神经网络;语音增强;深度学习;语音质量
　　0引言
　　近几十年来，语音增强（speech enhancement）由于其在移动电话、语音识别、助听器设计等实时应用方面的重要性而受到研究者的关注。语音增强方法的主要目的是在不失真的情况下提高退化语音（deteriorated speech）信号的语音质量。为此，各国学者设计了许多算法。比如，谱减法是带噪语音减去短期噪声频谱的估计值，从而产生纯净语音的估计值频谱。信号子空间法是将带噪语音信号通过矩阵分解的方法分解为信号子空间和噪声子空间，进而获得纯净语音信号的频谱估值。但是，在这些传统方法中经常遇到的问题是：由此产生的增强语音经常受到一种人为因素的影响，即“音乐噪声”。而且，由于传统的语音增强方法往往假设噪声信号是平稳的并且噪声信号与语音信号不存在相关关系，这使得传统语音增强算法无法适用于非平稳噪声的现实情况。
　　上世纪90年代，考虑到噪声对语音干扰的复杂过程，部分学者开始采用神经网络等非线性模型来建立带噪语音与纯净语音信号之间的映射关系。文献[4]和文献[5]利用浅层神经网络（shallow neuralnetworks）作为非线性滤波器来预测时域或频域内的纯净信号。然而，浅层神经网络的网络规模小，不能充分学习带噪语音特征与目标信噪比之间的关系。不仅如此，浅层神经网络的随机初始化常常会出现明显的局部极小值或停滞，对于包含更多隐藏层的体系结构，问题会更为明显。2006年Hinton等学者在其论文“A fast learning algorithm for deepbelief nets”和“Reducing the dimensionality of datawith neural networks”中提出了一种贪婪的分层学习算法，为训练深度架构带来了突破，同时也迎来深度学习技术的大繁荣。深度学习模型的每一层都进行预训练，以学习其输入（或前一层的输出）的高级表示。对于回归任务，深度学习已被应用于多个语音合成任务中。在文献[11]和[12]中，堆叠降噪自编码器（stacked denoising autoencoders）作为一种深度模型来建立带噪语音和纯净语音信号特性之间的关系，为了捕捉语音信号的时间特性，部分学者还引入了循环神经网络（recurrent neuralnetworks），从而消除了多层感知器（muhilayerperceptrons）中对上下文窗口的显式选择，文献[13]和[14]采用深度循环神经网络（deep recurrentneural networks）为鲁棒语音识别（robust speechrecognition）进行特征增强。但在有限噪声类型下训练的深度循环神经网络泛化能力较弱。此外，近年来基于对带噪语音频谱图（spectrograms）处理的语音增强算法也不断被提出。Fu等学者使用卷积神经网络（convolutional neural networks）直接从带噪语音的频谱图中估计出了纯净语音的频谱图，该方法较基于深度神经网络（deep neural networks）的幅度处理方法相比性能有了很大提高。
　　随着学者对深度学习模型研究的不断深入，人们开始尝试将深度学习模型与原有机器学习模型（如SVM或GMM）或者不同深度学习模型之间进行联合，构建出混合的深度学习模型结构，比如：DNN-HMM结构、DNN-GMM结构、CNN-RNN结构、CNN-HMM结构以及RNN-HMM结构等。研究发现，使用这些混合网络相较于单一网络结构能够获得更好的性能和实验效果。
　　1 基本方法概述
　　1.1 语音增强的概念
　　语音增强是指通过抑制噪声来改善听众对带噪语音某方面的感知体验。在实际应用中，语音增强对带噪语音感知体验的改善主要有质量（quality）和可懂度（intelligibility）两个方面。针对带噪语音质量的改善是非常必要的，特别是在其长时间暴露于诸如工厂生产车间或航空飞机场等高分贝噪音环境下，语音质量的改善可以减少听众的听觉疲劳。使用语音增强算法可以在一定程度上降低或抑制背景噪声，因此有时也称其为噪声抑制算法（noisesuppression algorithms）。
　　1.2 深度学习模型
　　深度学习指的是广泛的机器学习技术以及基于多层非线性信息处理的体系结构，这些信息处理本质上被认为是分层的，深度学习的模型结构可以分为单一独立（Standalone）结构（通常包括DNNs、CNNs和RNNs等）和混合（hybrid）结构（包括DNN-HMM、DNN-GMM、CNN-RNN、CNN-HMM和RNN-HMM等）。
　　卷积神经网络（CNNs）被认为是一个由多个特征提取阶段所构成的深层体系结构，其中每个阶段都包含一个卷积层和一个池化层以及非线性激活函数（ReLU），通过这样的组合方式力求接近复杂的非线性模型函數。卷积层共享了权值，而池化层对来自卷积层的输出进行采样，降低了数据维度。CNNs假设特征具有不同层次结构并可以通过卷积内核提取。在监督训练过程中，通过学习层次特征来完成既定的任务。
　　循环神经网络（RNNs）是一类允许通过网络的不同层共享参数的深度神经网络。RNNs是基于类似树的结构上循环地使用相同的权值集来开发的，该树按拓扑顺序遍历。RNNs主要用于利用已有的数据样本预测未来的数据序列。当涉及到语音或文本等序列数据的建模时，RNNs是非常流行的。
　　将卷积神经网络（CNNs）与循环神经网络（RNNs）相结合，用于对音频信号或单词序列等序列数据进行建模，这种混合模型称为卷积循环神经网络（CRNNs）。通过用RNNs替换最后一层卷积，可以将CRNNs描述为一个经过修改的CNNs。在CRNNs中，CNNs和RNNs分别扮演着特征提取器和时间归纳器的角色。采用RNNs对特征进行聚类，使得网络能够考虑全局结构，而局部特征由卷积层提取。这种结构最初是在文献[17]中提出用于文档分类，文献[18]采用该结构进行了音乐标注。　　2 基于混合深度神经网络的语音增强方法
　　2.1模型概述
　　基于混合深度神经网络的语音增强模型由三个部分组成：首先，将带噪语音频谱图与若干个卷积核（kemel）进行卷积，形成特征图（feature maps），并将所有特征图拼接成一个二维特征图：然后，利用双向RNNs在时间维度对二维特征图进行进一步的变换，建立连续帧之间的动态关联;最后，建立预测频谱图和纯净语音频谱图之间的成本函数（costfunction），利用全连接层（Fully Connected Layer）对纯净语音频谱图逐帧进行预测。与已有的DNNs和RNNs模型相比，由于卷积内核的稀疏性，该混合网络具有更高的数据效率和处理效率。此外，双向循环网络使得模型能够自适应地对连续帧之间的动态关联进行建模。
　　2.2 模型建立
　　假定y和x分别为带噪语音和其所对应的纯净语音频谱图，其维度均为d×t。其中，d表示频谱图的频带数目，t表示频谱图的长度。假定Z为卷积核，其维度为b×w。将带噪语音频谱图y与内核z进行卷积，所形成的特征图如公式（1）所示。
　　3 基于混合深度神经网络的语音增强实验
　　将基于混合深度神经网络所建立的语音增强模型与仅基于DNN的语音增强模型在语音增强的质量效果进行了实验对比。
　　3.1实验过程
　　3.1.1 数据准备
　　分别搭建基于混合深度神经网络和仅基于DNN的语音增强模型。纯净语音选自TIMIT数据库，噪声信号选取NOISEX-92中的babble、ca、street和train四种噪声，按照-5dB、0dB和5dB分别加噪。
　　两种模型的训练数据集均由TIMI了数据库中的全部训练集4620个句子，按照不同噪声类型（4种）结合不同信噪比（3种）所产生的不同加噪条件（12种）的带噪語音和与之对应的纯净语音组成。所以，采用了55440个语音对来构成两种模型的训练数据集。
　　两种模型的测试数据集均由TIMIT数据库中的全部测试集1680个句子，按照不同噪声类型（4种）结合不同信噪比（3种）所产生的不同加噪条件（12种）的带噪语音和与之对应的纯净语音组成。所以，采用了20160个语音对来构成两种模型的测试数据集，
　　3.1.2模型参数配置
　　基于混合深度神经网络的语音增强模型实验中，作为预处理步骤，首先使用短时傅里叶变换（STFT）从每个话语中提取频谱图。每个频谱图中有256个频带（d=256）和500帧（t=500）。模型卷积层中有256个维度为32×11的卷积核，滑动步长（stride）频率维度为16.时间维度为1.边缘外自动补0。在卷积层之后使用了两层双向LSTMs.每层都有1024个隐藏单元。
　　仅基于DNN的语音增强模型实验中，DNN模型包含3个隐藏层，每个层都有2048个隐藏单元。
　　3.2 实验结果及分析
　　实验中语音质量的评价选用PESQ方法，语音质量的PESQ评价结果见表1-表3所示。
　　语音质量的PESQ值越高说明对应的语音主观听觉质量越好，从表1-表3语音PESQ测试值可以看出：相较于仅基于DNN的语音增强模型，基于混合深度神经网络的语音增强模型进一步提高了增强语音的质量，
　　由于在所构建的混合深度神经网络中，CNNs和RNNs分别扮演了特征提取器和时间归纳器的角色。采用双向LSTMs对特征进行聚类，使得网络能够考虑语音的全局结构，而局部特征可以由卷积层提取。因此，基于混合深度神经网络的语音增强方法较仅基于DNN的语音增强方法能够学习到语音中更多的上下文全局信息，表现出更好的语音质量增强效果，
　　4 结束语
　　本文针对基于混合深度神经网络的语音增强方法展开了研究，阐述了该方法提出的背景、模型原理和实施过程，搭建了基于混合深度神经网络的语音增强模型和仅基于DNN的语音增强模型，进行了对比实验，验证了基于混合深度神经网络的语音增强方法，进一步提高了增强语音的质量。
转载注明来源:https://www.xzbu.com/8/view-15125499.htm

查看更多→

基于混合深度神经网络的语音增强方法研究

相关文章