您好, 访客   登录/注册

浅谈语音增强技术的发展

来源:用户上传      作者: 黎伟勇

  摘要:现实生活中,语音不可避免会受到各种干扰,从而使语音质量下降,通信质量受到很大的影响。其中最主要的一种干扰就是背景噪声干扰。为能提高语音质量,就产生了各种解决噪声污染的方法,其中一种有效的方法就是语音增强。它的首要目标就是接收端尽可能从带噪语音信号中提取出纯净的语音信号,改善其质量。
  关键词:语音增强 语音信号 语音质量
  
  1、前言
  语音信号处理的出现是随着信息技术的迅猛发展而出现的。现在人类逐步步入信息化社会,用现代化的手段研究语音处理技术能更有效地产生、传输、存储、获取和应用语音信息。语音信号处理是以语音语言学和数字信号处理为基础而形成的一门涉及面很广的综合性学科,与心理、生理学、计算机科学、通信与信息科学以及模式识别和人工智能等学科有很密切的联系。
  2、语音信号处理的目的、研究内容及应用
  语音信号处理是研究用数字信号处理技术来对语音信号进行处理的一门学科。语音信号处理的目的有两个:一是要通过处理得到一些反映语音信号重要特征的语音参数,来高效的传输或储存语音信号信息;二是要通过处理某种运算来达到某种用途的要求,如人工合成出语音、辨识出说话者、识别出讲话的内容等等。
  语音信号处理的理论核心研究包括紧密结合的两个方面:一方面是从语音的产生和感知来对其进行研究,该研究与语音、语言学、认知科学、心理、生理学等学科密不可分。另一方面是将语音作为一种信号来进行处理,包括传统的数字信号处理技术以及一些新的应用于语音信号的处理方法和技术。
  语音信号处理的应用有语音编码、语音合成、语音识别、说话人识别和语种辨识、语音信号中的情感信息处理以及语音增强等。在本文中着重讨论的是语音增强。语音增强是一种当语音通信系统的输入或输出信号受到噪声干扰时提高系统性能的技术。其主要目的是从带噪语音中提取出尽可能纯净的原始语音。
  3、语音增强
  3.1 噪声特性及带噪语音模型
  语音在通信过程中会受到各种噪声干扰。主要的干扰方式可分为在语音源处的干扰,在语音信号传输过程中的干扰和接听端的干扰。而根据噪声的特性可将噪声按如下方式划分。噪声分为乘性噪声和加性噪声,由于乘性噪声与加性噪声相比更不容易分析,故常将乘性噪声转化为加性噪声进行处理。加性噪声可分为周期性噪声、冲激噪声、宽带噪声和语音干扰。
  (1)周期性噪声
  周期性噪声有很多离散的窄谱峰,来源于发动机等周期性运转的机械。该噪声引起的问题可通过功率谱发现,并通过滤波和变换技术去除。
  (2)冲激噪声
  冲激噪声的时域波形中有突然出现的窄脉冲,通常是由放电引起的。可通过将带噪信号的平均值限定一个阀值,信号幅度超过该阀值时就判为冲激噪声并将其滤除。
  (3)宽带噪声
  宽带噪声和语音信号在时域和频域上完全重叠,通常认为是高斯白噪声。消除它是很困难的。它的来源有热噪声、气流噪声和各种随机噪声等,量化噪声也可视为宽带噪声。
  (4)语音干扰
  人耳有惊人的在两个以上讲话环境中分辨出所需的声音的能力,该能力来源于人耳的双耳输入效应。当多个语音叠合在一起时,会使双耳信号消失,就产生了语音干扰,无法获取所需的语音信号。
  由上可看出,噪声破坏了语音信号原有的声学特征和模型参数,模糊了不同语音之间的差别,使语音质量下降,可懂度降低。强的噪声还会使人产生听觉疲劳。不仅如此,强噪声环境还对讲话人产生影响,使讲话人改变在安静环境或低噪音环境中的发声方式,从而改变了语音的特征参数,对语音识别系统有很大的影响。因此进行语音增强很有必要。
  本文研究的是宽带噪声干扰,带噪语音模型为:
  y(n)=s(n)+d(n) (3.1.1)
  这里s(n)和d(n)分别代表纯净语音和干扰噪声。图3.1为其示意图:
  除此之外,还做如下假设:
  1.噪声是局部平稳的。局部平稳是指一段带噪语音中的噪声具有和语音段开始前那段噪声相同的统计特性,且在整个语音段中保持不变。即可以根据语音开始前的那段噪声来估计语音中所叠加的噪声统计特性。
  2.噪声与语音统计独立或不相关。
  3.只有带噪语音可以利用,没有其他参考信号。
  3.2 人耳的感知特性
  (1)人耳对声波频率高低的感觉与实际频率的高低不呈线性关系,而是近似为对数关系。
  (2)人耳对声强的感觉很灵敏,且有很大的动态范围,对频率的分辨能力也受到声强的影响,过强或者太弱的声音都会导致对频率的分辨力降低。
  (3)人耳对语音信号的幅度较为敏感,对相位不敏感。
  (4)人耳还有掩蔽效应,就是会产生一个声音由于另外一个声音的出现而导致该声音能被感知的阀值提高的现象。
  (5)人耳除了可感受声音的强度、音调、音色和空间方位外,还可以在两人以上的讲话环境中分辨出所需要的声音,这种分辨能力是人体内部语音理解机制具有的一种感知能力。人耳的这种分辨语音的能力与人的双耳输入效应有关,成为“鸡尾酒会效应”。
  语音增强的最终效果度量是人耳的主观感觉,所以在语音增强中可以利用人耳感知特性来减少运算代价。
  3.3 语音增强技术的发展
  实际语音一般都是带噪信号,为从带噪信号中获取尽可能纯净的语音信号,减少噪声干扰,就要进行语音增强。而完全除噪是不现实的,故语音增强的目标是减少听者的疲劳感,改善语音质量,提高语音可懂度;对语音处理系统(识别器、声码器、手机)而言是提高系统的识别率和抗干扰能力。
  语音增强方法的研究始于20世纪70年代中期。随着数字信号处理理论的成熟,语音增强发展成为语音信号处理领域的一个重要分支。1978年,Lim和Oppenheim提出了语音增强的维纳滤波方法。1979年,Boll提出了谱相减方法来抑制噪声。1980年,Maulay和Malpass提出了软判决噪声抑制方法。1984年,Ephraim和Malah提出了基于MMSE短时谱幅度估计的语音增强方法。1987年,Paliwal把卡尔曼滤波引入到语音增强领域。在近30年的研究中,各种语音增强方法不断被提出,它奠定了语音增强理论的基础并使之逐渐走向成熟。近年来随着VLSI技术的发展和高速DSP芯片的出现,语音增强方法逐渐走向使用,同时出现了新的增强方法。
  目前比较流行的语音增强算法主要有以下几种:
  (1)噪声对消法
  该方法是根据在时域或频域中,直接从带噪语音中将噪声分量减去的方法实现的。该方法的最大特点是需要采用背景信号作为参考信号,参考信号准确与否直接决定该方法的性能。在采集背景噪声时,往往采用自适应滤波技术,以便使参考信号尽可能接近带噪语音中的噪声分量。
  (2)谐波增强法
  由于语音中的浊音具有明显的周期性,这种周期性反映到频域中则为一系列分别对应基频(基音)及其谐波的一个个峰值分量,这些频率分量占据了语音的大部分能量,可利用这种周期性来进行语音增强,采用梳状滤波器来提取基音及其谐波分量,抑制其他周期性噪声和非周期的宽带噪声。由于语音是时变的,语音的基音周期也是不断变化的,能否准确地估计出基音周期以及能否及时跟踪基音变化,是这种基于谐波增强法的关键。
  (3)基于语音生成模型的增强算法
  语音的发声过程可以建模为一个线性时变滤波器。对不同类型的语音采用不同的激励源。在语音的生成模型中,应用最广泛的是全极点模型。基于语音生成模型可以得到一系列的语音增强算法,比如时变参数维纳滤波及卡尔曼滤波方法。维纳滤波的背景噪声白化效果很好,卡尔曼滤波能有效消除有色噪声。但基于语音生成模型的增强方法运算两比较大,系统性能也有利于进一步提高。

  (4)基于短时谱估计的增强算法
  基于语音短时谱估计的增强算法种类很多,如谱相减法、维纳滤波法、最小均方误差法等。该类方法具有适应信噪比范围大、方法简单、易于实时处理等优点。尽管该方法研究比较早,但还是有很强的生命力,成为应用最广泛的语音增强方法。本文主要是讨论这一类的增强算法。基于短时谱估计的算法主要是基于短时谱幅度的估计,这是由于人耳对语音的相位的感觉不敏感,故将估计的对象放在短时谱幅度上。
  (5)基于小波分解的增强算法
  小波分解法是随着小波分解这一新的数学分析工具的发展而发展起来的,同时它又结合了谱相减法的一些基本原理。
  (6)基于听觉屏蔽的增强算法
  听觉屏蔽法是利用人耳的听觉特性的一种增强算法。人耳可以在强噪声的干扰下分辨出需要聆听的信号,也可以在多个说话者同时发声时分别将他们提取出来。正是由于以上这些原因,人们对听觉屏蔽法寄予了厚望,有理由相信,随着人们对人耳特性了解的加深,听觉屏蔽法会更深入的发展。
  在以上的六种增强算法中,噪声对消法、谐波增强法、基于语音生成模型的增强算法以及基于短时谱估计的增强算法都有了一段发展历史了,而这之中,基于短时谱估计的增强算法中的谱相减法及其改进形式是最常用的,这是因为它的运算量较小,容易实时实现,而且增强效果也较好。就近几年的发展趋势而言,小波分析法和听觉屏蔽法是人们的研究热点。人们对小波分解法的兴趣是与小波分解有关的,因为人们对小波的研究还是比较新的,随着人们对小波分解研究的深入,自然也会导致对小波分解增强算法研究的深入。听觉屏蔽法是随着人们对人耳听觉系统的认识发展而发展起来的。目前人们对它的研究还处于初级阶段。另外,人们也在尝试将人工智能、隐形马尔科夫模型、神经网络和粒子滤波器等理论用于语音增强,但目前尚未取得实质性的进展。
  4、结束语
  由于噪声的来源众多,随应用场合而异,特性各不相同,这就增加了语音增强的复杂性。而且语音增强不仅仅是一个数字信号处理技术方面的问题,还涉及到人的听觉感知和语音学,所以是一个很复杂的技术。要想一劳永逸地设计出一种算法来解决所有的噪声是不现实的。可以尝试从其它领域成功的经验和思想,来拓宽语音增强的研究思路。
  
  参考文献:
  [1]杨行峻,迟惠生.语音信号数字处理[M].北京:电子工业大学出版社,1995:385-411第一版.
  [2]陈亚勇等.MATLAB信号处理详解[M].北京:人民邮电出版社,2001:245-250第一版.
  [3]姚天任,孙洪.现代语音信号处理[M].武汉:华中理工大学出版社,1999:19-44第一版.
  [4]赵力.语音信号处理[M].北京.机械工业出版社,2003:271-283第一版.
  [5]商敏红.实环境下的语音增强算法研究[D].东南大学硕士学位论文.分类汇号:TN911.22,UDC:621.38,2006-9-24.
  [6]姚峰英.语音增强系统的研究和实现[D].中国科学院博士学位研究生学位论文.分类.号:TN912/TN470,2001-5[2]陈亚勇等.MATLAB信号处理详解.北京:人民邮电出版社,2001:245-250第一版.
  [7]孙晶.语音增强算法研究.吉林大学硕士学位论文[D].论文分类号:R318,2003-9.
  [8] S.F.Boll,Suppression of Acoustic Noise in Speech Using Spectral Subtraction,IEEE Trans.Acousics,Speech,and Signal Processing,April 1979,vol.ASSP-27,no.2:113-120.
  [9] H.G.Hirsh,Estimation of noise spectrum and its application to SNR estimation and speech enhancement,Technical Report TR-93-012,International Computer Science Institute, Berkeley,USA,1993.
  [10]D.Griffin and J.S.Lim,Signal Estimation from Modified Short-Time Fourier Transform,IEEE Trans.Acoustics,Speech,and Signal Processing,April 1984,vol.ASSP-32,no.2:236-243.
  注:本文中所涉及到的图表、注解、公式等内容请以PDF格式阅读原文


转载注明来源:https://www.xzbu.com/1/view-240339.htm