您好, 访客   登录/注册

基于语音传感器网络的语音增强的研究

来源:用户上传      作者:

  摘 要:对于传统单个麦克风阵列,一般来讲声源离麦克风阵列很远,造成采集到的信号信噪比很低,同时对整个空间的采样也是局部的。进一步来讲由于一些便携设备如手机、平板电脑等设备物理尺寸大小有限,所以对单个麦克风阵列来讲,不可能安置很多麦克风来提高算法性能。随着无线网络和嵌入式技术的发展,出现了无线语音传感器网络。无线语音传感器网络是由一些单独的阵列节点,通过无线通信,任意组网而成。由于使用无线通信技术,单个麦克风阵列大小的限制也就消失了。位置没有意义,麦克风配置更加宽松。因此能够对很大的区域进行观测和采样。增加了更多的空间信息。
  关键词:无线语音传感器网络;语音增强;无线
  1 语音传感器网络的研究现状
  基于语音传感器网络信号处理最早可以追溯到2001年,Aarabi采用语音传感器网络基于时延进行了声源定位。荷兰代尔夫特理工大学Richard C. Hendriks 教授在分布式麦克风阵列下,对语音可懂度的提高展开研究。德国埃朗根国际语音研究实验中心的Emanuel A. P. Habets教授使用相对早期语音传递函数在多个麦克风阵列存在的情况下,进行语音去噪展开研究。国内的各大高校及科研院所也开展了相关的研究工作,并取得了一定的进展。
  2 无线传感器网络的研究挑战
  无线传感器网络是一种分布式传感网络,它广泛应用于军事、智能交通、环境监控、医疗卫生等多个领域,涉及很多核心技术。我们针对数据融合和数据管理技术在语音方面展开研究。但是这里涉及很多研究问题,如麦克风阵列的时间起点不一样,涉及同步的问题。 阵列的方向矢量估计可能存在误差,因此有校正的问题。 麦克风本身电子电路,由于电子电路随着时间的使用,电子电路放大的倍数都不一样,产生不同的增益。因此,需要考虑麦克风的配准问题。以及如何实现在分布式麦克风阵列下声源定位、跟踪,抽取以及增强的问题。
  3 波束形成常见的准则
  常见的波束形成的准则有:最大信噪比(SNR)准则;最小方差无失真波束形成器(MVDR)准则;最小均方误差(MMSE)准则;语音失真加权多通道维纳滤波器(SDW-MWF);以及线性约束最小方差(LCMV)。它们之间既有联系,又有区别。它们都可以被应用到麦克风阵列上,对多个麦克风阵列采集的信号,这个信号是有冗余的,我们利用这些冗余,来寻找空间信息,同时,也需要面对这些冗余进行多个通道的信号估计,而这些准则,就提供了多个通道向单通道进行信号估计的方法。除了利用这些常见的准则以外,我们也可以开发出多个通道之间的相干性的关系来估计出通道的增益函数来。对于相干性弱的噪声情况,一般采用相干函数来加权;而对于相干性强的噪声情况,则采用常见的波束形成的准则来估计。
  同时利用语音自身信息,低门限被超过有可能是时间很短的噪声引起的,高门限被超过则可以基本确定是由语音信号引起的,无声段(背景噪声),清音段(随机白噪声),浊音段(斜三角脉冲串)能量最大;在低频段;有低的过零率。利用好这些信息也可以进行非平稳下的语音增强。一般来讲,不相关噪声用来处理声音的高频;而相关性强的噪声用来处理声音的低频。同时也可以开发出信号的幅度信息、相位信息,以及打破声音信号的周期性的特点,开发出宽线性模型来进行信号估计。这里也存在一个问题,那就是如何确定相关函数之间的阈值,这个也是值得探讨的问题。最后,就是对时间平滑因子的动态确定也是值得研究的。
  4 基于语音传感器网络的语言增强方法
  4.1 基于非负矩阵分解的分布式语音增强 根据非负矩阵分解来估计多通道维纳滤波器的加权,好处是便于对非平稳噪声环境进行信号处理,采用DANSE技术,利用多通道维纳滤波器对单独每个节点进行信号压缩,后经无线通信,构成分布式数据进行语音增强。除了麦克风阵列节点自身采用常见的滤波器进行语音增强外,对输入的数据还要采用来自邻居的数据,共同组成分布式数据后再进行语音增强。在减少通信开销方面和算法的鲁棒性方面都要有所提高。
  4.2 研究基于决策模型的分布式语音增强算法 采用决策模型对各个算法进行评价。由于现存的语音增强算法都是考虑某种特殊情况下的语音增强。这样难免在实际的应用中有很强的局限性,想通过科学的决策模型分析手段,提供出平均性能最优的算法。
  4.3 研究基于相邻语音帧之间的语言增强算法 提出了在DFT内的基于时频滤波器的多通道语音增强算法,和传统的多通道滤波器技术相比较,所提的方法既考虑了时域相邻帧之间的相互依赖这样内在的因素,又考虑了频率域上相邻频率点之间的相互依赖的内在关系。对于时频滤波器,语音和噪声的功率谱密度矩阵是进行估计的困难的地方,在统一的框架下,采用了多通道的语音出现概率来参与估计相关矩阵。在信噪比很低的环境下,采用十多个麦克风阵列来开采空间多样性信息,来提供可靠的语音通信。有很多多通道语音增强的方法已经被提出[1]-[4]。在多通道的语音增强的条件下,目标声源到麦克风接受到的信号之间的通道传递函数通常要求事前规定好,或者用信号估计来实现。然而,在实际的环境中,要想准确的估计出通道传递函数是不可能的。 我们提出的方法,不仅考虑了同一个帧和同一个频率点对信号估计的影响,同时也考虑了这个帧附近和频率点附近数据对信号估计的影响。形成分布式数据来构造出最优的滤波器,进而估计出语音信号的相关函数。
  5 结语
  随着无线传感器网络的不断发展,如何在传感器位置未知的情况下。对语音信号进行增强、识别、检测、抽取、定位、跟踪、校正、同步等问题都是需要我们不断研究的。而无线传感器网络是未来发展的大势所趋,有很多亟待解决的问题和挑战。
  参考文献:
  [1] A. Bertrand, “Applications and trends in wireless acoustic sensor networks: a signal processing perspective,” in Proc. IEEE Symposium on Communications and Vehicular Technology (SCVT), (Ghent, Belgium),November 2011.
  [2] M. Brandstein and D. Ward, Microphone arrays: signal processing techniques and applications. Berlin Heidelberg New York: Springer-Verlag.
  [3] S. Markovich, S. Gannot, and I. Cohen, “Multichannel eigenspace beamforming in a reverberant noisy environment with multiple interfering speech signals,”IEEE Transactions on Audio, Speech and Language Processing, vol. 17,pp. 1071-1086, August 2009.
  [4] A. Bertrand and M. Moonen, “Distributed adaptive estimation of node-specific signals in wireless sensor networks with a tree topology,” IEEE Trans. Signal Processing, vol. 59, pp. 2196-2210, May 2011.
转载注明来源:https://www.xzbu.com/4/view-11545557.htm