您好, 访客   登录/注册

语音识别的原理及应用

来源:用户上传      作者: 吴文超

  [摘 要]通过一系列的程序就可以实现语音的识别,采集语音信息是首要,接着就是进行预处理的各个环节,包括了预加重,加窗分帧等,之后就是就行参数的分析,特征值的匹配,与设计动作的显现。加强科技在公安领域的应用,实现科技的多方面利用,提高破案效率。
  [关键词]语音识别,采集语音,预处理,预加重,加窗分帧,帧叠,时域,频域,参数分析,特征匹配,实现预动作。
  中图分类号:TN912.1 文献标识码:A 文章编号:1009-914X(2014)40-0174-01
  每个人的声音都是不同的,通过对于声音的量化我们可以对于每个声音进行编号,从而获得一个庞大的数字系统,这样就可以在得到了一个声音信息之后获取他的相关信息,从而在最短的时间内确定犯罪嫌人,或者其位置,提高破案的效率。强化科技强警,科技应用的范围。
  首先就是对于声音的采集是语音识别的第一步,通过话筒或者电话等语音收集装置将话音信号转化为模拟信号。类似于《高频电子技术》中的通信系统中的输出转换器。首先是将话音信号数字化,通过数值的转化,将原本的话音转化为0和1的数字信号,这样就形成了数字化的第一步。在得到了一系列的数字资料之后,我们就可以通过数模转化器进行转换。就是《数字电子技术基础》中的AD转换器件,它的作用是实现模拟信号的数字化。一般的转换分为直接和间接转化两种,直接转换就是将电压直接转换为数字量,有一个基准电压其他电压各位上的电压由高到低都与此电压进行比较,此基准电压由数模转化器提供。运用控制逻辑实现对于分搜索的控制,是二进制数的最高位Dn-1=1,经数模转换之后就得到了为全部量程一般的电压Vs,如果输入电压大于这一位则保留,如果小于则舍去此位置。然后就是Dn-2=1,再依据此法进行比较,在经过n次比较之后就得到了需要的数字信号。另外就是间接转换的方法,不将之直接转换为电压而是通过一个中间变量来转换,通常时间和频率是两个常用的转换量,电压时间的转换双积分法是一个常用的方法。
  接着就是预处理,预加重,加窗分帧。目的是为了获得帧序列的加窗短信号。其中预加重是使用一个一阶有限激励响应的高通滤波器,获得一个频谱平坦的信号。这样就可以减小有效字长效应的影响,获得比较稳定的信号。接着就是分帧,语音的短时平稳性使它可以根据以帧为单位进行处理,一般的实验中选取帧长为32ms,而帧叠则一般选取16ms,为长度的一般。其在matlab中的应用分帧的公式为:y=enframe(x,framelength,step),此公式进行分帧效果很好。其中的framelength,就是指帧长。帧数一般用公式nf=fix((nx-framelength+step)step),nx是x的长度,nf是nx于framelength相乘的组数,大小取决于x是列数据还是行数据。另外加窗的目的是为了减少吉布斯效应的影响。这里的一系列变换都是以傅里叶变换为基础的,正如《信号与线性系统》介绍的一样。
  接着就是参数分析,对于短信号进行的分析。提取语音特殊参数的过程是时域和频域的分析,矢量的量化。语音信号是一种多分量,非线性,不平稳的信号,因此需要一种比较精确的时频表示方法。这就用到了两种基本假设,即人的发声是平稳的,发声系统是线性的。通过这两个基本的假设基本可以对于信号进行短时间的傅里叶变换和倒频谱分析,以及线性预测分析等。另外就是对于小波基的使用,在实现多分辨率的处理中发挥重要作用。LPPC是现在用的最广泛的一种倒频谱的方法。线性预测参数LPC是用于线性预测语音信号相邻信号值之间关系的,得到一组相关联的系数。对于一个语音信号进行矢量的量化,每一个语音信号都是由很多的帧构成,而每一个帧都类似于一个矢量。每个帧有k个矢量声道参数,即Xi=(a1,a2,a3....ak)则称Xi为一个k维度矢量。每个帧有K个矢量,N个有NK个。对一个矢量X进行量化,一个合适的失真测度是首先要做的,之后根据最小的失真原理,分别计算用量化矢量Yi替代X所带来的失真。矢量X的构成矢量就是由代替的最小失真值获得的。而Yi是指Xi的映射而来的k维度矢量。
  然后就是根据特征值和特征参数进行与模型库中的参数进行匹配,产生识别结果。模板匹配法和随机模型法最常用的方法。为了在图像检索中找到与模板图像相匹配的图像,在约定的某种标准下进行统一的筛选,这就是模板匹配。在语音信号中可以根据频谱这一特性进行鉴别,将不同的信号进行相应的匹配,这样就使匹配完整,我在思考如果进行多标准的匹配就可以增加匹配的正确率。
  最后就是跟程序识别的结果产生预定的动作,是我们所说找出对应的语音。在这个过程中我们可以将程序设计的更加简单,是输出的结果直接为人物的信息,比如身份证号码,姓名,性别等一系列的消息。
  通过这个语音识别系统我们可以在接到犯罪分子或者嫌疑人的电话的时候立即确定他的所有可查信息,另外在获得了语音信息之后同样可用。这样一来就大大提高了破案的效率,也体现的科技强警之路。各地公安可将系统联合,将资料共享,这样就能在最大范围实现联合效应,提高利用率。
  参考文献
  [1] 闫石,《数字电技术基础》,高等教育出版社,第十章,2010-12-1.
  [2] 冯军,《高频电子技术非线性部分》,高等教育出版社,第四章,2010-12-1.
  [3] 管致中,夏恭恪,孟桥《信号与线性系统》,高等教育出版社,P121-P500,2010-1-1.
转载注明来源:https://www.xzbu.com/1/view-6449938.htm