您好, 访客   登录/注册

浅析家庭智能音箱中的语音识别技术

来源:用户上传      作者:

  摘 要 随着人们对于居家生活质量要求的逐渐提高,各种智能家居产品走进了人们的生活,其中智能音箱就是最为典型的一种。智能音箱的核心技术是语音识别技术,语义识别技术的目的是模拟人与人之间对话,使机器通过逻辑运算理解自然语言。文章以家庭智能音箱中语音识别技术为主要内容,简析语音识别中重要的流程和技术,叙述了语音识别目前的缺陷和改进方向。
  关键词 智能音箱;语音识别;自然语言
  中图分类号 TP3 文献标识码 A 文章编号 1674-6708(2019)229-0123-02
  1 智能音箱介绍
  1.1智能音箱
  智能音箱是现代科技产物,是基于语音识别技术的音箱的衍生物。智能音箱在家庭用途十分广泛,涉及生活许多方面,可以说智能音箱已经进入日常生活。智能音箱有多种功能,基本满足了人们日常生活服务。目前的家庭智能音箱可以实现设置闹钟,点播音乐等功能,链接网络后可实现了解未来天气、上网购物、打电话等功能,另外可以连接第三方软件,也可实现对家用智能电器的控制,而智能服务仅需说一句话即可实现叫外卖、叫服务、打车、订餐等多种功能。对于不同年龄段的人,智能音箱也可以通过设置不同模式来实现较为人性化的回答,例如,小度智能音箱中儿童模式下语气会更加亲切,让儿童更有亲?切感。
  1.2典型智能音箱
  目前大多数互联网企业都有推出自己的智能音箱,这使得智能音箱市场越来越大,竞争越来越激烈。现在的智能音箱在外观上并无太大区别,所以用户更加注重的是智能音箱本身性能。智能音箱的性能主要从他的语言交互能力,反应速度,准确度来体现。以下是对现在比较火热的智能音箱的测评(表1)。
  为了实现智能音箱的多种功能,智能往往需要多种技术。当用户发出的一段语言信号时,智能音箱首先要去接受该信号,这里运用了麦克风列阵技术,一般的音箱内置7~8个麦克风,这使得智能音箱能够从多个方向正确的接收语音信号以及消除回音和杂音带来的影响,得到语音信号后需要对信号加工处理使机器“理解”自然语言,则用到自然语言处理和语言识别技术。最后智能音箱所计算出的结果需要重新合成语音信号,这用到了语音合成技术。在这众多技术中,最核心就是语音识别?技术[ 1 ]。
  2 语音识别技术流程
  智能音箱中语音识别技术十分复杂,它综合了心理学,语言学,统计学等多门学科,若要研究语音识别技术,需要从语音识别技术中各个重要步骤入手,这里主要研究其预处理、特征提取、训练识别3部分,如图1所示。
  2.1 预处理
  一段语音信号往往伴随着环境杂音,这杂音对语音识別影响巨大。因此首先要去除这些环境杂音。一段语音信号的频率基本稳定在一个区间内,通过抗混叠滤波将信号频谱上的杂音区段与目标语音信号区别来并获得目标信号,同时完成模拟信号向数字信号的转变。
  另外,由于语音信号中的目标信号功率小,而杂音的功率大,杂音占了输入的大部分区域。由此,对目标信号进行预加重处理来提高目标信号的能量。根本上说是提高振幅,方便区分?杂音。
  端点检测也是预处理中重要的一部分。环境杂音任何时候都存在,而语音信号只存在一段,端点检测旨在确定语音信号的起始位置,避免非语音时段噪音混入。短时平均幅度与短时平均过零率是两种端点检测常用方法。
  另外,目前语音识别软件分为两种模式,一种是手动截取语音,例如苹果手机中的Siri,用户需按住特定按键完成语音信号的采集。另一种是自动截取语音,市场大多数智能音箱都采取这种模式,但精度相对较差,一般都是用户输入特定的语音信号后才开始语音采集,例如使用小爱同学时,命令格式是“小爱同学+你提出的问题”总体上讲,预处理部分的目的是消除杂音,为后面计算机理解自然语言奠定基础[2]。
  2.2 特征提取
  采集到语音信号后做的第一个步骤就是特征提取,它将一段语音信号分为多个区段,并将其中含有实际意义的特征参数提取出来,并加以统计。这一段特征提取就可以代表这一段信号了,因为舍去不必要的区段,特征提取也是一种数据压缩,这一定程度上可以简化之后的计算。特征提取是建立在隐马尔科夫模型上,该模型中含有不可见的未知参数,特征提取中这些未知参数指信号中所含有的语义,但语义很大影响语音信号,所以通过语音信号的变化逆向推测不可见的语义并非不?可能。
  2.3 训练及识别
  目前智能音箱中语音识别精度高,但这是依靠大量数据与训练才完成的。训练识别网络相当于训练计算机,而每一位用户都相当于一位训练师,大量的训练和统计后计算会得出令用户普遍满意的答案。这样,计算机无需真正理解自然语言也可以完成人与机器之间的正常交互。
  深度学习是训练识别网络中重要的一部分,它是人工智能自我学习的关键。深度学习一大特点就是多层次运算,多层次处理信息。深度学习中每一层所得到的结果将作为下一层的输入使用,这样就达到了“深度”的效果。但在实际运用中,这还需要对深度学习的层数进行把控,如果层数不足,人工智能自我学习效果会差,但层数过多会导致计算繁琐并且效率低下。深度学习在语音识别中主要是学习语音信号的特征,之后需要与训练识别网络的数据比较最后得出计算?结果。
  3 语音识别技术的未来
  3.1 现阶段缺陷
  虽然语音识别技术已广泛应用,但其还存在许多缺陷,主要为以下几点。   1)自然语言的不确定性。自然语言由语义,语境等组成。因此自然语言有很大的不确定性。现有的人工智能基本是自上而下的人工智能,也就是说程序员先制定好计算机理解语言的规则才理解自然语言。一旦程序员编程出现缺陷,那会导致计算机对自然语言的误解。虽然将所有语法规则写入程序中也许能让计算机理解语言但语法规则众多,将这些规则全部写入程序中几乎不可能?实现。
  另外,自然語言信息量大,在不同情景下,一个词语可能成褒义,可能是贬义,并且上下句对一个句子实际意义影响巨大,例如“帮忙下。”这句话省略了主语和宾语。但如果有前后句做铺垫,那这句话对人并不难理解。但是应用语音识别,那么机器将不能理解特殊句子,自然语言的不确定性很大阻碍了语音识别的?进步[3]。
  2)环境干扰。公共场合中的环境杂音和噪音对识别影响巨大,在这种环境中计算器很难接受到合适的语音信号,这很大地限制了语音识别的使用范围。
  3)读音不标准问题。现在的词汇数量逐渐增加,读音相似是正常的事,但机器很难区别这种读音。特别是一些字词会连带这上个字词读音,如果语速果快,计算机也很难识别[4]。
  3.2 改进方向
  综上所述,本文认为语音识别的重要改进方向如下。
  1)针对专一领域。自然语言十分复杂,因此想要建立全面的语音识别是十分困难,但通过研究发现,某些词汇在特定的领域出现频率十分之高,而且相对固定。所以通过建立某个专一领域建立语音识别系统是目前实用性和价值都相对较高的方法,最后将各个语音识别系统结合在一起,以建立相对完备的系统。
  2)动态语义分析。目前的语音识别仅仅特定的一句话进行分析,而无法联系用户前后之间的问题进行动态分析。未来的语音识别能在与用户问答过程中不同语境,实现新的分析,并预测语音信号中所含的语义。这样的改进可以使计算机从语言的接受方真正成为语言使用方,使人机之间的交流更加的?自然。
  4 结论
  现在的语言识别技术尚未完全,但以语音识别技术为核心的智能音箱是足够满足人们的需求的。各项技术的不断完善和人们对智能产品日益增长的需求为语音识别技术的发展指明了方向,由于市场扩大,各个企业势必会加快对于语音识别的竞争,从而加快语音识别技术的发展。在迭代更新中,智能音箱会更加注重用户的体验,成为家庭生活中必不可少的重要设备。
  参考文献
  [1]陈龙,江波.基于语音控制的WiFi智能插座系统[J].智慧工厂,2017(4):82-83.
  [2]加日拉·买买提热衣木,常芙蓉,刘晨,等.基于自然语言处理的主题模型及其发展分析[J].信息与电脑(理论版),2017(24):42-44.
  [3]殷杰,董佳蓉.论自然语言处理的发展趋势[J].自然辩证法研究,2008,24(3):31-37.
  [4]何婉榕.关于人工智能与语音识别技术的研究[J].科技尚品,2017(3):182.
转载注明来源:https://www.xzbu.com/8/view-15168892.htm