深度学习在语音情感识别中的应用与分析
来源:用户上传
作者:
摘 要 近年来,随着信息技术的飞速发展,智能设备正在逐渐地融入到人们的日常生活当中,语音作为人机交互的最为便捷的方式之一,得到了广泛的应用。让机器听懂人类语言的同时,如何实现与人类有感情的自然交流,是无数科研工作者的目标。语音情感识别的主要内容就是建立一种能够从语音中分析和识别人类情感的计算系统,实现人与机器的人性化交流。深度学习作为人工智能的核心技术,在图像识别、目标检测和自然语言处理等领域发挥着举足轻重的作用,取得了十分瞩目的研究成果。文章简要地分析了语言情感识别系统的核心技术,并结合深度学习技术进行了研究,最后总结了语音情感识别的应用场景。
关键词 人机交互;人工智能;语音情感识别;深度学习
中图分类号 TP3 文献标识码 A 文章编号 1674-6708(2019)229-0147-02
语言信息是多种信息的混合载体,其中包括内容信息、说话人信息和情感信息。目前基于内容信息的语音识别技术逐渐成熟并走向商用,由于缺乏情感的技术检测,大多数语音助手和智能设备都被用户反应交流时过于呆板。因此若要真正实现与人类的自然交流,语音情感识别必不?可少。
现阶段语音情感识别技术的实现存在着诸多难题,主要包含3个方面。首先缺少通用的数据库,其中可根据语音数据是否贴近人类真实情感表达分为自然型,模仿型和诱发型[ 1 ],而自然型数据的获得成本非常高;其次,能够有效区分不同情感类别的特征还没有统一和明确的定义;最后,系统模型和识别算法性能不佳。深度学习能够通过多层的非线性映射,能够有效的拟合任意复杂的函数变换。因此,利用其技术强大的变换能力可以提取语音中情感信息更高级的特征,并建立更好的动态?模型。
1 语音情感识别
语音情感识别的主要任务是将蕴含在语音中的情感信息提取出来并识别出其类别。目前对于情感的描述主要有两种方法。第一种是基于离散的情感划分,将人类日常生活中广泛使用的基本情感分为愤怒、开心、兴奋、悲伤、厌恶等;另一种是基于连续维度情感划分,主要通过不同的效价度和激活程度来对不同情感进行区?分的。
语音情感识别本质上属于模式识别任务的一种,系统主要包含3个部分,分别是预处理、特征提取和情感分类与匹配。
1.1 预处理
预处理主要包括预加重、加窗分帧和端点检测3个部分。预加重是将语音信号通过一个一阶高通数字滤波器,去除口舌辐射,进一步提高语音的高频分辨率;加窗分帧是从发声器官的惯性出发,利用语音信号的短时平稳假设,使用汉明窗或者矩形窗将语音划分成帧,同时为了保证帧间平滑,通常使得相邻帧之间部分重叠,一般取帧长为20ms,帧移10ms;端点检测是一种能够有效去除语音信号的静音部分,检测出有效的语音片段,从而提高计算效率的方法,也叫静音切除?技术。
1.2 特征提取
特征提取是语音情感识别问题的重难点,好的特征能够在有效区分不同类别的同时,对类间差异具有较好的鲁棒性。目前常用的情感特征主要有韵律学特征、谱特征和音质特?征等[2]。
韵律学特征是领域内基于人类语音学知识提取的最为主要的特征之一[3],主要包括基音频率、过零率、短时能量和共振峰等。这些韵律特征的变化构成了语音中不同的情感,能够有效的表征语调的变化和发音强度。如当一个人愤怒时,他的语气会不自觉的加重,音量升高,能量增加,音调高昂,语速加快;而当悲伤时则语气轻柔,音量降低,音调低沉,语速变慢等。目前韵律特征对情感的区分能力得到了学术界的一致?认可。
谱特征从人耳的构造和声音处理机制出发,利用三角梅尔滤波器组来模拟人耳基底膜对不同频率信号分辨率不同的特性。生理学家通过研究表明,人耳听觉范围为20Hz~20kHz,且对低频信号的感知分辨率较高,高频信号的感知分辨率则较低,由此得到的梅尔倒谱系数也成为语音信号处理领域的普适性特征,并得到了广泛的应用[4]。其他常用的还有线性预测倒谱系数,对数功率谱系?数等。
音质特征是指人在不同情感状态下语谱和音色方面的特征,谐波噪声比是目前常用的一种。人类说话时首先是通过声带的震动,再通过口腔,鼻腔,最后发出音波。随着情绪的波动变化,人在说话的过程中会不由自主地产生不同的音波形式,从而使音质也产生了差异。
1.3 分类模型
语音情感识别的目标是依据不同情感的特征将其划分为不同类别,属于机器学习中典型的分类问题。目前被广泛使用到的模式方法有:高斯混合模型、支持向量机、循环神经网络和隐马尔可夫模型[5]等。高斯混合模型对语音情感数据的拟合性能高,但对训练数据的依据性强,且计算比较复杂;支持向量机仅基于样本数据的少部分,便可获得良好的分类结果,得到了廣泛?应用。
从语音的时间连续性来看,动态时间建模的隐马尔科夫模型能够较好的模拟语音信号的时间变化特性,通过与高斯混合模型结合,在深度学习大热之前一直占据主要地位。目前较为常用的是基于循环神经网络的序列模型,其结合卷积神经网络提取的高层特征,能够显著提高识?别率。
2 基于深度学习的语音情感识别的关键应用
深度学习的本质是多层感知机,通过采用多个神经元进行多层叠加,构成深度神经网络。这种多层的复杂结构使得网络能够进行多层嵌套的非线性变换运算,随着层数的增加,逐渐学习到输入数据更加高级的特征表示,因此深度学习也可以被认为是利用深层的神经网络来进行高级特征提取的?过程。
2.1 基于CNN的高级特征提取
语音情感识别常用特征包括韵律学特征和谱特征,其中韵律特征是在时间域上进行的特征提取,谱特征则采用离散傅里叶变换将时间域转化为频率域,并进一步生成语音信号的频域表示——语谱图,进一步的利用深度神经网络来处理语谱图进行高维的特征提取。目前常用的方法是基于人类视觉处理机制提出的卷积神经网络,该网络通过参数共享的策略,能够有效的减少网络参数,使得网络的收敛和训练更高效。 卷积神经网络的构建主要有两部分构成。第一层是卷积层,通常采用尺寸为3*3或者5*5的多个卷积核来对原始语谱图的局部特征进行加权求和,这样的操作使得网络能够对图中不同位置出现的相同部分进行特征提取,尤其是当不同的说话人表达相同的情感时,网络能够有效的提取出相对不变的情感特征。第二层是池化层,通常采用最大池化或平均池化两种策略。在选定的尺寸之内由其中的最大值或者平均值来代替本区域的输出,能够在有效的降低维度的同时提高特征的鲁?棒性。
2.2 基于RNN的序列建模
语音信号是一种时间的连续信号,基于声带震动的惯性引出的短时平稳特性,通常采用汉明窗函数把其分割成20ms帧序列,由于人类平均说话时长远大于20ms,所以要建立能够捕捉和表征每帧之间的相关性网络。传统的隐马尔科夫模型在海量数据下处理能力有限,而循环神经网络的输入除了包含待处理的数据之外,引入网络对上一时刻信号处理之后的隐藏层输出。这种做法通过引入了网络本身上一时刻的“记忆”,使得网络能够结合上下文信息,即帧间相关性进行有效的训练和学习。记忆单元的引入使得其非常善于处理上下文相关的序列问题。由于在训练的过程中,网路随着时间的增加逐渐延长,训练时容易产生梯度消息和梯度爆炸的现象,实际应用通常采用其变体长短时记忆网络和逻辑门控?单元。
3 应用场景
3.1 航天员心理疏导
在未来长期的载人航天任务中,宇航员可能会因为船舱空间狭小、交流对象较为单一和长期失重等因素,进而引发心理问题并导致工作任务无法高质量的完成。因此,通过设计能够有效检测宇航员的情绪变化的系统,能够在观测到潜在的负面情绪时,通过集成的专业心理疏导设备来及时的进行心理干预。
3.2 人性化電话服务
在远程电话服务中加入语音情感识别,可以根据客户情绪的变化及时的提供更加符合客户需求的服务,使自动客服变得更加人性化,提升用户的体验感和舒适感。此外,在人工服务时,如若话务员遇到态度恶劣的客户而被投诉时,通过系统记录的双方情感状态,来进行审查,进一步也可为员工考核提供技术支持。
3.3 优化远程教育
线上教育已然成为未来教育行业的新兴模式之一,但是由于远程教学时授课老师可能无法及时发现学生的情感变化,有可能导致上课效率下降。通过情感识别技术能够实时对学生的状态进行分析,辅助和提醒授课老师,酌情调整授课方式和内容并适当休息。
3.4 治愈空巢老人
目前大多数的老人身边都缺少儿女的陪伴,具有情感识别能力的机器人能够在他们感到孤独和悲伤的时候,结合心理疏导技术与其进行沟通,使其得到适当的精神慰藉。也可在老人思念儿女的时候自动发送信息到他们的手机上,进一步预防老年人心理疾病的发生。
4 结论
语音情感识别作为一项具有广阔发展前景的领域,虽然经过了几十年的不断发展,但是由于情感表达的本身具有极强的个性化特征,所以导致情感强度相似的情感语音仍然难以辨别。文中简要地分析了语音情感识别系统的框架如预处理、特征提取、模型建立等,并根据目前存在的问题结合深度学习,探讨了目前主流的技术路线,最后简要地总结了语音情感识别的应用?场景。
参考文献
[1]赵力,黄程韦.实用语音情感识别中的若干关键技术[J].数据采集与处理,2014,29(2):157-170.
[2]韩文静,李海峰,阮华斌,等.语音情感识别研究进展综述[J].软件学报,2014,25(1):37-50.
[3]赵力,将春辉,邹采荣,等.语音信号中的情感特征分析和识别的研究[J].电子学报,2004,32(4):606-609.
[4]韩一,王国胤,杨勇.基于MFCC的语音情感识别[J].重庆邮电大学学报(自然科学版),2008,20(5):597-602.
[5]黄程韦,赵艳,金赞,等.实用语音情感的特征分析与识别的研究[J].电子与信息学报,2011,33(1):112-116.
转载注明来源:https://www.xzbu.com/8/view-15168255.htm