影视动画配音节奏特征自动提取系统设计

> 中国论文网 >
科技论文 >
影视动画配音节奏特征自动提取系统设计

影视动画配音节奏特征自动提取系统设计

来源:用户上传作者:

　　摘要：配音節奏特征对于影视动画人物理解与情绪表达尤为重要，基于此，设计影视动画配音节奏特征的自动提取系统。配音采集模块采用TLV320AIC23音频接口芯片，该芯片内部集成A/D和D/A转换器，可对采集的影视动画配音音频进行模数转换，将获取的模拟信号传输至节奏特征提取模块。节奏特征提取模块以TMS320VC5509 DSP芯片为核心，采用优化后的哈佛结构，利用配音节奏特征提取算法提取影视动画配音节奏特征。配音节奏特征提取算法中，通过快速傅里叶变换确定复数域信息，确定发音点检测信号，以及各帧发音点检测信号函数的自相关函数。基于上下文的节拍周期推导算法推导配音片段节拍周期。基于发音点检测信号函数，通过HMM模型可推算节拍出现的详细时间点并进行节拍跟踪，确定节拍速度特征。实验结果显示，所设计系统可准确划分影视动画配音情绪类型，且能耗较低。
　　关键词：影视动画; 配音采集; 节奏特征提取; 发音点检测; 系统设计; 节拍跟踪
　　中图分类号： TN911.23?34; TP391 文献标识码： A 文章编号： 1004?373X（2020）18?0059?05
　　Abstract： The dubbing rhythm features are particularly important for the understanding and emotional expression of the characters in the film and television animation. Based on this， an automatic extraction system for the dubbing rhythm features of film and television animation is designed. TLV320AIC23 audio interface chip is used in the dubbing acquisition module， and A/D converter and D/A converter is internally integrated in the chip， which can execute the analog?to?digital conversion of the collected dubbing audio of the film and television animation， and transmit the obtained analog signal to the rhythm feature extraction module. The rhythm feature extraction module takes TMS320VC5509 DSP chip as its core， adopts the optimized Harvard structure， and extracts the dubbing rhythm features of the film and television animation by means of the dubbing rhythm feature extraction algorithm. In the algorithm of dubbing rhythm feature extraction， the complex number field information is determined by the fast Fourier transform， so as to confirm the detection signal of the pronunciation point and make sure the autocorrelation function of the pronunciation point detection signal function of each frame. The beat cycle of the dubbing segment is deduced according to the contextual beat cycle derivation algorithm. According to the function of pronunciation point detection signal， the detailed time points where the beat appears can be deduced with HMM model to track the beats and determine the beat speed features. The experimental results show that the designed system can accurately classify the dubbing emotion types of film and television animation， and has low energy consumption.
　　Keywords： film and television animation; dubbing acquisition; rhythm feature extraction; articulation point detection; system design; beat tracking 　　0 引言
　　信息与多媒体技术的发展使影视动画成为现代娱乐生活的主要形式。影视动画内声音与画面并非同时出现，通常通过音响模拟出适合的声音效果和满足实际的场景效果。影视动画中配音包括角色配音、音效与背景音乐。影视动画中背景音乐与动画内容联系紧密[1]，起到丰富、烘托画面内容，提升感染力、抒发情感，增强视听感受的作用。人物是影视动画的灵魂，动画角色的配音与人物的话语具有相同的功能，不同性别、不同年龄、不同个性的角色其声音的音质、音色以及语速均有所差异[2]。
　　节奏是有声语言运动的一种形式[3]，配音节奏控制是影视动画角色把握人物形象特点与性格特征、抒发角色内心情感的主要方式，同时也是影视动画增添内容趣味、渲染故事情节、突出事件特征的主要方式。由此可知，节奏控制对于影视动画配音尤为重要，把握节奏特征是节奏控制的基础[4]。基于此，设计基于影视动画配音节奏特征自动提取系统，利用BPM配音节奏特征提取算法提取节奏特征，准确分析影视动画配音内容的情感表达。
　　1 影视动画配音节奏特征自动提取系统
　　1.1 系统整体结构设计
　　影视动画配音节奏特征自动提取系统包含配音采集模块、节奏特征提取模块、RAM、FPGA及外部存储器等。系统硬件结构如图1所示。
　　配音采集模块采用高性能立体声音频编解码器TLV320AIC23单片音频接口芯片，该芯片内部集成A/D和D/A转换器[5]，转换器采用过采样数字插补滤波的多位Sigma?Delta技术完成模数转换。转换后模拟信号发送到DSP芯片内进行节奏特征提取、压缩编码、HMM（隐马尔可夫模型）识别[6]。数据流程与液晶显示通过FPGA控制。ROM，RAM和FLASH模块的功能分别为存放DSP程序与初始化数据、程序执行与数据暂存以及训练样本库存储。
　　1.2 配音采集模块
　　配音采集模块结构如图2所示。配音采集模块的控制协议与数据传输协议分别为SPI总线和I2S总线[7]，SPI总线连接MAXⅡ EMP240可编程逻辑与AIC23单片音频接口芯片，利用I2S总线进行数据传输。各AIC23芯片无需单独控制[8]，通过一路SPI总线进行连接，降低EMP240内寄存器使用量。各AIC23芯片采集的配音信息相对独立，使用I2S总线需单独转换。
　　TLV320AIC23单片音频接口芯片数据传输字长包括16位、24位和32位，可满足6～98 kHz之间的采样频率。EPM240采用具有非易失性的CPLD架构，将传统可编程逻辑成本与功耗分别降低50%和90%，而密度和性能则提升400%和200%。EPM240的具体作用是提供一种解决方案来确保2种总线协议转换过程中成本最低。在配音采集模块中AIC23芯片的具体作用为数据转换，利用A/D转换器将4路配音信号转换为数字信号，经由数据传输协议传输至EPM240内，利用其串并协议转换，将各AIC23芯片的串行数据转换为并行数据，供MCU读取处理。处理后的数据被EPM240转换为I2S协议数据，返回至AIC23芯片内，利用D/A转换器转为模拟量信号，传输至节奏特征提取模块内。
　　1.3 节奏特征提取模块
　　TMS320VC5509 DSP芯片作为节奏特征提取模块的中心，基于配音采集模块转换传输的模拟信号，完成影视动画配音节奏特征提取。TMS320VC5509 DSP芯片以优化后的哈佛结构为支撑[9]，内含16位定点，供电电压、片内RAM和ROM分别为3.5 V、64 KB和6 KB，具有管理结束、不间断运算以及功能调用等特性，功耗较低。该芯片内还设置了时分复用串口和带缓冲区的标准串口[10]，数量分别为1个和2个。该芯片指令周期设定为10 ns，也就是芯片运算速度卡达到100 MIPS。图3为TMS320VC5509 DSP芯片与TLV320AIC23单片音频接口芯片的连接示意图。
　　1.4 配音节奏特征提取算法
　　在DSP芯片内设计配音节奏特征提取算法并提取影视动画配音节奏特征。配音节奏特征的提取可理解为节拍速度相关特征的提取[11]，单位为BPM。通过确定配音音频发音点可获取其自相关函数，由此计算获取节拍周期，基于节拍周期计算BPM值。
　　1.4.1 音符发音点检测
　　检测音符发音点时采用能量与相位相结合的方法，即通过快速傅里叶变换确定复数域信息[12]，公式为：
　　式中： [Ekm]和[wjεkm]分别为前一帧的振幅和能量;[m]和[εkm]分别为帧的编号和相位变化。[εkm]根据前一帧与更前一帧的相位差获取，公式如下：
　　式中，[ξk]和[princarg]分別为相位值和将[ξk]映射至[-π，π]范围内。通过下式描述第[k]个频率段的实际复数域值确定过程：
　　式中：[Ekm]为快速傅里叶变换后当前帧的振幅;[wjξkm]为快速傅里叶变换后当前帧的相位。用式（4）描述各帧特征：
　　利用式（4）获取影视动画配音音频全部帧的特征后将其归一化，以此获取音符发音点检测信号，其具有时间上连续的特征。
　　1.4.2 节拍周期推导
　　连续性与周期性是影视动画配音节奏的主要特性[13]，基于此，可利用发音点检测信号，采用基于上下文的节拍周期推导算法推导影视动画配音片段节拍周期。
　　确定各帧发音点检测信号函数的自相关函数，通过数据预处理可获取更清晰的自相关函数。设定自适应移动均值门限：
　　设定滑动窗口尺寸为16个点，计算检测信号函数各点与相对门限差值，同时以半波整流形式输出，表达式如下：
　　利用式（7）计算预处理后信号的自相关函数：　　式中：[i=1，2，…，N]为单帧点数，[N]为帧长。用[δi]表示自相关域内任意点，利用式（8）将其映射至节拍速度上：
　　确定各帧自相关函数后，对其实施加权处理。由于各代表节拍周期的点权值一致将导致节拍周期存在过量自由度，造成输出结果有所差异[14]，因此采用基于瑞利分布的函数进行加权，表达式如下：
　　式中：[i]和[c]分别为节拍周期的各点和权值最大的点数，通常分别取值[1，128]和45。
　　利用式（8）可得权值最大的第45个点，其BPM大致为104。利用式（9）准确描述代表节拍周期的点与配音音频节奏周期的对应关系。由节拍的连续性可知，相邻两帧数组的节拍速度具有相关性[15]。推导各帧音频节拍周期过程中需考虑此相关性。用[tc]表示当前帧的节拍速度，可基于上一帧推导的节拍速度[tc-1]推导[tc]。
　　构建以标准差的高斯分布P作为状态转移矩阵各列的HMM模型，得到状态转移矩阵表达式：
　　式中，[ti]和[tj]为状态转移范围，取值[0，127]。以瑞利分布为初始概率分布，配音音频各帧的自相关函数作为观测序列，通过维特比算法求解。以前一帧状态概率向量与相对的状态转移矩阵向量间乘积的最大值作为当前帧状态概率向量，表达式如下：
　　将当前帧状态概率向量与对应點的自相关函数相乘，得到当前帧速度为状态概率向量：
　　当前帧速度为状态概率向量最大值的索引可用式（13）来描述：
　　利用式（13）将点数映射至节拍周期。
　　1.4.3 节拍追踪
　　基于发音点检测信号函数，通过HMM模型可推算节拍出现的详细时间点。节拍追踪过程中需赋予发音点检测信号函数各点一个状态，用[ε]表示，描述此点与上一节拍点间的距离，单位为点数。举例说明：节拍点为第[t]个点，其状态[εt]为0，则下一个节拍点的状态值[εt-1]为1。各状态生成一个观测[L]，音符发音点检测信号为观测序列。通过上述过程可显著提升节拍周期与BPM推算的精度。
　　2 实验分析
　　为了验证本文设计的影视动画配音节奏特征自动提取系统的实用性，分别在《哪吒之魔童降世》和《名侦探柯南》2部影视动画中选取惊恐、兴奋、轻松、难过4种情绪的影视动画配音片段，每种情绪各100段。采用本文系统提取400段影视动画配音片段的节奏特征，获取不同情绪配音的BPM分布直方图，描述不同情绪配音的差异。不同情绪配音节奏特性分布直方图如图4所示。
　　由图4得到，不同情绪的配音片段中惊恐与兴奋的BPM峰值较高，说明在影视动画中出现令人惊恐与兴奋的片段时，其配音节奏特征较为显著，易被提取。在惊恐与兴奋的情绪片段中，音效与背景音乐制作中多采用打击类乐器。对比之下，轻松与难过的情绪片段的BPM峰值较低，说明在此类片段中配音节奏特征不明显，不易被提取。对于此类片段，管弦类乐器使用较多。
　　分别采用本文系统、基于频谱能量分布的配音特征提取系统和基于语调相关基频的特征提取系统对所选的400段配音片段进行情绪分类，得到的结果如表1～表3所示。
　　根据表1～表3中情绪分类统计结果，确定3个不同系统情绪分类结果的准确率、召回率以及F1值，结果如图5所示。根据表1～表3和图5中的情绪分类结果能够得到，本文系统提取影视动画配音节奏特征进行情绪分类，准确率、召回率以及F1值均高于基于频谱能量分布的配音特征提取系统和基于语调相关基频的特征提取系统。基于语调相关基频的系统对于惊恐与兴奋情绪的分类效果优于基于频谱能量分布的系统，说明该系统对于BPM峰值较高的配音分类效果较好。本文系统对于4种情绪的分类检测指标变化差异较为平缓，对于BPM峰值较低的轻松与难过情绪配音分类效果也较好，说明本文系统能够准确地提取影视动画节奏特征，利于影视动画配音情绪分类。对比3个系统提取影视动画配音特征过程中的资源占用率，测试本文系统的能耗，结果如表4所示。
　　由表4得到，本文系统的CPU占用率和内存占用率在3个系统中最低，分别是3.32%和1.25%，说明本文系统提取影视动画配音节奏特征时，能耗较低。
　　3 结论
　　本文设计影视动画配音节奏特征自动提取系统，在DSP芯片内设计配音节奏特征提取算法，融合发音点检测算法、节拍周期推导算法和节拍追踪算法，并进行优化，通过BPM体现影视动画配音节奏特征。将本文系统应用于影视动画片配音情绪的分类中，与对比系统相比，该系统具有显著优越性。
　　参考文献
　　[1] 李响，李国正，石俊刚，等.基于语音心理声学分析的驾驶疲劳检测[J].仪器仪表学报，2018，39（10）：166?175.
　　[2] 胡婷婷，冯亚琴，沈凌洁，等.基于注意力机制的LSTM语音情感主要特征选择[J].声学技术，2019，38（4）：414?421.
　　[3] 张兴俭，袁乐平，赵嶷飞.疲劳及紧张状态管制员通话语音反应特征研究[J].中国安全科学学报，2018，28（6）：37?42.
　　[4] 王金华，应娜，朱辰都，等.基于语谱图提取深度空间注意特征的语音情感识别算法[J].电信科学，2019，35（7）：100?108.
　　[5] ZHENG Shuhe， LIN Changshan， YE Dapeng， et al. Structural optimization of grooved?roller seed metering device for Pennisetum and simulation and experiment of seed metering dynamics [J]. Transactions of the Chinese society of agricultural engineering， 2017， 33（21）： 36?43.
　　[6] 张涛，任相赢，刘阳，等.基于自编码特征的语音增强声学特征提取[J].计算机科学与探索，2019，13（8）：1341?1350.
　　[7] 许良凤，刘泳海，胡敏，等.语谱图改进完全局部二值模式的语音情感识别[J].电子测量与仪器学报，2018，32（5）：25?32.
　　[8] 成帅，张海剑，孙洪.结合时变滤波和时频掩码的语音增强方法[J].信号处理，2019，35（4）：601?608.
　　[9] 蒋梅笑，章光，徐卫青，等.基于三维激光扫描点云的边界特征自动提取算法[J].武汉理工大学学报，2017，39（6）：68?72.
　　[10] 侯一民，李永平.基于卷积神经网络的孤立词语音识别[J].计算机工程与设计，2019，40（6）：1751?1756.
　　[11] 范开宇，王革丽，李超，等.利用慢特征分析法提取二维非平稳系统中的外强迫特征[J].气候与环境研究，2018，23（3）：287?298.
　　[12] 后方帅，黎美琪，刘若伦.利用谐波显著度和语者音色特征的混合语音中目标人基频轨迹提取[J].声学技术，2019，38（4）：408?413.
　　[13] STEPHANIE A B， KAITLIN L L， TYSON S B. Rhythm perception and its role in perception and learning of dysrhythmic speech [J]. Journal of speech language & hearing research， 2017， 60（3）： 561?570.
　　[14] 周健，窦云峰，刘荣敏，等.采用低维特征映射的耳语音向正常音转换[J].声学学报，2018，43（5）：855?863.
　　[15] 姜芃旭，傅洪亮，陶华伟，等.一种基于卷积神经网络特征表征的语音情感识别方法[J].电子器件，2019，42（4）：998?1001.
转载注明来源:https://www.xzbu.com/8/view-15309659.htm

查看更多→

影视动画配音节奏特征自动提取系统设计

相关文章