基于感知重建技术的3D音频研究
来源:用户上传
作者:
摘 要:3D影视的成功应用激发了3D音频的应用需求。现有3D音频系统主要集中于提升声像方向感知性能,多声道编码技术主要提取表征方向信息的双耳线索而缺少距离线索导致在保证方向定位准确性。本文将重点探讨听觉距离线索感知特性和定位机理及其在3D音频编码中的应用。
关键词:感知重建;听觉距离;3D音频
DOI:10.16640/j.cnki.37-1222/t.2019.15.150
1 引言
1999年Brungart D S指出,在远场定位中基于强度的距离线索占主要作用,而近场情况下双耳线索比基于强度的距离线索更显著。2000年和2001年Shinn-Cunningham B G和Brungart D S的实验表明可能听者可能利用远距离不变量ITD来决定声源的侧向位置,然后利用ILD大小来估计距离。2011年Kop?o N的关于ILD与感知距离的实验结果表明不依赖于声源方向和声源频谱,不可能通过从ILD到距离的一个固定的映射来做出准确的距离判断。总的来说,ILD线索对近距离侧向声源的距离感知起重要作用。由于ILD在不同方向敏感性不同,不依赖于声源方向和声源频谱,不可能通过从ILD到距离的一个固定的映射来做出准确的距离判断,本文将基于这一原理展开对3D音频的研究。
2 三维声场听觉距离感知特性
2.1 听觉距离线索
不同环境下,人耳对于不同空间方位的声源的方向和距离的感知敏感性不同。人耳对前方声源的方位变化最敏感、定位准确性最高,但对正前方声源的距离的定位不如侧面准确。在混响情况下,人耳对声源方向的定位能力不如在消声室中,而相反地,人耳对声源距离的定位能力在混响情况下比消声室里更准确。这就是感知重建技术中最重要的线索——听觉距离线索。
2.2 听觉距离定位机理
研究表明,强度、直混比和ILD是主要的听觉距离线索。音源方向和频率会对听觉距离定位产生较大影响。对前方声源,左右耳DRR高度相关,尤其是低频部分。而对于侧方声源,近耳与远耳的DRR差异明显,尤其是在高频,近耳信号包含较多的直接声能量,而远耳信号更多的是反射后的混响信号。不同音源方向产生的ILD也存在较大差异,正前方ILD接近为零,不足以提供距离定位信息,但随着声音从正前方到侧面位置ILD达到最大值,能作为近场声源距离定位的重要线索。现有的双耳听觉距离定位模型中,并未区分不同音源方向和频率带来的双耳DRR差异,导致不同的方法所得出的结论存在差异,与人耳听觉距离定位特性不符。针对这一问题,本研究根据不同方向和不同频率对左右耳DRR和ILD产生的影响,基于主成分分析方法自适应的提取不同方向和頻率的主要环境声能量比来代替直混能量比,在得到的主成分分量上,分别投影计算左右耳声道信号的直混比,以及ILD作为距离定位特征,分析听觉距离定位机理。
3 三维声场听觉距离线索联合定位模型
3.1 定位模型
在实际听音环境中,人耳会结合音源特性、听音环境和先验知识,综合利用多种听觉线索对声源距离进行定位,声源类型、声源在3D声场中的不同方位和声源的频率成分都会对距离线索产生影响,使得在不同的听音环境下距离线索具有不同的作用权重。本文针对强度、直混比和ILD这三个主要的听觉距离线索,建立听觉距离联合定位模型。该模型对于探索人耳如何利用听觉线索进行距离定位的机理可提供实验借鉴。
3.2 声场编码
现有的空间音频编码方案主要提取表征声源方向的双耳线索用于指导编码和量化,并不足以准确地表示包括距离在内的所有的空间位置信息,方向定位的精准反而会降低距离的辨识度。因此,根据人耳对空间声像中方位和距离的感知特性和机理,将听觉距离定位模型引入到现有的多声道编码技术中,指导声像方向和距离的编码与重建,将能解决当前三维音频编码的性能瓶颈。
4 结论
传统多声道编码技术主要提取表征声源方向的双耳线索ILD、ITD和IC用于指导编码和量化,并不足以准确地表示包括距离在内的所有的空间位置信息,方向定位的精准反而会降低距离的辨识度。因此,如何根据人耳对空间声像中方位和距离的感知特性和机理,提取声源的方向线索和距离线索,指导编码和重建,同时保证重建声像的方向感知和距离感知,提供真正的3D音频听觉体验,将成为3D音频编码研究中的重要内容。
参考文献:
[1]殷福亮,汪林,陈喆.三维音频技术综述[J].通信学报,2011,32(02):130-138.
[2]林志斌,徐柏龄.基于球麦克风阵列的三维空间多声源定位[J].南京大学学报(自然科学版),2006,42(04):384-394.
[3]汤永清,黄青华,方勇等.基于球傅里叶变换的声源三维空间定位[J].信号处理,2010,26(05):654-658.
[4]汤永清.空间听觉特征提取与3D音频再现研究[D].上海大学,2011.
[5]Lu Y C,Cooke M.Binaural estimation of sound source distancevia the direct-to-reverberant energy ratio for static and moving sources[J].Audio,Speech,and Language Processing,IEEE Transactions on,2010,18(07):1793-1805.
[6]Strutt,J.W.On our Perception of Sound Direction [Z].in PhilosophicalMagazine,1907,13:214-232.
基金项目:2018年湖北省教育厅科研计划指导性项目《基于听觉距离线索感知编码的3D音频研究》,项目编号:B2018290。
作者简介:李念(1983-),女,湖北仙桃人,硕士,副教授,研究方向:多媒体技术。
转载注明来源:https://www.xzbu.com/1/view-14707980.htm