基于CNN的QTBT划分模式快速预测研究
来源:用户上传
作者:
摘 要为了降低编码复杂度,提升编码速度,快速编码算法成为当下研究热点,以此为背景提出基于CNN的编码单元快速选择算法框架,将QTBT编码单元选择问题转化为多分类问题,直接从编码单元中学习和提取分类特征,而不需要手动去设计和提取特征;也不需要时域和空域的相关性信息,有助于提高帧内编码的并行运算和独立解码性能。本方法还设计了一个目标函数,包括Hingeloss和类别惩罚项,能有效提高分类准确。
关键词快速编码;分类特征;帧内编码;目标函数
1 研究背景
视频编码技术是有效存储和传输多媒体信息的关键技术之一,是现代信息技术中不可或缺的重要组成部分。视频编码技术已有30多年的发展历史,视频编码标准的发展历程如图1所示。当前,视频技术的发展趋势之一是追求更高的分辨率和清晰度[1],以实现对自然景物更加真实、清晰的表征。例如,日本放送协会(NHK)一直致力于4K(3840×2160像素)甚至8K(7680×4320像素)超高清视频节目的压缩和传输技术研究。但是,超高分辨率带来了视频数据的急剧增加,使得视频数据的储存和传输变得十分困难[2]。当前最新的视频编码国际标准HEVC主要面向高清(720P,1080i,1080P)视频编码[3],对于当前超高清、高动态范围、360°VR等新兴视频编码需求已经有些力不从心。因此,下一代超高清视频编码技术的研究与标准制定已显得十分迫切。
为此,2015年10月,联合视频探索工作组(Joint Video Exploration Team,JVET)[4]在日内瓦召开了第一次会议,确定探索面向超高清视频的编码技术和下一代视频编码标准的制作工作;并成立了Ad Hoc小组,分领域搜集和审阅技术提案。JVET沿用了传统的预测+变换的混合编码框架[5],同时又创新性地引入了多项关键技术,如:四叉树+二叉树(Quadtree plus binary tree,QTBT)编码单元结构65种帧内角度预测模式,位置相关的帧内预测组合(Position dependent intra prediction combination,PDPC),4抽头插值滤波,交叉分量线性预测(Cross-component linear model,CCLM),改進的环路滤波等,显著提高了压缩效率。
图2展示了JVET相对于HEVC的率失真性能和编码复杂度对比情况。但是,当前JVET的编码效率距离BD-Rate降低50%的预期目标还有较大差距,且当前JVET编码效率的提升是以极高的计算复杂度为代价的。因此,JVET工作组当前的工作重点在于提高编码质量和降低编码复杂度等两大领域。
编码质量和计算复杂度之间的平衡是视频编码领域的核心技术。本研究将借鉴当前在计算视觉领域获得广泛成功的深度学习技术,重点研究提高JVET帧内预测编码效率,具有重要的学术价值、应用价值和社会效益。
2 国内外研究现状
从视频编码技术的发展历程来看,如何在复杂度和时延受限的条件下,获得最优率失真性能,是视频编码技术的核心问题。传统的快速编码研究主要是基于统计特征建模和基于机器学习特征分析的方法。例如,Shen等人探索了编码单元的RD Cost与空间相邻块的相关性,据此跳过使用概率低的划分模式的RD Cost计算。JVET-F0063提出跳过第二个BT子块的RD Cost计算,如果父块和第一个BT子块的RD Cost符合特定的约束条件。Zhang等人依据编码单元尺寸设计了三类SVM分类器,逐层判断是否需要把编码单元划分为子块。实验显示,这些算法都大幅降低了编码复杂度且保持了较好的率失真性能。但是这些算法的性能都依赖于手工设计的特征,对于复杂情况的处理能力相对较弱。
目前,基于深度学习的快速视频编码技术是快速编码领域的新兴研究方向之一。Liu等人首次将CNN引入到编码模式快速判决算法中,提出了一种基于深度学习的端到端的快速编码算法框架。该算法把每个编码单元下采样到统一尺寸的8*8矩阵,再送入CNN网络进行特征提取和分类判决,以确定当前编码单元是否需要进一步分割为子块。但是由于下采样和网络较浅等原因,该算法的BD-Rate损失高达4.79%。Li等人则为各个尺寸的编码单元都训练不同的CNN网络,各个QP下的网络模型也分开训练;再加上该算法采用了较深较宽的CNN网络,分类准确率有了提升,BD-Rate损失平均为2.12%。虽然该类基于深度学习的算法为视频快速编码研究打开新的视角,但是现有算法的应用灵活性较差,尤其是率失真性能损失太大。
3 基于CNN多分类的帧内编码单元快速选择方法研究
JVET采用了许多新技术用以提高帧内编码质量,其中影响最大的技术就是四叉树+二叉树(quad-tree plus binary-tree, QTBT)编码单元划分方法。相比于HEVC的HM16.9,JEM 5.0的帧内编码可以在同等质量下降低20%的码率。另一方面,编码单元的QTBT结构划分导致了编码复杂度的大幅增加,约增加523%[5]。因此,研究JVET的快速编码算法,尤其是帧内编码单元快速选择方法,是当前的一个研究热点。
在各种基于学习的快速编码算法中,分类器的分类准确率和鲁棒性对于编码性能有非常大的影响。深度学习系统相比于以往的机器学习算法,可以实现端到端的学习,无须再手动设计和提取分类特征。但是,深度学习系统的分类准确率受到分类类别、训练样本、网络结构、网络宽度和深度、训练的目标函数等因素的综合影响。所以,需要根据编码单元QTBT划分结构特性,从QTBT多分类类别设置、训练样本提取、网络结构和目标函数优化等方面,系统地研究基于CNN多分类的帧内编码单元快速选择算法。在基于CNN多分类的帧内编码单元快速选择方法研究中,我们将重点考虑解决以下几个问题:
3.1 研究QTBT多分类类别设置及其对分类性能的影响 JVET的編码单元采用四叉树+二叉树图的QTBT划分结构,如图3所示。编码单元的QTBT划分结构具有高度的灵活性和宽阔的尺寸跨度,再加之JVET有67帧内预测模式,这给快速编码算法的设计带来了挑战。
本课题将QTBT划分结构优化问题建模为多分类问题,依据32×32块中子块的最大划分深度设置分类类别,如公式(1)。
鉴于JVET帧内编码中BT最大划分尺寸为32×32像素[4],因此以32×32块作为分类基础,既可以覆盖所有的BT划分范围,也可以直接扩展以适应更大尺寸的QT划分。
3.2 训练样本的收集、制作、筛选,及其对分类性能的影响
本课题将通过默认参数设置的JVET帧内编码来收集训练样本。但是最佳QTBT划分结构是根据RD cost确定的,有些类别之间的差异非常小,这给分类训练带了困扰,甚至导致训练失败。鉴于此,本课题将研究确立分类类别之间的RD cost间隔及其对分类性能的影响,摒弃RD cost差异非常小的样本,如公式(2)。
3.3 深度学习网络的结构探索,网络结构计算复杂度和分类性能、编码性能的平衡
视频编码领域,编码单元的划分结构很大程度上受到量化参数QP的影响,它们之间呈现一种复杂的非线性关系。现有的基于机器学习的快速分类算法都是为不同的QP训练不同分类器,这限制了该类算法的实际应用。
本课题将构建一种CNN网络,使其能提取图像高层特征,并结合QP进行非线性分类,网络结构如图4所示。网络的前半部分是基于ResNets结构,主要功能是提取输入图像的高层特征用于后面的分类工作。网络的后半部分是基于MLP结构,主要功能是将QP与图像高层特征的非线性融合,以实现多分类预测。
3.4 深度学习目标函数的设计,及其对分类性能的影响
现有的深度学习分类器大多采用softmax算法结合cross-entropy损失函数来训练和优化网络参数。但是不同于Cifar、Imagenet等普通的自然物体分类,编码单元QTBT划分结构的错误分类预测将导致严重的编码率失真性能损失。
本课题将为QTBT多分类问题设计一个带有类别惩罚项的目标函数,拟采用L2正则化的Hingeloss结合一个类别惩罚项来优化网络训练,提高网络分类准确。
这里,‖H‖表示L2正则化的Hingeloss,用于探索QTBT类别之间的最大分类间隔;P表示错误分类预测的惩罚项,它反映了编码单元划分结构的率失真性能影响和本课题的类别设置特点,有利于提高网络的分类准确率。
4 结论
本项目提出基于CNN的编码单元快速选择算法框架,将QTBT编码单元选择问题转化为多分类问题,直接从编码单元中学习和提取分类特征,而不需要手动去设计和提取特征;也不需要时域和空域的相关性信息,有助于提高帧内编码的并行运算和独立解码性能。本方法还设计了一个目标函数,包括Hingeloss和类别惩罚项,能有效提高分类准确。针对4K以上超高清视频编码的迫切需求,本项目也可为基于深度学习的视频编码技术研究提供新思路和理论依据。
参考文献
[1]Y. Ye, Y. He, and X. Xiu, "Manipulating Ultra-High Definition Video Traffic," IEEE Multimedia, vol. 22, pp. 1-1, 2015.
[2]G. J. Sullivan, J. R. Ohm, W. J. Han, and T. Wiegand, "Overview of the High Efficiency Video Coding (HEVC) Standard," IEEE Transactions on Circuits & Systems for Video Technology, vol. 22, pp. 1649-1668, 2013.
[3]T. K. Tan, R. Weerakkody, M. Mrak, N. Ramzan, V. Baroncini, J. R. Ohm, et al., "Video Quality Evaluation Methodology and Verification Testing of HEVC Compression Performance," IEEE Transactions on Circuits & Systems for Video Technology, vol. 26, pp. 76-90, 2016.
[4]WG11, "Joint Group on Future Video Coding Technology Exploration (JVET)," MPEG 113th meeting, N15897, Oct. 2015.
[5]J. Chen, E. Alshina, and G. J. Sullivan, "Algorithm Description of Joint Exploration Test Model 1," JVET-A1001, 2015.
转载注明来源:https://www.xzbu.com/8/view-15230979.htm