您好, 访客   登录/注册

基于神经网络的人体姿态估计方法研究

来源:用户上传      作者:

  摘 要:随着人工智能技术发展,人体姿态估计广泛应用于动作识别、人机交互和服装解析等领域,成为计算机视觉领域研究热点,其中基于神经网络的人体姿态估计方法倍受关注。结合人体姿态识别相关流程,论述人体检测、人体姿态估计和人体姿态优化等步骤,阐述相关步骤中的新算法,为后续研究提供参考。
  关键词:人体姿态估计;神经网络;人体检测;人体姿态优化
  DOI:10. 11907/rjdk. 201135
  中图分类号:TP301 文献标识码:A 文章编号:1672-7800(2020)010-0046-04
  Abstract:With the development of artificial intelligence technology, human pose estimation has become a research hotspot in the field of computer vision. Human pose estimation is widely used in the fields of motion recognition,human-computer interaction,and clothing analysis. In recent years,many new methods of human pose estimation based on neural networks have appeared. This paper studies the human pose estimation method based on neural network,and combines the related processes of human pose recognition to explain the steps of human body detection,human pose estimation and human pose optimization,and analyzes some new implementation algorithms in the relevant steps, which provides reference to follow-up related research.
  Key Words:human pose estimation;neural network;human detection;human pose optimization
  0 引言
  人體姿态估计方法最早应用于服装行业的虚拟试衣,大多为基于图像处理方法,一般步骤是先获取人的正面和侧面图像,经过图像处理提取人体外轮廓,从人体轮廓图像中识别关键尺寸点,然后经过统计分析与曲线拟合等建立人体维度曲线的函数模型,经过相关辅助工具测量后将完整的人体数据记录表导入人体体型数据库[1]。随着计算机视觉技术发展,人体姿态估计开始结合神经网络模型进行研究,使得人体姿态估计准确率与鲁棒性得到显著提升,应用范围得以拓展,已深入融入人们生活中。
  基于神经网络的人体姿态估计研究步骤:①对输入图像进行人体检测;②进行人体姿态估计;③采用合适的优化算法进行结果优化。如图1所示。
  1 人体检测
  人体检测是构建人体姿态估计神经网络的重要步骤,通常是用相关算法判断输入图像中是否有目标研究对象,如果有就在图片中标记出其具体位置,用边框或红色方框把目标对象圈起来。人体姿态估计研究首先需要进行人体检测,输入图片通过特定的人体检测器提取出人的边界框,常见的人体检测器有Mask R-CNN和SSD(Single Shot MultiBox Detector)。
  1.1 Mask R-CNN
  HE等[2]提出的Mask R-CNN为实例分割对象提供一个概念简单、灵活且通用的神经网络框架。该框架可有效检测图像中的对象,同时为每个实例生成高质量的分割蒙版,很适用于人体姿态估计。该框架由Faster R-CNN[3]改进而来,在Faster R-CNN基础上增加一个用于检测掩码的分支,同时用RoI Align代替原算法中的RoI Pooling以获得更好的定位效果[4]。通过添加一个分支预测每个关注区域(RoI)上的分割蒙版扩展Faster R-CNN,并与现有的分类与回归分支并行;韩孝天等[4]使用Mask R-CNN作为人体检测器,提出包含3个模块的多人姿态估计算法,提高多人姿态估计准确率。
  1.2 SSD
  SSD是LIU等[5]提出的一种使用单个深度神经网络检测图像对象的方法。SSD检测器将边界框输出空间离散化为不同纵横比的一组默认框,并按功能映射位置进行比例缩放。在PASCAL VOC、COCO和ILSVRC数据集上,SSD精度更高。SSD提供统一的框架进行训练和推理,其性能优于同类Faster R-CNN模型。SSD方法基于前馈卷积神经网络生成固定大小的边界框集合,并为这些框中实例对象打分,然后进行非最大抑制步骤生成最终的检测结果。SSD核心是使用小型卷积滤波器预测一组默认边界框的类别得分以及框偏移情况;黄铎等[6]使用SSD作为人体检测器,提出一种新的多人姿态检测算法,在准确率方面优于两步框架算法。
  2 人体姿态估计
  一般将人体姿态估计分为二维与三维估计两种。
  2.1 二维人体姿态估计
  根据二维人体姿态估计对象中人的数目多少分为单人姿态估计与多人姿态估计。
  2.1.1 单人姿态估计
  由于单人姿态估计目标只有单个对象,所以识别技术相对成熟,识别速度较快。TOSHEV等[7]最早基于神经网络提出DeepPose方法,该方法提出一个级联的类DNN回归量,能达到高精度估计效果。该方法优点是以整体方式对姿态进行估计,具有良好的泛化性能;TOMPSON等[8]提出一种新的混合体系结构,该体系结构由深层卷积神经网络与马尔可夫随机场组成,包括一个额外的“躯干联合热图”用来合并数据,以便在混乱的场景中选择正确的特征激活;YANG等[9]提出一种新的端到端人体姿态估计框架,将DCNN与零件的可表达变形混合在一起,采用DCNN将每个身体部位的热图回归,通过神经网络深度学习的结构化输出进一步模拟身体关节之间的关系。   WEI等[10]提出卷积姿态机(Convolutional Pose Machines,CPM),提供用于学习隐式空间模型的顺序预测框架;CARREIRA等[11]提出一种称为迭代误差反馈(IEF)的方法,该方法通过引入自上而下的反馈,将分层特征提取器的表达能力扩展到输入、输出空间;FAN等[12]提出双源深度卷积神经网络(DS-CNN),构建热图回归和关节点坐标定位两个并行网络模块,该神经网络为每个关节i构造一个热图Hi。DS-CNN可用于联合检测和联合定位。
  2.1.2 多人姿态估计
  由于多人姿态估计不能明确图像中人的具体位置和总人数,故比单人姿态估计实现困难得多。通常可通过两种方法实现多人姿态估计:①首先提供一个人体检测器,然后分别估计每个部件,最后得到每个人的姿态,这种方法属于自上而下方法;②先检测图像中所有人的部件,然后将不同的部件进行关联、分组,这种方法属于自下而上方法。
  CAO等[13]提出一种有效检测图像中多人姿态的方法,该方法在多个公共基准上准确性很高,在性能和效率上大大超过MPII数据集多人检测水平。该方法通过部分亲和力字段(PAF)表示自下而上的关联评分,PAF是一组二维矢量场,可对图像域上肢体的位置和方向进行编码,允许自下而上解析,能在保持高精度的同时实时实现且不受图像中人的数量影响。
  多人姿态估计自上而下方法有CPN、G-RMI和RMPE几种。CHEN等[14]采用自上而下方法提出一种新的神经网络结构,称为级联金字塔网络(CPN),该神经网络包括GlobalNet和RefineNet两个阶段。GlobalNet是一个功能金字塔网络,可以准确定位“简单”关节点(如眼睛和手),但无法准确识别被遮挡或看不见的关节点;RefineNet通过整合GlobalNet的所有特征表示,以及挖掘在线关节点损失显式处理硬性关节点;PAPANDREOU 等[15]提出简单而强大的G-RMI方法,该方法包括两个阶段:①预测容纳人员的盒子位置和大小;②估计每个边界框中可能包含人员的关键点。对关键点类型使用完全卷积的ResNet预测密集的热图与偏移量,同时引入一种新颖的聚合过程获得高度本地化的关键点预测结果;FANG等[16]提出的RMPE是一种区域多人姿态估计神经网络框架,能處理不准确的边界框并进行冗余检测,在存在不准确人体边界框的情况下提高姿态估计效果。该框架由对称空间变压器网络(SSTN)、参数姿态非最大抑制(NMS)和姿态指导的提议生成器(PGPG)3个组件组成。
  2.2 三维人体姿态估计
  目前三维人体姿态估计方法聚焦设计一些复杂的先验约束,一般基于二维人体姿态特征感知或二维姿态预测三维人体姿态回归。但由于用于训练的三维姿态数据集不足,以及二维空间和三维空间之间存在域间隙等问题,实际上这些方法可扩展性有限。为解决这些问题,WANG等[17]提出一种简单而有效的自我监督校正神经网络,从丰富的图像中学习人体姿态的所有结构。该神经网络涉及从二维到三维姿态转换及从三维到二维姿态投影两个学习任务;ZHOU等[18]为解决三维人体姿态估计缺少训练数据问题, 提出一种基于神经网络的弱监督迁移学习方法。该方法在深度中性网络中使用混合的二维与三维标签,通过三维深度回归子网络增强二维姿态估计子网络。
  ALP等[19]基于RGB图像和人体表面建立密集的对应关系,提出密集的人体姿态估计方法DensePose。该方法首先通过引入有效的注释管道收集COCO数据集中5万人的密集信息,然后使用数据集训练神经网络系统,在存在背景遮挡和尺度变化的情况下密集应对,通过级联进一步提高三维人体姿态估计的准确性,获得实时的高精度神经网络系统。VAROL等[20]提出一种全自动端到端多任务神经网络体系结构BodyNet,可从单个图像预测三维人体形状。
  3 人体姿态优化
  对人体姿态进行估计后需对估计结果进行优化。原始图片与包含位姿信息的图片可提供丰富的人体上下文信息与结构信息,即使有错误位姿,但由于多数关键点处在正确位置或只是在正确位置上添加了一些抖动,因而也具有一定的结构信息,利用这些信息训练神经网络模型可有效提高模型对错误姿态的鲁棒性。
  MOON等[21]提出一种与模型无关的人体姿态修正网络PoseFix。该网络可根据输入图像与姿态的元组估计出正确姿态,其核心是将抖动、反转、缺失等错误姿态出现的频率信息作为先验信息生成姿态,然后用这些姿态训练PoseFix;韩孝天等[4]使用基于PoseFix的姿态优化算法对人体姿态估计结果进行优化;NEWELL等[22]提出的堆叠式沙漏网络是一种新型的人体姿态估计卷积神经网络结构,由多个堆叠沙漏模块组成,该结构重复自下而上、自上而下处理,与中间监督结合使用对人体姿态估计进行优化,有效解决图像中截断和严重遮挡问题;BULAT等[23]提出一种CNN级联架构,先输出检测热图,然后对这些热图进行坐标回归。神经网络的关键特征是检测热图的联合回归,特别适合于学习关节点关系和空间上下文,即使在关节点严重遮挡的情况下也能正确推断姿态,优化人体姿态估计。
  4 存在的问题
  虽然借助神经网络的人体姿态估计研究取得了一些成果,但人体姿态估计仍然存在一些问题。
  (1)数据不全问题。适用于人体姿态估计神经网络训练的数据集已经很大,如COCO数据集,但数据集中大部分图片姿态都是站立、走路等正常姿态,而摔跤、翻爬等特殊姿态数据较少,解决数据不全问题对提升算法性能有极大的促进作用。
  (2)关节点检测问题。抗遮挡、抗变形和较高的鲁棒性是人体姿态估计研究需要实现的目标,但实际研究对象中,复杂关节之间相互依存,部分关节完全闭塞,身体形状、衣服或灯光的变化以及不受限制的视角会导致尺寸输入空间很大[8]。人体姿态关节点检测算法还未达到理想效果,遇到较为复杂的场景仍会出现大量错误。   (3)实时性问题。人体检测需要用到人体检测器,但目前的人体检测器在处理三维人体姿态估计问题时无法做到实时检测,需要研究速度更快性能更好的人体检测器,同时优化神经网络模型以提高实时性。
  (4)最低分辨率问题。诸如自动驾驶系统之类的人体姿态估计应用场景,需要尽量提前检测到远方路面情况,在路面出现横穿马路行人时,系统越远检测到人体姿态就越能保障人员安全。因此,设定检测人体姿态所需最低分辨率成为一项重要工作。
  5 结语
  神经网络的出现成为人体姿态估计研究的重要驱动力,最新的人体姿态估计研究方法普遍采用神经网络构建主要模块。本文介绍了基于神经网络的人体姿态估计方法、步骤,阐述了最新的神经网络结构模型,可为后续基于神经网络的人体姿态识别研究提供参考。
  参考文献:
  [1] 卢晨. 基于图像的非接触式人体测量系统研究与实现[D]. 苏州:苏州大学,2009.
  [2] HE K,GKIOXARI G,DOLLAR P,et al. Mask R-CNN[C]. IEEE International Conference on Computer Vision, 2017:2980-2988.
  [3] REN S,HE K,GIRSHICK R,et al.Faster R-CNN:towards real-time object detection with region proposal networks[J]. IEEE Transactions on Pattern Analysis & Machine Intelligence,2015, 39(6):1137-1149.
  [4] 韓孝天,万旺根. 基于MSP的多人姿态估计算法[J]. 电子测量技术,2019,42(19):79-84.
  [5] LIU W,ANGUELOV D,ERHAN D,et al.SSD: single shot multibox detector[C]:European Conference on Computer Vision,Springer International Publishing,2016:21-37.
  [6] 黄铎,应娜,蔡哲栋. 基于强化学习的多人姿态检测算法优化[J]. 计算机应用与软件,2019,36(4):186-191.
  [7] TOSHEV A,SZEGEDY C. Deeppose:human pose estimation via deep neural networks[C].  Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition,2014:1653-1660.
  [8] TOMPSON J J,JAIN A,LECUN Y,et al. Joint training of a convolutional network and a graphical model for human pose estimation[C]. Advances in Neural Information Processing Systems,2014:1799-1807.
  [9] YANG W,OUYANG W,LI H,et al. End-to-end learning of deformable mixture of parts and deep convolutional neural networks for human pose estimation[C]. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition,2016:3073-3082.
  [10] WEI S, RAMAKRISHNA V,KANADE T,et al. Convolutional pose machines[C].  IEEE Conference on Computer Vision and Pattern Recognition,2016:4724-4732.
  [11] CARREIRA J,AGRAWAL P,FRAGKIADAKI K,et al.Human pose estimation with iterative error feedback[C]. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition,2016:4733-4742.
  [12] FAN X,ZHENG K,LIN Y,et al.Combining local appearance and holistic view:dual-source deep neural networks for human pose estimation[C]. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition,2015:1347-1355.
  [13] CAO Z,SIMON T,WEI S E,et al.Realtime multi-person 2D pose estimation using part affinity fields[C]. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition,2017:7291-7299.   [14] CHEN Y,WANG Z,PENG Y,et al.Cascaded pyramid network for multi-person pose estimation[C]. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition,2018:7103-7112.
  [15] PAPANDREOU G,ZHU T,KANAZAWA N,et al.Towards accurate multi-person pose estimation in the wild[C]. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition,2017:4903-4911.
  [16] FANG H S,XIE S,TAI Y W,et al.RMPE:regional multiperson pose estimation[C]. Proceedings of the IEEE International Conference on Computer Vision,2017:2334-2343.
  [17] WANG K,LIN L,JIANG C,et al.3D human pose machines with self-supervised learning[J]. arXiv,2019(1): 1901-1928.
  [18] ZHOU X,HUANG Q,SUN X,et al.Towards 3D human pose estimation in the wild:a weakly-supervised approach[C]. Proceedings of the IEEE International Conference on Computer Vision,2017:398-407.
  [19] ALP G R,NEVEROVA N,KOKKINOS I.Densepose:dense human pose estimation in the wild[C].  Conference: 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 2018:7297-7306.
  [20] VAROL G,CEYLAN D,RUSSELL B,et al.Bodynet:volumetric inference of 3D human body shapes[C]. Proceedings of the European Conference on Computer Vision,2018:20-36.
  [21] MOON G,CHANG J Y,LEE K M.Posefix:model-agnostic general human pose refinement network[EB/OL].  http://www.doc88.com/p-9079133700506.html.
  [22] NEWELL A,YANG K,DENG J.Stacked hourglass networks for human pose estimation[C]. Proceedings of European Conference on Computer Vision,2016:483-499.
  [23] BULAT A,TZIMIROPOULOS G.Human pose estimation via convolutional part heatmap regression[C]. Proceedings of European Conference on Computer Vision,2016:717-732.
  (責任编辑:杜能钢)
转载注明来源:https://www.xzbu.com/8/view-15358238.htm