您好, 访客   登录/注册

基于BP神经网络的Kinect手势识别方法

来源:用户上传      作者:

  摘 要:为了提高人机交互中手势动作的识别率,基于Kinect 平台所构建的人体骨骼模型,提出一种基于时间线的相关关节数据表示方法。以几种常见交互手势为分类基础,在BP神经网络中使用样本数据进行训练。实验结果表明,该算法取得了较好的识别效果。
  关键词:Kinect;BP网络;手势识别
  中图分类号:TP301 文献标识码:A 文章编号:1672-7800(2016)003-0006-03
  作者简介:马岩(1980- ),男,北京人,硕士,北京服装学院计算机信息中心工程师,研究方向为多媒体技术。
  0 引言
  在高级的人机交互、电影特技、三维动画合成、医学影像、视频智能监控及体育运动分析等诸多领域,基于视觉的人体姿态动作识别都拥有十分广阔的应用前景,也因此引起了学者们的广泛关注。
  采用不同的方式,研究人员实现了多种手势动作的识别算法。Weinland[1]采用一种称为MHV(motion history volumes)的模板描述各种人体的姿态和动作。Wang[2]使用人体轮廓的运动形态以及最近邻分类器描述动作姿态。Girshick利用 Kinect 深度图像分析人体姿态变化。Sempena[3-4]从Kinect深度图像中获取出人体的骨骼模型,采用关节角来描述人体的动作姿态。结果显示,基于 Kinect 传感器的三维运动捕获数据相对于二维特征具有更高的数据精准度,可以更为真实地记录运动轨迹,更精准地保持运动细节,并且采用骨骼数据在反应人体姿态方面,较人体深度数据更加紧凑和鲜明。
  基于神经网络和支持向量机的识别方法采用模式识别思想,对解决高维数、非线性和小样本问题很具优势,而且误识别风险相对较小,因此提出了一种基于神经网络的手势动作识别方法。该方法运用 Kinect跟踪一定时间内的关节数据,提取手势运动模型,并利用规整后的数据链描述动作的序列特征,采用三层BP神经网络对手势进行识别[5]。
  1 常见交互手势分析
  手势(gesture)和姿态(pose)可以理解为动作和姿势,即存在动态和静态的区别。手势(gesture)是人体部位在空间位移的一个连续的动作序列,姿态(pose)是通过身体不同部位之间的空间布局所表达的一种静态关系[6]。作为人体动作最丰富且辨识度、识别率最高的手部动作,其自然成为首选交互手段,且具备自然、简洁和丰富性等特点。
  在Kinect的常见游戏及应用中,通常有以下几个通用手势[7]:
  (1)挥手。挥手可以作为激活屏幕光标控制的一种方式。其运动规律为:从胳膊开始到肘部弯曲,用户以胳膊肘为轴点来回移动前臂,该动作具有一定的重复性和时间持续性。
  (2)悬停。体感应用中缺乏鼠标点击的事件,可以利用前伸的手臂并通过等待时间来模拟单击事件。使用计时器记录当前光标停留目标按钮事件,通过持续时间阈值触发“点击”时间。
  (3)滑动。在传统的GUI界面中,对于无法在一个屏幕内完整显示的信息,通常采用滚动条的形式加以解决。体感应用或者移动设备普遍采用轻触方式实现显示屏幕水平切换。
  (4)推按。“推按”的设计初衷也是试图将传统的按钮移植到体感应用上,针对鼠标点击动作,下压按钮使用一种将手向前推的手势来模拟。这种手势的动作是手掌张开向前推。
  (5)暂停。该手势通过保持左臂和身体呈45°来完成,很多体感游戏应用这一手势暂停动作或调出选择菜单。
  2 样本特征构建
  神经网络是对人脑或自然神经网络若干基本特性的抽象,是一种基于连接学说构造的智能仿生模型,基于神经网络人们试图通过程序模拟人脑的思维方式,建立起能模拟人脑功能和结构的智能系统,使得计算机能够像人脑那样进行信息处理[8]。手势动作的识别是典型的人类思维,可以基于BP神经网络通过样本训练达到。
  实验发现,基于BP网络的识别方法具有很高的识别率,误判比例较小,整体分类效果较好。从表1可以得出,挥手动作和滑动动作的识别效果最好,分别为99.33%和98.68%。分析发现,这两个动作的幅度较大,因而运动数据中的相对关系较为明显,所以识别效果较好。但是当某些手势比较相似时,例如悬停和推按,这些手势之间会有一定的误判。这种误判也与测试者的动作幅度有一定关系。如果在推按动作中向前推动的距离较短,就有可能被误判为悬停动作。
  5 结语
  在分析几种常用人体手势的基础上,针对常用手势识别方法中的个性化特征,提出利用BP神经网络技术建立统一的训练与识别方法,对Kinect所提供的人体骨骼关节的坐标表示量加以采集,并进行规格化预处理,利用手部相关的几个关节的相对关系组成神经网络的输入向量,创建基于BP网络的手势识别系统。最后,通过实验验证了该方法的有效性。
  参考文献:
  [1] WEINLAND D,RONFARD R,BOYER E.Free viewpoint action recognition using motion history volumes[J].Computer Vision and Image Understanding,2006,104(2/3):249-257.
  [2] WANG LIANG,SUTER D.Informative shape representations for human action recognition[C].18th International Conference on Pattern Recognition,2006:1266-1269.
  [3] GIRSHICK R,SHOTTON J,KOHLI P,et al.Efficient regression of general-activity human poses from depth images[C].2011 IEEE International Conference on Computer Vision (ICCV),2011:415-422.
  [4] SEMPENA S,MAULIDEVI N U,ARYAN P R.Human action recognition using dynamic time warping[C].2011 International Conference on Electrical Engineering and Informatics (ICEEI),2011:1-5.
  [5] YANG QING,CHEN GUIMING,LIU QINGJIE,et al.Application of kernel principal component analysis based on geodesic distance in pattern recognition of gear pump[J].Journal of Shanghai Jiao Tong University,2011,45(11):1632-1636.
  [6] YUAN LU,SUN JIAN,QUAN LONG,et al.Image deblurring with blurred/noisy image pairs[J].ACM Transactions on Graphics (TOG),2007,26(3):11.
  [7] DU CHENGJIN,SUN DAWEN.Multi-classification of pizza using computer vision and support vector machine[J].Journal of Food Engineering,2008,86(2):234-242.
  [8] 林海波,王浩,张毅.改进高斯核函数的人体姿态分析与识别[J].智能系统学报,2015,10(3): 436-441.
  [9] 袁方剑.基于Kinect体感设备的虚拟试衣系统研究[D].杭州:杭州电子科技大学,2014.
  [10] 刘佳,郑勇,张小瑞,等.基于Kinect的手势跟踪概述[J].计算机应用研究,2015,7(7):1921-1925.
  (责任编辑:孙 娟)
转载注明来源:https://www.xzbu.com/8/view-11353069.htm