您好, 访客   登录/注册

基于人工智能的无穿戴人体姿态识别技术研究

来源:用户上传      作者:苗凯 曲海洲 徐何江

  手势跟踪与识别是一项至关重要的技术,它直接影响着人机交互能否进一步发展,同时也是当前比较热门的研究与发展课题。目前,国内外的专家学者已经从不同的侧重点对对手势识别进行了深入的研究,也取得了一定的成功,但囿于手势识别的学科交叉性和复杂性,仍有诸多问题亟待深入研究。
  国内外同类研究情况
  国际上对手势识别技术的研究已经进行了相当长的时间。1893年,Bell实验室的Grimes最先取得了“数据手套”的专利,开创了手势识别研究的先河。到20世纪90年代,手势识别技术开始突飞猛进的发展。1987年,VPL公司生产了一种Data Glove的数据手套,通过使用者手套上的传感器来探测手指的位置和状态信息;1991年,富士通公司设计了一款手势符号的输入系统,可以识别46个不同的手势类型;1995年,Christopher Lee等人完成了一个操纵机器人的手势控制系统;同年,Starner则以HMM为基础,实现了动态手语的识别,其短句的识别率达高到92%以上;随后,Davis设计了可以识别7种手势的基于计算机视觉的手套系统;Huang使用三维神经网络的方法所创建的手语识别系统可以识别15个不同的手势;Assam和Grobel则采用隐式马尔科夫链的识别方法建立手势识别系统,对视频流中的帧图像进行手势分析和识别,手势识别的正确率达到91.3%以上;Zhu使用的是主成分分析的建模方法,以手势本身成分的统计结构为特征,完成对手势识别的目标。
  进入21世纪,在人机交流的领域,国际上已经研究成功了多种模式的人机交流系统,并且将其付诸于应用。2003年7月,索尼计算机娱乐公司(Sony Computer Entertainment )发布了一款名为EyeToy的手势识别设备,这种设备能将玩游戏者的视频资料传输到游戏的画面中,使游戏与玩游戏者互动。同年12月,美国密歇根州的Cybernet Systems技术研发公司成功开发出一套名为GestureStorm的软件系统,天气预报员通过使用这种系统,只需将手轻轻拨动几下就能制造出特别的视频效果来配合他们所预报的天气。2008年,Toshiba位于英国剑桥(Cambridge)的研究实验室,在IFA上直观展示了图片辨识及手势辨识与电视操作结合的技术。主要是透过摄影机捕捉人手的动作,一旦握拳则进入操作模式,放松变为掌面则表示关闭操作。
  国内对手势识别的研究虽然较晚,但仍然取得了很大的发展和成果。最早的高文等人以“Cyber—Glove”数据手套为硬件基础,使用隐式马尔可夫链模型与人工神经网络相结合的方法对各种不同手势含义进行识别,其平均识别率可达到91%。随后他又将动态高斯混合模型应用在手语字典中对其进行学习与识别,识别率高达到97.5%。在计算机视觉的基础上,祝远新等通过模板分类匹配等方式对动态的独立手势进行识别,通过融合手势运动信息和皮肤颜色信息,成功的进行了复杂背景下的手势分割,平均识别率高达到90%以上。张秋余、姚开博利用AdaBoost分类器与手势的不变矩Hu特征相结合的方法对静态手势进行识别,识别率达高达95%。
  段洪伟通过使用台湾大学林智仁(Lin Chih—Jen)副教授等开发设计的LSSVM算法对静态手势与动态手轨迹进行识别,取得了很好的识别效果,其算法的主要思想是把手的质心坐标作为HMM模型的输入,通过概率计算估计出一个最佳的结果作为最后的识别结果;山东大学的徐立群等人则是以CAMSHIFT算法为基础,对动态手势的轨迹特征进行分析,可以识别6种动态手势,且识别效果较好。2000年,任海兵等提出了连续动态手势的时空表现模型,其核心思想是利用动态时空规整算法(DTW)对动态手势进行识别,平均识别率达到97%。随后,戴国忠等在HMM的基础上提出一种HMM—FNN动态手势识别模型,他是把动态手势分别分解为手型的变化、XY平面上的运动和Z方向上的运动,再通过日常的经验来进行辅助和优化,该混合模型对手势识别的效果明显优于传统的HMM模型。张凯、葛文兵等引进了平面立体匹配算法,其核心思想是将手势的视差图转换为平面图,然后再进行模板匹配,实现了基于机器视觉的手势识别,由于平面图不能完全反映图像的全部信息,故识别精度一般,但是为我们提供了一种手势识别研究的新方向。
  可以看到,经过全世界科研工作者的努力,在手势识别领域,目前已经有了许多研究成果,并有一部分成功的转化为应用,服务于科学研究或者日常生活。但是囿于复杂的环境及作为主体的人手具有很多不确定因素,使得手势识别技术仍然面临着许多困难与挑战亟需解决。例如动态手势的识别中就存在以下两个突出问题:一是时间的不一致性,即不同人做同一种手势或者同一个人在不同的时刻做同一个手势,由于运动速率不同,所耗费的时间各不相同;二是手势分割,即如何准确地识别动态手势的开始和结束。
  无穿戴人体姿态识别系统研究的现实意义
  本项目主要研究手势的动态捕捉与识别,通过对关键点检测、手势轨迹获取、去噪与特征提取及模板制作与模板匹配的关键技术进行研究,提取捕捉到的手势轨迹特征,与训练所得手势模板进行匹配,返回最佳匹配结果。最终目标是形成一套基于人工智能的無穿戴人体姿态识别系统,用户通过该系统可以自定义手势,通过计算机根据采集的有限手势数据自动分析并生成模板,满足用户个人的手势识别需求。
  本项目的研究涉及图像处理、模式识别、计算机视觉、人工智能等多门学科,在实现更加自然、和谐、符合人类行为习惯的人机交互方式的同时,还有助于促进多学科的发展和不断融合。手势识别还可广泛应用于虚拟现实、三维设计、临场感、可视化、医学研究、智能监控等领域,具有良好的社会和经济效益。
  无穿戴人体姿态识别技术的研发内容
  本项目主要包括以下开发内容:标准手势数据的采集;手势模板的制作;实时手势分割;实时手势与手势模板的匹配。   标准手势数据的采集。手势数据分为二维手势数据和三维手势数据,通过外部摄像头或传感器采集。三维手势数据通过双目摄像头(如leapmotion)、数据手套或激光雷达摄像头采集,二维手势数据亦可通过上述设备采集到的三维数据投影得到,也可利用普通单目摄像头采集(精度低于上述设备)。根据特征点位置的不同,采集到的手势数据可以分为手类型(左右手)、掌心位置,手腕位置,手指关节位置(单目摄像头识别能力较差),以及各特征点的速度。
  手势模板的制作。手势模板的制作需要采集标准手势作为训练数据,考虑到用户自定义手势的训练数据数量和质量有限。故用统计法采集用户输入的标准数据点并提取数据特征生成初始模板。由于标准样本有限,在之后的识别过程中,可能会有较高的错误率,出现识别错误时,用户可以选择提交该次手势数据以优化模板。
  实时手势分割。手势分割是为了划分手势轨迹的识别区段,定义开始记录位置和结束记录位置,在结束记录时将手势轨迹特征与模板进行匹配。对于有既定标准的手势,可以分析手势的结束和起始特征并提前定义分割算法;对于用户自定义手势,起始和结束特征无法预料,需要进行实时数据记录和匹配,匹配成功则自动进入下一手势检测状态,该步骤的算法复杂度与待匹配模板数和手势特征数正相关。
  手势与模板的匹配。手势与模板的匹配是将手势分割后的轨迹数据经过特征提取后与各个模板进行相关度计算,不同类型的特征对结果的影响也不同,因此相关度计算需要考虑各个特征的权重值。将匹配度最高且匹配度超过一定阈值的模板视为匹配结果。实时手势由于自由度大,变化多样,因此形状和时序都有不确定性,而检测误差会带来抖动和噪点。匹配前需要对手势轨迹进行前处理并提取具有较强鲁棒性的特征。
  无穿戴人体姿态识别技术的主要技术经济指标
  手势识别准确率。对于自定义手势,准确率由用户上传的标准手势复杂度,差异性和数据质量决定。对于有既定标准的手势,如乐队指挥手势、交警指挥手势、手语等。比对模板小于10个时,准确率高于90%;比对模板大于10个或模板之间差异非常小时,准确率高于70%。
  手势识别速度。对于无需考虑时序特征的动态手势,延时低于80ms,此延迟不会被人眼明显察觉,对于需要考虑时序特征的动态手势,延迟低于150ms,此延迟会被人眼察觉,但识别结果的输出只略微滞后于结束动作,不影响识别的实时性。对于没有定义起始和结束特征的自定义手势,实时性低于300ms,此延迟会影响到输出的实时性,但是足够在下一手势结束前分析出手势识别结果,满足不要求实时性而要求动手过程中识别结果没有遗漏的手势识别需求。
  模板训练难度。即使没有受过专业训练的用户也可以轻松训练自定义模板。开始模板训练模式后,用户重复演示标准手势生成标准样本,样本应尽可能包含可能存在的手势变化,每种变化重复5次以上,并标定手势标签。
  无穿戴人体姿态识别技术实施方案
  本项目流程如图1所示,首先从设备接口获取轨迹点,按一定时间间隔采样以减少待分析数据量,提取其中对识别结果有重要影响的关键点。再根据采样点和关键点的位置和速度信息进行手势分割,确定待识别的手势轨迹。考虑到手势分割失败会直接影响之后的识别,故加入了分割失败时的处理措施,以及时跳过当前手势的检测,进入下一手势检测。得到成功分割的手势轨迹后,进入前处理和特征提取阶段。如果考虑轨迹的时序特征,即每一轨迹点出现的先后顺序是一定的,那么先进行关键点时序与标准时序的对齐,并将其余采样点的时序坐标进行相应的拉伸。之后过滤由检测误差和手势不稳带来的干扰点并将轨迹点坐标归一化。如果不考虑时序特征,则跳过时序对齐,进行去噪和归一化处理。前处理后得到更方便提取特征和模板比对的轨迹点。对多种特征如各点方向向量、密集度、极值点等进行提取,并根据重要性进行权重分配。最后进入匹配阶段,将各特征数值与模板的对应特征值进行比较,计算欧式距离,得到与各模板的匹配度。如果存在多个相近匹配度,则进入二级匹配,否则直接将匹配度最高的模板作为识别结果。用户可以对识别结果进行反馈,如果识别错误,提交该轨迹和正确结果到后臺,以优化模板,直到符合输出要求。
  关键点检测算法。手在关键动作处会有停留,导致关键位置附近的点相对密集。将密集度曲线划分若干区域,每个区域寻找大于阈值的最大密集度点作为关键点。如图2,横坐标代表某时刻区间,纵坐标表示该区间的采样点数。
  时序对齐算法。手势轨迹是一个时间序列,需要比较匹配度的两段手势的时间序列的长度可能并不相等,具体表现为手势的快慢。所以在比较匹配度之前,需要将其中待匹配手势的时间序列进行适当拉伸,而且要保证相同关键点的时间序列一一对应,以达到更好的对齐。采用动态时间规划(DTW)算法来实现该效果。如图3所示,构造一个矩阵网格,横坐标为模板时间序列,纵坐标为手势轨迹时间序列,折线经过的矩阵元素(i,j)表示模板i时刻与手势j时刻具有对应关系的采样点,采用动态规划的方法获取该路径。保证关键点不遗漏的情况下使用尽可能少的采样点可提高该算法的计算效率。
  去噪与特征提取。对于轨迹中的噪点,可以采用贝塞尔曲线来处理。贝塞尔曲线是一种通过控制点来生成平滑曲线的绘图方式。将采样点作为控制点构建贝塞尔曲线具有降噪的作用,对于由手势不稳造成的起伏点,检测误差造成的前后错乱点和异常点,贝塞尔曲线均能保持原有的轨迹趋势。对于细节变化多样但是趋势一定的手势,贝塞尔曲线有将相似轨迹趋同化的作用。图4是同一人重复三拍子手势记录下的三组轨迹采样点,可以发现三组采样点的热区图仍有较大差别,相同特征较少。而通过贝塞尔曲线处理后,记录的贝塞尔曲线采样点映射到热区图上,轨迹重合率非常高,特征明显。因此,贝塞尔曲线处理可以有效去噪和提取特征。
  涉及时序的手势还可以提取定向角作为识别特征。时序对齐后,计算相邻采样点构成的方向向量,通过下式得到序列的定向角度后,为了提高识别率,合并相似特征并减少计算量,将该角度除以45°进行量化并从1编码至9,如图5所示。记录各方向向量组成特征向量。该特征向量不仅含有速度特征(向量长度),方向特征(向量方向),由于排列顺序由时序决定,向量首尾相接,包含了轨迹的形状特征。
  板制作与模板匹配。对于贝塞尔曲线处理后的轨迹特征,使用位置特征的矩阵模板进行匹配。模板制作的数据来自于标准手势数据样本。将标准手势数据经过采样、去噪、归一化后,映射到按照一定间隔划分区域的矩阵中。矩阵中的数字代表落在该区域内的点数。数字越大表示手势经过该区域的可能性越大。将该模板中的数值归一化处理,保证所有模板矩阵中的数据之和相等。匹配阶段,待识别手势数据也同样经过采样、去噪、归一化、矩阵化处理,然后将矩阵中大于一定阈值的数值赋为1,小于一定阈值的数值赋为0,该特征矩阵记录了待识别手的位置特征。将其与模板矩阵对应数值相乘求和,得到一个代表手势与该模板匹配程度的值。对所有模板都进行同样操作后比较各匹配度大小,选择匹配度远大于其他项的模板作为匹配结果。
  手势模板的制作需要采集标准手势作为训练数据,考虑到用户自定义手势的训练数据数量和质量有限。故用统计法采集用户输入的标准数据点并提取数据特征生成初始模板。由于标准样本有限,在之后的识别过程中,可能会有较高的错误率,出现识别错误时,用户可以选择提交该次手势数据以优化模板。
  目前手势跟踪与识别属于比较热门的研究与发展课题,本项目已在多项技术上取得良好的进展,包括基于贝塞尔曲线的去噪与特征提取技术、基于leapmotion等多种标准手势数据采集方法等。本项目研究的手势姿态识别是人机交互领域的关键技术,为国务院发布政策、十三五规划、政府报告、领导讲话等都有对人机交互行业做了一些纲领性的指导,为行业发展做好了指引。手势识别技术的应用让人们逐渐摆脱传统的输入方式,为人类提供了更加多元化、人性化的服务。
  (作者单位:杭州科技职业技术学院企业文化研究所)
转载注明来源:https://www.xzbu.com/9/view-15377030.htm