您好, 访客   登录/注册

基于特征融合的动作识别

来源:用户上传      作者:

  摘要    為解决动作识别问题,本文提出一种基于特征融合的方法。提取视频特征时,同时获得运动特征和表观特征,然后融合这两种特征训练SVM分类器。实验时,在J-HMDB数据集上获得了优异的表现,动作识别的精度可以达到94.8%。
   【关键词】视频动作识别特征融合分类器
   1 引言
   计算机视觉中的动作识别任务需要确定视频中发生动作的类别。伴随着互联网地发展,需要处理的视频数量激增,而在视频数据处理方面,动作识别方向受到越来越多人的关注。在视频监控、视频描述和视频搜索等领域,动作识别有着广泛地应用。近年来针对动作识别问题涌现了众多优秀的解决方法,文献[1]的思想是将图片的空间检测算子扩展到视频时空检测算子,然后获取视频特征,识别动作类别。文献[2]提出用稠密轨迹来描述视频,首先从视频的每一帧上稠密采样兴趣点,然后基于光流场位移信息跟踪兴趣点形成轨迹,最后基于运动边界直方图引进一种新颖的轨迹描述子获得视频特征。文献[3]在文献[2]基础上做了改进,降低相机运动带来的影响,提高动作识别的精度。
   由于很多方法在解决动作识别任务时,要么只考虑运动信息,要么只考虑表观信息,无法获得视频中动作包含的完整信息,导致最终识别动作的准确度降低。本文利用特征融合思想,在获取视频特征时同时考虑运动信息和表观信息,使得获得的特征更具代表性。获取视频特征后训练一个SVM分类器,这样就可以判定任意一个视频中动作的类别。
   2 运动特征
   一个完整的动作由连续不同的姿态组成,这种运动性是判定视频中动作类别的重要线索。按照文献[3],利用公开的代码和相同的参数设置提取视频的稠密轨迹,但是最终只利用稠密轨迹中的HOF、MBHx和MBHy部分,因为这三个部分特征在实际应用中效果最好。然后利用BOW(bag of words)思想获得每个视频的运动特征。
   3 表观特征
   由于一个动作中包含不同的姿态,显然这些姿态的表观信息对于识别动作的类别有很大帮助。对于每一个视频,均匀采样获得6帧图像,然后将每帧图像调整成64*128大小提取HOG特征,这样每帧图像会获得3780维的特征。级联6帧图像的表观特征,整个视频的表观特征维度是6*3780。
   4 融合特征及训练SVM分类器
   将运动特征和表观特征级联在一起,得到的融合特征就是用来描述整个视频的特征,图1是特征融合的过程。使用one-vs-all方案对每个动作类别训练SVM分类器。
   5 实验结果
   实验中使用的数据集是J-HMDB,这是HMDB的一个子集,包含928个视频,有21类动作。划分训练视频和测试视频的比例是3:1。实验取得了很好的结果,识别的正确率可以达到94.8%。
   参考文献
   [1]I.Laptev and T. Lindeberg. Space-time interest points. In ICCV. 2003.
   [2]Heng Wang, Alexander Kl?ser, Cordelia Schmid, Liu Cheng-Lin. Action Recognition by Dense Trajectories. IEEE Conference on Computer Vision.2011
   [3]H. Wang and C. Schmid, Action Recognition with Improved Trajectories, 2013 IEEE International Conference on Computer Vision, Sydney, NSW, 2013, pp. 3551-3558. doi: 10.1109/ICCV.2013.
转载注明来源:https://www.xzbu.com/1/view-14847133.htm