您好, 访客   登录/注册

基于深度神经网络的视线跟踪技术研究

来源:用户上传      作者:

  摘  要: 视线跟踪是人机互动技术中重要的组成部分,可以广泛地应用在机器人、手机、笔记本等设备中。针对传统方法在低分辨率图像上的准确率不高和设计步骤繁琐等问题,提出一种基于深度神经网络的视线跟踪算法。利用卷积神经网络,能快速且准确地定位输入图片上的人眼区域和虹膜中心位置,再利用多项式拟合估计视线方向。实验结果表明,该算法在MPIIGaze数据库中对虹膜中心和眼角位置的标定有着98%的准确性,在Swith数据库中对视线的估计准确率达到了90%左右,证明了该算法在低分辨率图像上有着良好的可行性。
  关键词: 视线跟踪; 深度神经网络; 人眼定位; 虹膜中心; 多项式拟合; 视线方向估计
  Abstract: Sight tracking is an important part of human?computer interaction technology. It can be widely used in robots, mobile phones, notebooks and other equipments. In allusion to the low accuracy of traditional methods dealing with low?resolution images and their cumbersome design steps, a line?of?sight tracking algorithm based on deep neural network is proposed. With the convolutional neural network, the human eye area and the iris center position on an input image can be located quickly and accurately. The polynomial fitting is used to estimate the line?of?sight direction. The experimental results show that the algorithm has the accuracy of 98% in calibration of the iris center and the eye corner position in the MPIIGaze database, and the accuracy of 90% in estimation of the line?of?sight in the Swith database, which prove that the algorithm has good feasibility for sight tracking in low?resolution images.
  Keywords: sight tracking; deep neural network; eye positioning; iris center; polynomial fitting; sight direction estimation
  0  引  言
  随着科学技术的发展,深度神经网络的兴起,使得计算机视觉技术的发展有了较大的进步。如人脸识别、虹膜识别、视线追踪等技术在深度神经网络技术的应用下有了较为突破的发展。而视线跟踪技术是人机互动领域的核心技术,是人机互动中不可缺少的一环。通常视线跟踪技术分为基于模型的方法和基于外观的方法。
  基于模型的方法(也称3D视线跟踪法)是构建几何眼睛模型,利用入射光线在眼球角膜表面时发生的折射与反射现象,通过反射与折射的几何模型求解出眼球角膜中心与瞳孔中心,进而重构眼球的视线方向[1?3]。最近几年,国内外还构建头部姿势的模型用来辅助视线跟踪技术[3],这种方法可以排除头部姿势的干扰,大大提高视线跟踪的准确性。但方法实现较为复杂,往往需要多个专业摄像头来获取图像数据。
  基于外观的方法(也称2D视线跟踪法)是将眼睛图像作为输入,通过圆形霍夫变换[4]、瞳孔空间形态[5]、梯度下降法[6]等图像处理技术确定瞳孔位置、虹膜中心、眼角位置来定位视线方向。这种方法实现较为简单,可以直接处理低像素图像,使普通的网络摄像头也可以进行视线跟踪;但缺点是精确度比较低,鲁棒性不足。
  本文的研究方法是基于外观的方法,为了提高在低分辨率图像进行视线跟踪的准确率和鲁棒性,以及准确地定位到虹膜中心和眼角位置,采用了深度卷积神经网络进行定位。近几年深度学习在计算机视觉方面发展迅速,在人脸识别方面,虹膜识别技术有了巨大的突破。并且深度卷积神经网络在图像处理方面具有泛化能力强、鲁棒性好、操作方便等优势。
  1  视线跟踪技术原理
  基于外观的视线跟踪技术原理如图1所示。
  图1a)是人眼正面,EC是眼球中心,OC是虹膜中心,P1,P2是内外眼角位置,U1,U2是上眼皮与虹膜交界点。图1b)是人眼俯视图,d是穿过眼球中心和虹膜中心的向量。
  根据观察,当人眼注视不同的方向时虹膜中心会围绕着眼球中心旋转,眼球中心是固定不动的[7]。所以眼睛注视的方向可以简化为虹膜中心和眼球中心连线的方向,即以眼球中心为起点,经过虹膜中心的向量d。而人的眼球可以大致看成球体,所以眼球的中心在两个眼角连线的位置上且与两个眼角的距离是相等的。通过这点可以确定眼球中心位置(EC),所以只需要确定虹膜中心(OC)和两个眼角(P1,P2)的位置就可以确定人眼的注视方向。而U1,U2用来辅助定位虹膜中心和判断是否眯眼。在图1b)中,向量d可以简化为EC?OC矢量,即图1a)中连接EC和OC的向量。
  2  算法设计   根据原理介绍,基于外观的视线跟踪技术的算法大体可以分成两个步骤:第一,虹膜中心和眼球中心定位;第二,学习从虹膜中心和眼球中心的关系到凝视点的映射。其中,虹膜中心和眼球中心定位是视线跟踪技术的重要阶段,一旦虹膜中心定位成功,就可以用映射方法来计算屏幕上的注视点。在以往视线跟踪技术中常用的虹膜中心和眼球中心定位技术有椭圆拟合方法、梯度向量检测方法等。
  本文参考MTCNN网络框架[8],设计一种多任务级联神经网络,用来定位虹膜中心和内外眼角。算法由两个卷积神经网络组成,每个网络的作用如下所述:
  1) 确定人眼位置,生成人眼位置的候选窗口。这一阶段采用的卷积神经网络称为R?net,用于获取候选人眼区域窗口及其边界框位置,是用来精确确定输入图像中人眼的位置。
  2) 这一阶段是确定人眼区域关键点位置。将上一阶段生成的人眼区域送入第二个卷积神经网络O?net,此网络要比第一个网络更加精确,能够确定虹膜中心和眼角关键点位置。图2为虹膜中心定位方法的流程图。
  2.1  卷积神经网络结构
  深度卷积神经网络是一种端到端的学习方式,对卷积神经网络模型而言,其输入数据是未经任何人为加工的原始样本形式,后续则是堆叠在输入层上的众多操作层。这些操作层整体可看作为一个复杂的函数,最后误差函数由数据误差和模型参数的正则化误差共同组成,深度模型的训练则是在最终误差驱动下对模型进行参数更新,并将误差反向传播至网络各层。模型的训练过程可以简单抽象为从原始数据向最终目标的直接拟合。
  本文设计的卷积神经网络结构如图3所示。
  R?net网络结构是由4个卷积层和3个池化层组成,其分布结构是前两个卷积层每个后面跟着一个池化层,第三个卷积层直接和第四个卷积层相连,最后再连接一个池化层。因为其输入数据是24×24大小的人眼区域图像,所以为了减少计算量,将前两层的卷积层和池化层的大小设置为3×3,后两层的大小设置为2×2。卷积层和池化层的步长分别为1和2。
  O?net网络结构是由2个卷积层、2个池化层和2个inception结构[9]组成。O?net网络是用来确定人眼区域关键点位置,所以需要网络的精确度和泛化能力较高。O?net网络前两个卷积层和池化层的大小依然是3×3,步長分别为1和2。但由于输入的图像是48×48大小的人眼区域图像,而不同的实验员人眼大小和形状是不同的,其所占输入图像的比例也是不同的。针对这种情况,本文在网络后半部分加入inception结构来提高网络的准确率。inception结构是由3个单独的1×1,3×3,5×5大小的卷积核和1个3×3的池化层后接1×1的卷积核并列组成。这样的结构使它可以将数据分别采样成不同尺度,提取图像不同尺度的特征,最后进行融合,可以得到更多的图像特征。经过反复的试验,inception结构只需要两个就可以训练出较高的准确率。
  2.2  凝视估计
  经过上一个阶段的人眼虹膜中心标记,可以得到在图像上虹膜中心、内外眼角和虹膜与上眼皮交界点的二维坐标信息,可以建立其与注视目标的映射关系。由于虹膜的角运动,EC?OC矢量到屏幕注视点的映射关系是非线性的,所以采用的方法是二阶多项式回归模型[4]来学习映射关系。
  式中,([Xi,Yi])是屏幕上注视点的坐标。在训练模型的时候,数据集中每张图片的注视点坐标是已知的(Swith数据库和MPIIGaze数据库中的数据标签里都含有注视点的坐标)。其中,(xi,yi)是EC?OC矢量,经过上一步的虹膜中心定位可以得到内眼角坐标(x1,y1)、外眼角坐标(x2,y2)和虹膜中心坐标(x0,y0),然后根据之前视线跟踪的原理取两个眼角之间的中点就是眼球中心EC(x3,y3)。所以EC?IC矢量(xi,yi)可以用如下方法获得(x0-x3,y0-y3)。最后将训练数据送入最小二乘法框架中计算出未知参数a和b,就可以得到完整的映射关系。需要注意,映射关系的训练需要与实验数据相匹配,不同的数据库由于注视点坐标不同、被测者和屏幕间的距离不同,映射关系也不同。
  3  实验分析
  为了验证本文所提算法的性能,需要大量的数据来检测该算法。本文选择了MPIIGaze数据库[10]和Smith数据库[11],MPIIGaze数据库中的数据用来验证标定虹膜中心的算法,并记录了实验员在不同自然光的条件下,注视笔记本上随机注视点的部分人脸图像,见图4。其图片数量有50 000多张,足以验证该算法的准确性。Smith数据库有5 100张完整的人脸图片,见图5。其中包含 51个人的实验数据。他们将实验员的头部固定,让他们注视屏幕上的注视点,然后记录该实验员的视线方向。
  3.1  数据处理
  在训练卷积神经网络之前,需要处理数据用于网络训练。首先从这两个数据库中各挑选1 000张图片转化为灰度图片进行标定,框出人眼的区域和虹膜中心等5处坐标,作为实际样本数据。然后根据每个网络的结构需要将样本数据分成24×24,48×48的样本集,对这些数据集使用4种不同的数据注释:
  1) 负样本:与实际样本重合度小于0.3的区域。
  2) 正样本:与实际样本重合度大于0.65的区域。
  3) 部分样本:与实际重合度大于0.3小于0.65的重合度。
  4) 人眼标记样本:标有5个标记点的人眼图像。负样本和正样本用于人眼部分的分类,正样本和部分样本用于边界框回归,人眼标记用于人眼标记定位。总训练数据由5∶1∶3∶1(负样本、正样本、部分样本、人眼标记样本)比例组成。
  另外,当用算法得到人眼区域的图像时,图片的大小是60×36像素,而在计算EC?IC矢量的时候需要(x0-x3,y0-y3)的差值尽可能的大,这样才能较好学习映射关系。经过实践证明,在保持不失真的情况下,本文将人眼图像放大到300×180像素。   3.2  实验结果
  本次实验是在Intel Core i5?7th处理器、8 GB内存、Windows 10操作系统的PC机上运行,使用的开发环境为caffe。首先验证算法定位虹膜中心的準确性,本文主要采用MPIIGaze数据库[10]验证算法定位瞳孔中心的能力。MPIIGaze数据库的采集环境是实验者日常生活的环境里,实验员日常生活的电脑里放入了注视点检测软件,它在计算机屏幕上随机显示一个白点,实验员用日常坐在计算机前的姿势凝视白点。然后拍摄下当前受试者图像,这样就得到日常生活中的人眼注视图像。其实验结果如图6所示。
  图6结果表明,在MPIIGaze数据库中,本文所训练的算法拥有98.7%的准确率来定位虹膜中心和内外眼角。证明了在日常光照条件下,本文算法也有较高的准确率。再利用Swith数据库验证视线方向估计,其采样环境如图7所示。
  Swith数据库将屏幕划分为15个区域,每个区域中间有一个黑点当作注视点,每个注视点的坐标都已经被规定。实验员被要求依次注视15个注视点,记录下人脸区域图像,这样就得到了15个视线方向的人脸图像。其拟合的图像如图8所示。
  Swith数据库准确率的判断比较简单,因为其坐标的数值和注视区域的性质,将预测值和实际值相减得到的差值不超过2,就可以认为注视是落在该区域内,则预测值准确。其公式为:
  经过计算Swith数据库,x坐标的平均误差为1.2°,准确率为93%;y坐标的平均误差为1.8,准确率为88%。对注视方向预测的准确率约为90%。对比近几年的参考文献,文献[5]是利用瞳孔空间形态来定位瞳孔中心和瞳孔边缘空间点,用最小二乘法预测视线方向。文献[12]是采用梯度向量检测瞳孔中心,用神经网络估计视线跟踪。文献[13]是采用二维瞳孔角膜反射技术,建立瞳孔角膜反射模型来确定瞳孔中心,并用BP神经网络来进行视线估计。实验结果的比较见表1。
  从表1可以看出,本文算法已经达到国内的一流水平。相比于其他文献的算法,本文的算法能在日常光照下准确地定位瞳孔中心,不受一般光照条件的影响。而且卷积神经网络相比于其他的方法更具有稳定性和鲁棒性,应用的范围更加广泛。
  4  结  论
  本文提出一种基于深度神经网络的视线跟踪方法,采用卷积神经网络定位瞳孔中心和眼角位置,多项式拟合来预测视线方向。将视线跟踪技术与深度学习相结合,提高了在普通摄像头的环境下进行瞳孔中心定位的准确率。同时,利用MIIGaze数据库和Swith数据库验证算法的准确性和鲁棒性,证明卷积神经网络有着较强的鲁棒性。只需要对数据库少量的数据完成标定,网络就可以自动学习和识别整个数据库图像中关键点位置。相比于传统的瞳孔定位技术,深度神经网络减少系统的成本,提高确定虹膜中心的效率,使视线追踪技术能应用于笔记本、手机等便携式设备。
  参 考 文 献
  [1] WOOD Erroll, BALTRUSAITIS Tadas, ZHANG Xucong, et al. Rendering of eyes for eye?shape registration and gaze estimation [C]// 2015 IEEE International Conference on Computer Vision. Santiago: IEEE, 2015: 428?434.
  [2] YUSUKE Sugano, YASUYUKI Matsushita, YOICHI Sato. Learning?by?synthesis for appearance?based 3D gaze estimation [C]// 2014 IEEE Conference on Computer Vision and Pattern Recognition. Columbus: IEEE, 2014: 235.
  [3] 周小龙,汤帆扬,管秋,等.基于3D人眼模型的视线跟踪技术综述[J].计算机辅助设计与图形学学报,2017,29(9):1579?1589.
  [4] ANJITH George. Fast and accurate algorithm for eye localization for gaze tracking in low resolution images [J]. IET computer vision, 2016, 18: 127?131.
  [5] 王向军,白皓月,倪育博.基于瞳孔空间形态的双眼视线跟踪方法[J].激光与光电子学进展,2019,56(2):251?256.
  [6] KAO W C, LIN C Y, HSU C C, et al. Optimal iris region matching and gaze point calibration for real?time eye tracking systems [C]// 2016 IEEE International Conference on Consumer Electronics. Las Vegas: IEEE, 2016: l08?115.
  [7] WANG Jiangang, SUNG Eric, VENKATESWARLU Ronda. Eye gaze estimation from a single image of one eye [C]// Proceedings Ninth IEEE International Conference on Computer Vision. Nice: IEEE, 2003: 17?20.
  [8] WANG Rongsheng, TIAN Jinzhao, JIN Changlong. Joint face detection and alignment using focal Oss?based multi?task convolutional neural networks [C]// 14th Chinese Conference on Biometric Recognition. Zhuzhou: Springer, 2019: 266?273.
  [9] SZEGEDY C, LIU W, JIA Y, et al. Going deeper with convolutions [C]// 2015 IEEE Conference on Computer Vision and Pattern Recognition. Boston: IEEE, 2015: 202?213.
  [10] ZHANG Xucong, SUGANO Yusuke, FRITZ Mario, et al. Appearance?based gaze estimation in the wild [C]// 2015 IEEE Conference on Computer Vision and Pattern Recognition. Boston: IEEE, 2015: 117?132.
  [11] BRIAN A S, QI Y, STEVEN K F, et al. Gaze locking: passive eye contact detection for human?object intection [C]// Proceedings of the 26th Annual ACM Symposium on User Interface Software and Technology. St Andrews: ACM, 2013: 271?280.
  [12] 李兵,戴尔晗.基于人工神经网络的视线跟踪系统[J].计算机技术与发展,2015(4):98?101.
  [13] 胡艳红,魏江,梅少辉.基于瞳孔角膜反射技术的视线估计方法[J].计算机工程与应用,2018,54(14):7?10.
转载注明来源:https://www.xzbu.com/8/view-15291139.htm