基于场景相似性和光流的人群异常检测方法
来源:用户上传
作者:
摘 要: 针对视频中人群异常行为检测问题,提出一种基于场景相似性和光流的人群异常行为检测方法。该方法分别使用卷积网络和光流提取视频中人群的外观特征和运动特征。在外观特征方面,使用感知哈希算法得到场景相似性异常值;在运动特征方面,改进Shi?Tomasi特征提取算法,并利用局部光流法提取运动特征异常值。文中将两种特征的异常值融合作为异常行为的判定依据。在异常行为建模方面,使用单分类SVM对异常值进行建模。在UMN基准数据集上进行对比试验,文中提出的融合方法取得了较好的检测效果,AUC值能够达到0.91。
关键词: 异常行为检测; 外观特征提取; 运动特征提取; 特征融合; 行为建模; 对比试验
中图分类号: TN911.23?34; TP391.4 文献标识码: A 文章编号: 1004?373X(2020)02?0090?07
Method of crowd anomaly detection based on scene similarity and optical flow
MA Guoxiang1, YANG Wenzhong2, WEN Jiebin2, YAO Miao1, QIN Xu1
Abstract: As the detection of the crowd abnormal behavior in the video, a method of crowd abnormal behavior detection based on scene similarity and optical flow is proposed. In this method, the convolutional network and optical flow is respectively used to extract the appearance features and the motion features of the crowd in the video. In terms of the appearance features, the abnormal values of scene similarity are obtained by means of the perceptual hash algorithm (PHA). In the aspect of the motion features, the Shi?Tomasi feature extraction algorithm is improved, and the abnormal values of motion features are extracted by means of the local optical flow method. The fusion of the two features′ abnormal values is taken as the basis for the determination of abnormal behavior. In the aspect of the abnormal behavior modeling, modeling of the abnormal values is carried out with the single classification SVM. The contrast test was performed on the UMN benchmark data sets. The fusion method proposed in this paper has achieved good detection results, and the AUC value can reach 0.91.
Keywords: abnormal behavior detection; appearance feature extraction; motion feature extraction; feature fusion; behavior modeling; contrast test
0 引 言
近年來,群体斗殴、非法聚集等群体异常行为时有发生,对社会的公共安全造成很大的威胁[1]。因此,对监控场景的群体异常行为检测,实现在线预警成为计算机视觉和模式识别等领域重要的前沿课题。然而,由于视频中人群运动的复杂性和异常事件的多样性,难以对视频中的异常行为进行准确描述。其次,视频监控大都部署在人群密集的公共场所,监控场景多样且人群中个体之间存在相互遮挡,导致提取的行为特征不准确、异常行为建模困难等问题。
目前,国内外学者在群体异常行为检测方面已经取得了一定成果。其中,Mehran等人提出了社会力异常行为检测模型,该方法利用社会力模型描述的视频序列中的运动特征与周围空间的相互作用力,并根据社会力的强度描述视频图像中运动物体的行为,最后使用词袋模型对当前帧的异常行为进行检测[2]。基于光流信息,研究人员建立了多种模型进行异常行为检测,如运动影响系数矩阵[3]、运动能量模型[4]、能量模型[5]等。
另外,文献[6]提出对时空视频序列进行聚类的异常行为检测方法,该方法首先利用交互式视频抠像技术提取训练模板,并利用改进的均值漂移算法将视频自动分割成三维时空块;然后在视频上滑动模板并计算匹配距离,从而实现对异常行为的检测。这些方法主要关注的是视频序列中运动目标轨迹或光流和梯度等底层次特征的表示[7?9],并且需要手动提取特征。这种人工干预的特征提取方式,导致从视频序列中提取出的运动和外观特征主观性强、描述性弱,只能适用于单一场景的异常检测,难以应用于复杂多变的现实场景中。 近年来,深度学习的方法在图像领域得到了广泛的研究,如物体分类[10]、人脸识别[11]、文字识别[12]、行为识别[13]等。其中,卷积神经网络以其优秀的特征提取能力成为图像研究领域最为有效的工具之一,并得到广泛的应用。因此,本文将卷积网络应用于人群异常行为检测中,提取更深层次的图像特征。然而,在人群异常行为检测问题中,由于异常数据集常常难以收集,所以无法完成对多层卷积网络反向传播的训练过程,即使可以完成训练,也会由于数据集中训练样本数量较少,导致过拟合等问题。
根据文献[14],可以使用已经训练好的AlexNet卷积网络模型进行特征提取,不仅降低模型训练复杂度,而且增加了卷积网络的灵活性。由于卷积网络提取的特征映射较多,本文使用感知哈希算法进行编码压缩后再进行相似度比较。此外,为了提高模型的鲁棒性,将局部光流方法融合到基于CNN的感知哈希算法中;然后融合两种异常值并使用单分类SVM进行异常行为建模。经过在UMN[15]基准数据集上验证,本文提出的算法能够取得较好的异常检测效果。
1 算法思路及步骤
本文从场景相似性和局部光流值变化的角度出发,提出了一种鲁棒的视频人群异常行为检测模型。首先,利用迁移学习的思想,将视频序列输入已经预训练好的卷积网络提取人群外观特征;并使用感知哈希算法对提取到的特征图进行编码,得到当前图像特征指纹;计算相邻帧间图像指纹相似度,并根据相似度的大小确定当前帧的异常程度。视频文件的特征不仅包含了图像外观高层语义特征,还包括视频中目标移动所产生的运动特征。
本文提出使用基于Shi?Tomasi特征点增强的Lucas?Kanade光流方法提取目标的局部光流特征。最后,将帧间相似度和光流值融合作为最终异常行为判定的依据。在异常行为建模方面,本文使用One?class SVM对正常情况下的融合值进行建模,从而避免阈值等不确定性因素对人群异常检测的影响。
具体框架如图1所示。
1.1 深度外观特征提取
外观特征提取是进行图像高层语义识别的重要一步。为了能够提取更好的外观特征,本文使用卷积网络作为特征提取的工具。目前很少有专门为异常检测任务训练的卷积网络模型。但是,卷积网络在图像处理中扩展性较强,可以将图像分类任务中得到极好验证的网络模型迁移在其他类似的图像处理任务中。
本文使用AlexNet[10]卷积网络模型,包含5个卷积层和两个全连接层。该模型训练了1 183个类别,每个类别都有来自MIT数据库的205个场景类别,以及360万幅来自ILSVRC2012 (ImageNet)训练数据集的978个对象类别[16]。本文为了能够得到输入图像的特征图,移除AlexNet卷积网络的最后两个全连接层。通过该模型提取的特征图,能够保持原图更多的局部和全局信息,对应着原图中更大范围的感受野。因此,可以保持更多的空间上下文信息。当一帧图像经过本文的卷积网络,会产生256个6×6的特征图[It],记为:
[It=fti,j,1,fti,j,2,…,fti,j,K]
式中:[K]的值为256,表示第[t]幀的图像经过卷积网络提取的256个特征图;[i,j]表示二维特征图的第[i]行第[j]列的像素坐标点。AlexNet网络结构如图2所示。
1.2 感知哈希编码
由于视频图像的计算代价较高,为了提高视频中帧间的异常检测的处理效率,降低模型的计算复杂度,本文使用基于图像指纹的感知哈希算法。感知哈希(Perceptual Hash)是一种基于认知心理学的信息加工理论,由多媒体数据集到多媒体感知摘要集的一类单向映射,将具有相同感知内容的多媒体数字表示成唯一的映射作为一段数字摘要,并满足感知安全性要求的哈希算法[17]。
此外,为了压缩数据量,消除冗余数据,感知哈希算法使用2?D离散余弦变换(Discrete Cosine Transform,DCT)[18]进行数据压缩,DCT图像变换编码技术可以在消除冗余数据的同时,尽可能多地保留原始图片的有用信息,能够有效地避免在存储、传输、处理等阶段带来的额外计算代价。本文对视频每一帧提取到的卷积特征使用感知哈希算法进行编码。根据第1.1节可知,第t帧图像经过AlexNet卷积网络后产生的卷积特征图为[It=fti,j,1,fti,j,2,…,fti,j,K]。本文针对卷积网络提取到的特征图使用感知哈希算法进行编码,得到第[t]帧图像的[K]个特征图指纹集合[Φt]:
[Φt=T1,T2,…,TK]
式中:[TK]为每个特征图[ft]生成一个64位的特征图像指纹;[K]的值为256,表示256个特征图。提取视频帧的图像指纹结构图如图3所示。
为了有效地捕捉视频序列在时域上的变化,本文取连续10帧视频块的特征相似度的均值作为当前帧的异常度。由于提取到的图像指纹编码为二进制编码,所以本文使用海明距离度量帧间相似度。计算公式如下:
[Asimilarity=1Nt-10≤i≤tHΦi,Φi]
式中:[N]取10,即前10帧与当前哈希编码比较相似度;[H·]为相似性度量函数,取海明距离;[Φi]为当前图像的特征指纹。
1.3 改进Shi?Tomasi特征点检测方法
Shi?Tomasi算法是对Harris算法的简单改进,用于检测图像中沿着各个方向灰度值均发生剧烈变化的点,或是边缘曲线上取极大值的点[19]。该算法中引入了一阶偏导数即图像中邻域像素梯度,计算图像局部的小窗口沿着各个方向以微小量移动后图像灰度的变化。其基本思想为:若沿着任意方向移动灰度变化都很小,则小窗口处于图像的平坦区域;若沿某一特定方向移动灰度变化很小,且沿着其垂直的方向移动,灰度变化很大,则小窗口在图像边缘处;若沿任意的方向移动灰度变化都很大,则小窗口在角点处。若局部窗口[W(x,y)]平移[Δx,Δy]后,灰度变化的形式化表示如下: [GΔx,Δy=W(x,y)ω(x,y)Ix,y-I(x+Δx,y+Δy)2] (1)
式中:[ω(x,y)]为加权函数,常用高斯加权函数;[Ix,y]表示点[x,y]处的灰度值。将式(1)泰勒展开,得:
[GΔx,Δy=Δx,ΔyM(x,y)ΔxΔy]
[Mx,y=W(x,y)ω(x,y)I2xIxIyIxIyI2y]
式中,[Ix],[Iy]分别表示图像灰度在[x],[y]方向上的梯度值。定义特征点响应函数为:
[R=min (λ1,λ2)]
通过计算自相关函数的两个特征值,若最小的特征值[R]大于阈值时,当前特征点即为Shi?Tomasi角点。
Shi?Tomasi角点提取方法具有较好的稳定性,不易受到光照条件、噪声等影响。但是由于人群场景的复杂性,利用该方法检测出的角点数量有限,不能很好地表示关键位置的运动特征。所以,为了提高表征显著运动特征的能力,本文提出将LOF(Local Outlier Factor)[20]异常检测算法应用在角点特征的检测中增加异常角点数量。当前帧初始角点[Pt]为Shi?Tomasi检测的默认角点[Pt0]以及前两帧的LOF算法检测出的光流显著变化的角点[St-1],[St-2]的总和。具体算法如下:
算法描述:
begin
for each frame in T:
1) 计算当前帧图像的Shi?Tomasi角点[Pt0]
2) 计算前两帧每一个特征点的光流;
[Vt-1=Vt-1p0,Vt-1p2,…,Vt-1pn]
[Vt-2=Vt-2p0,Vt-2p2,…,Vt-2pn ]
3) 使用LOF算法提取显著特征点;
[St-1=LOFVt-1]
[St-2=LOFVt-2]
4) 保留前两帧检测出的显著角点,添加到当前初始角点中,作为检测下一帧的初始局部特征点;
[Pt=Pt0∪St-1∪St-2]
end
改進Shi?Tomasi特征点检测算法后,特征点检测在UMN数据集上的检测结果如图4所示。
图4中,左边是原始Shi?Tomasi算法检测后的特征角点;右边是经过改进后的Shi?Tomasi特征点增强算法。其中绿色为增强到当前帧的特征角点,黄色为原始角点。从图中可以看出,在运动较剧烈的位置,角点数量有了明显提高。
1.4 金字塔Lucas?Kanade光流提取算法
光流(Optical Flow)的基本定义是三维空间中运动目标在成像平面中对应像素的二维运动瞬时速度。其中,LK(Lucas?Kanade)算法是一种稀疏光流跟踪方法,与Horn?Schunck算法的全局平滑约束条件不同,LK光流法认为像素在小范围区域有近似相同的运动。因此,只需要获取兴趣点领域内的局部信息即可,即光流的局部平滑约束。但是,利用小范围领域来度量光流的方法存在不足之处,当较大的运动出现时,会导致特征点移出度量领域的情况发生,从而造成无法再找到这些点。因此,有学者提出金字塔LK光流算法,即从图像金字塔的最高层开始向金字塔的底层进行迭代跟踪。基于金字塔模型的LK光流跟踪方法既可以估计小范围内微小的光流变化,也可以估计特征角点运动较大时的光流。金字塔光流如图5所示。
因此,本文针对提取到的人群特征点,使用光流检测效果较好的金字塔LK光流方法计算特征点光流变化情况,并将光流作为运动特征用于人群异常事件建模。
2 群体异常行为建模
由于在复杂的人群视频场景中,异常行为发生的次数较少且模式多变[21]。针对这个特点,本文使用基于单类别的异常检测技术One?class SVM。该方法假设训练数据集服从一个统一的分布,并学习该分布的边界,以此界定当前观测样本是否属于该类。如果观测样本被分在边界之外,则被认为是异常样本点。所以,根据计算到的帧间相似性和局部光流的异常值,选用正常情况下的数据样本,对One?class SVM进行训练,从而完成对异常事件的建模。
2.1 One?class SVM模型
One?class SVM是一个使用广泛的异常检测算法,该方法的主要思路是学习训练数据集的外接超平面。当观测样本数据落在超平面的外面,则当前观测判定为异常。假设给定训练样本数据为[D=dkiNki=1],则One?class SVM模型优化方程形式化为:
[minw,ρ12w2+1vNki=1Nkξi-ρ]
[s.t. wTΦdki≥ρ-ξi,ξi≥0]
式中:[w]为需要根据训练数据学习的权重向量;[ρ]为偏置值;超参数[v∈(0,1]]表示训练误差分数的上界和支持向量分数的下界;[Φ?]为特征映射函数,将原始空间的样本数据[dki]映射到更高维的空间,使其能够线性可分,进而求解最大超平面。本文由于异常值样本数据维度不高,数据分布较为简单,所以[Φ?]选用线性映射函数。本文中,使用UMN数据集中正常情况下的融合异常值,进行单分类SVM模型的训练。
2.2 异常值融合
根据计算的帧间不规则度和局部光流的异常值,本文采用乘积的方式进行融合操作,具体公式如下:
[At=(1-Atsimilarity)R(Atlk)]
式中:[(1-Atsimilarity)]表示帧间不规则度;[Atlk]表示局部光流值。此外,对当前帧的局部光流值进行归一化操作,归一化函数[R(?)]使用双曲正切函数。根据异常规则,当场景中发生异常行为时,帧间不规则度和局部光流值会出现急剧突变的情况。 计算得到当前帧的异常值[At]后,根据已经训练好的One?class SVM模型确定当前帧是否为异常帧,判别公式如下:
[正常帧, 模型为inlier异常帧, 模型为outlier]
3 实验结果与分析
本实验的硬件平台采用Intel i5 2.3 GHz,4 GB内存,软件平台为Windows环境下Python语言编写试验代码。选取UMN人群异常数据库作为模型测试数据集。试验结果表明本文提出的方法能够有效地对人群异常事件进行检测。
3.1 数据集
UMN数据集包括绿地、室内、广场三个场景共11个视频片段,视频像素分辨率均为240×320。场景中包含的正常行为定义为:一群人停住、行走或游荡;异常行为有:人群奔跑、人群逃散等视频场景中目标的剧烈运动情况。UMN数据集人群正常与异常行为举例如图6所示。
3.2 实验设计
为了验证本文提出方法的有效性,分别在场景相似性、局部光流、融合场景相似性和局部光流三种情况下进行测试。在UMN数据集中各场景的检测结果图7所示。其中,图7为三种方法的异常值波动曲线,阴影区域为算法检测到的异常帧,曲线绿色部分表示标记为正常帧的波动情况,曲线红色部分表示标记为异常的波动情况。表1为绿地场景一的量化数据。本文取绿地场景一中前600帧作为实验数据。
从图7可以明显地看出异常值的幅度变化情况,当异常值出现急剧变化的情况时,则表明当前时刻该场景发生了异常事件。三种方法均能检测到异常事件的发生,但是可以从图7a)明显看出在使用CNN及感知哈希算法情况下,检测到的异常事件存在一定的滞后;而图7b)使用LK局部光流算法虽然在检测及时性方面有所改善,但是存在误检的情况;图7c)是融合了两种算法后的异常值波动情况,可以看出在误检率和检测精度方面都有所改善。
表1为三种方法检测结果的具体量化,对比三种检测方法,在检测准确率方面结合CNN的感知哈希算法、LK局部光流、融合算法分别为0.90,0.97,0.97。但是,融合两种算法的檢测结果在正常帧标记下的误检帧数有所降低。
本文方法在室内场景一数据集中前468帧的实验结果如图8、表2所示。
从图8可以看出在该场景下的检测效果比绿地场景稍差一些。具体体现在图中,表现为异常帧波动情况较小,异常值抖动较为剧烈。从图8a)明显看出,在使用CNN及感知哈希算法情况下,当异常事件发生时,曲线虽然有所上升但是起伏程度不明显;LK光流(图8b))、融合方法(图8c))两种方法在异常值发生时,抖动剧烈,会出现在异常时刻曲线骤降的情况。本文归结该现象的原因为数据集场景受明暗、对比度等客观因素影响过大。导致比较帧间相似度时人群处于较暗部分,未能有效提取到人群差异和LK局部光流信息。
在室内场景的量化数据如表2所示,三种方法准确率分别为0.74,0.89,0.90。其中融合感知哈希算法和LK局部光流方法在正常标记下误检帧的数量有所上升,但是在准确率方面可以保持较好的检测效果。
本文方法在广场场景一数据集前625帧的测试情况如图9、表3所示。
从图9可直观地看到,三种方法均能较好地检测到异常事件的变化过程。但是CNN及感知哈希算法(图9a)和LK局部光流(图9b))均存在一定的误检帧;而图9c)是融合了两种算法,可以看出在正常标记下误检帧数和检测精度方面均有所改善。从表3试验结果可以看出,检测结果较好。结合CNN的感知哈希算法、LK局部光流、融合算法准确率分别达到0.97,0.96,0.98。
3.3 对比实验
为了评估和量化本文算法的有效性,本文选用一些已经取得较好效果的经典算法光流(Optical Flow)、社会力模型(Social Force)[2]作相关对比试验。结果显示,本文提出的算法在准确率方面能够达到与最好算法接近的水平。此外,为了说明卷积网络和感知哈希算法的结合能够有效地检测密集人群的异常行为,测试了不使用卷积网络的情况下感知哈希算法对异常行为的检测情况,对比试验结果如表4所示。
对比上述算法的AUC值,在不使用卷积网络提取高层外观特征的情况下,感知哈希算法的AUC值仅为0.51;基于CNN的感知哈希方法和LK局部光流的方法的AUC值分别为0.79,0.88;而融合了基于CNN的感知哈希方法和LK局部光流的方法取得了比使用单一算法更好的效果,AUC最终取得了0.91的良好效果。
4 结 语
本文针对视频中人群的异常行为,提出一种基于场景相似性和光流的人群异常行为检测模型。首先,利用卷积网络提取人群外观特征,并使用感知哈希算法对提取到的特征图进行编码,计算相邻帧间图像指纹的相似度,根据相似度的大小确定当前帧外观特征的异常程度。在运动特征异常检测方面,本文使用基于Shi?Tomasi特征点增强的Lucas?Kanade光流方法提取目标的局部光流特征。最后,将帧间相似度和光流值融合作为最终异常行为判定的依据。在异常行为建模方面,本文使用单分类SVM对正常情况下的融合值进行建模,从而避免阈值等不确定性因素对人群异常检测的影响。经过在UMN人群数据集上验证,本文提出的算法能够较好地检测出视频中人群异常,并取得较好的检测效果。
注:本文通讯作者为杨文忠。
参考文献
[1] HALBE M, VYAS V, VAIDYA Y M. Abnormal crowd behavior detection based on combined approach of energy model and threshold [C]// International Conference on Pattern Recognition and Machine Intelligence. Kolkata: Springer, 2017: 187?195. [2] MEHRAN R, OYAMA A, SHAH M. Abnormal crowd behavior detection using social force model [C]// 2009 IEEE Computer Society Conference on Computer Vision and Pattern Recognition. Miami: IEEE, 2009: 935?942.
[3] LEE D G, SUK H I, LEE S W. Crowd behavior representation using motion influence matrix for anomaly detection [C]// 2013 2nd IAPR Asian Conference on Pattern Recognition. Naha: IEEE, 2013: 110?114.
[4] XIONG G, WU X, CHEN Y L, et al. Abnormal crowd behavior detection based on the energy model [C]// IEEE International Conference on Information and Automation. Shenzhen: IEEE, 2011: 495?500.
[5] CHEN T, HOU C, WANG Z, et al. Anomaly detection in crowded scenes using motion energy model [J]. Multimedia tools and applications, 2017, 77(11): 14137?14152.
[6] YONG L, HE D. Video?based detection of abnormal behavior in the examination room [C]// International Forum on Information Technology and Applications. Chengdu: IEEE, 2010: 295?298.
[7] ZHANG Y, QIN L, YAO H, et al. Beyond particle flow: bag of trajectory graphs for dense crowd event recognition [C]// IEEE International Conference on Image Processing. Melbourne: IEEE, 2014: 3572?3576.
[8] YANG C, YUAN J, LIU J. Abnormal event detection in crowded scenes using sparse representation [M]. Amsterdam: Elsevier Science Inc, 2013.
[9] LU C, SHI J, JIA J. Abnormal event detection at 150 FPS in Matlab [C]// IEEE International Conference on Computer Vision. Sydney: IEEE, 2014: 2720?2727.
[10] KRIZHEVSKY A, SUTSKEVER I, HINTON G E. ImageNet classification with deep convolutional neural networks [J]. Neural information processing systems. 2012, 25(2): 1097?1105.
[11] HAN X, DU Q. Research on face recognition based on deep learning [C]// 2018 Sixth International Conference on Digital Information, Networking, and Wireless Communications. Beirut: IEEE, 2018: 147?155.
[12] QU X, WANG W, LU K, et al. In?air handwritten Chinese character recognition with locality?sensitive sparse representation toward optimized prototype classifier [J]. Pattern recognition, 2018(78): 267?276.
[13] LUVIZON D C, PICARD D, TABIA H. 2D/3D Pose estimation and action recognition using multitask deep learning [J]. Computer vision and pattern recognition, 2018(2): 267?276.
[14] RAZAVIAN A S, AZIZPOUR H, SULLIVAN J, et al. CNN features off?the?shelf: an astounding baseline for recognition [J]. Computer science, 2014(15): 512?519.
[15] Anon. Umn anomaly dataset [EB/OL]. [2017?12?05]. http://mha.cs.umn.edu/Movies/Crowd?Activity?All.avi. [16] SABOKROU M, FAYYAZ M, FATHY M, et al. Deep?anomaly: fully convolutional neural network for fast anomaly detection in crowded scenes [J]. Computer vision & image understanding, 2016, 47: 215?221.
[17] LIN K, YANG H F, HSIAO J H, et al. Deep learning of binary hash codes for fast image retrieval [C]// 2015 IEEE Conference on Computer Vision and Pattern Recognition Workshops. Boston: IEEE, 2015: 12110?12115.
[18] 章毓晋.图像工程(下册):图像理解[M].4版.北京:清华大学出版社,2018.
[19] ZHENG S, WEI W. Video?based abnormal crowd behavior detection on bus [J]. Journal of Nanjing University of Science and Technology, 2017, 41(1): 65?73.
[20] BREUNIG M M, KRIEGEL H P, NG R T. LOF: identifying density?based local outliers [C]// ACM Sigmod International Conference on Management of Data. Dallas: ACM, 2000: 93?104.
[21] 周培培,丁慶海,罗海波,等.视频监控中的人群异常行为检测与定位[J].光学学报,2018(8):89?97.
作者简介:马国祥(1993—),男,新疆人,硕士研究生,研究领域为计算机视觉、图像理解。
杨文忠(1971—),男,河南人,博士,副教授,CCF会员,研究领域为舆情分析、信息安全、机器学习。
温杰彬(1994—),男,河南人,硕士研究生,研究领域为计算机视觉。
姚 苗(1993—),女,新疆人,硕士研究生,研究领域为自然语言处理。
秦 旭(1994—),女,硕士研究生,研究领域为自然语言处理。
转载注明来源:https://www.xzbu.com/8/view-15122193.htm