一种基于cnn和lstm的暴恐视频检测方法

文档序号:10489355阅读:727来源:国知局
一种基于cnn和lstm的暴恐视频检测方法
【专利摘要】本发明公开了一种基于CNN和LSTM的暴恐视频检测方法,属于模式识别、视频检测、深度学习技术领域。所述检测方法首先对待检测视频进行关键帧采样,并提取关键帧特征;然后进行视频层面的表达与判别,包括CNN语义模块的VLAD特征表达与SVM判别、CNN场景模块的场景VLAD特征表达与SVM判别,以及LSTM时序模块的LSTM判别;最后进行结果融合。本发明利用了CNN在图像特征提取和LSTM在时序序列表达方面的优势,并充分考虑暴恐视频在场景方面的特色,实际测试中检测指标mAP值达到98.0%,接近人工作业水准。在运行速度方面,仅采用单机GPU加速的方式,每秒钟便可以处理76.4秒的网络视频,适于阻断暴恐视频在大型视频网站上的传播,有利于维护社会稳定和国家长治久安。
【专利说明】
一种基于CNN和LSTM的暴恐视频检测方法
技术领域
[0001 ]本发明属于模式识别、视频检测、深度学习技术领域,具体涉及一种基于CNN和 LSTM的暴恐视频检测方法。
【背景技术】
[0002] 近年来,大量境内外暴力恐怖视频在互联网上非法传播,已经成为危害社会稳定 的重大毒瘤。但相关的自动化暴恐视频检测技术尚处于研发阶段,大多数是采用已有的事 件视频检测方法,这些方法基本可以分为三类:基于图像局部特征的视频检测方法、基于语 义概念的视频检测方法和基于卷积神经网络(Convolutional Neural Network,简称CNN) 的视频检测方法。
[0003] 参考文献[I ] (Sun,Chen,and Ram Nevatia · "Large-scale web video event classification by use of fisher vectors ,In Applications of Computer Vision (WACV) ,2013IEEE Workshop on,pp. 15-22. IEEE,2013.)公开了一种基于图像局部特征的 视频检测方法,首先在关键帧层面,提取图像的局部特征,例如尺度不变特征变换(Scale-invariant Feature Transform, 简称SIFT) 特征; 随后在视频层面 ,采用Fi sher核向量 (Fisher Vector)表达的方式获取视频的全局表达;最后再利用支持向量机(Support Vector Machine,简称SVM)分类器,判别视频的类别,例如是暴恐视频或者非暴恐视频。该 方法在训练过程中不需要过多人工标注,简单易行,但存在的以下不足:(1)检测准确率受 限于所采用的局部特征。(2)检测速度较慢。SIFT等局部特征的计算开销较大,导致该方法 不宜应用于大规模视频检测任务,实用性不高。
[0004] 参考文献[2] (Liu,J. ;Yu,Qian; Javed,0·;Ali,S·;Tamrakar,A. ;Divakaran,Α·; Hui Cheng;&Sawhney,H.,Video event recognition using concept attributes,WACV, 2013.)公开了一种基于语义概念的视频检测方法,首先需要在关键帧层面,采用局部特征 提取与SVM分类器相结合的方式,判别画面中各种预设语义概念(对于暴恐视频而言,这些 语义概念包括但不限于枪支、爆炸、蒙面人、暴恐组织标志等)的置信度;随后在视频层面, 采用Fisher Vector表达的方式,生成视频的全局特征;最后再采用SVM分类器,判别视频的 类型。由于预设语义概念具有导向性,基于语义概念的视频检测方法对于暴恐视频识别的 精度更高,但具有以下不足:(1)训练过程中需要大量有标注的图像样本,人工开销较大。 (2)当待检测的暴恐视频刚好不包含任一预设概念时,检测精度没有保障。(3)检测速度较 慢。
[0005] 参考文献[3 ] (Xu,Zhongwen,Yi Yang,and Alexander G · Hauptmann ·" Adiscriminative CNN video representation for event detection.^arXiv preprint arXiv: 1411.4006(2014).)公开了一种基于CNN语义特征的视频检测方法,在训练阶段,用 大量有标注图像训练CNN语义模型。而在测试阶段,利用已训练的模型提取关键帧的CNN语 义特征(如FC6,FC7,SPP等特征),随后在视频层面采用局部特征聚合描述子(Vector of Locally Aggregated Descriptors,VLAD)方法,进行特征的表达并获得视频的高维特征, 该方法在多媒体事件检测(Multimedia Event Detection,简称MED)数据集上获得了较好 的效果。该方法充分利用了 CNN在静态图像特征提取方面的优势,可以在暴恐视频检测中取 得较好的效果,但仍存在以下可以提高的方面:(1)该方法在VLAD特征表达的过程中对于视 频的时序特性运用并不充分。(2)该方法仅提取了关键帧的CNN语义特征,没有关注到暴恐 视频的其他个性化特征。综上,基于CNN语义特征的视频检测方法仍有一定的性能提升空 间。

【发明内容】

[0006]为了解决现有技术中存在的问题,本发明提出了一种基于CNN和长短时记忆单元 (Long Short-term Memory,简称LSTM)的暴恐视频检测方法。该方法利用了CNN在图像特征 提取和LSTM在时序序列表达方面的优势,并充分考虑暴恐视频在场景方面的特色,实际测 试中检测指标mAP值达到98.0 %,接近人工作业水准。在运行速度方面,仅采用单机GPU加速 的方式,每秒钟便可以处理76.4秒的网络视频(平均码率为632kbps),适于阻断暴恐视频在 大型视频网站上的传播,有利于维护社会稳定和国家长治久安。
[0007]通过对大量暴恐视频的分析发现,暴恐视频在时序结构和拍摄场景两方面极具特 色。基于此发现,本发明在原有基于CNN语义特征的视频检测模块(简称CNN语义模块)基础 上,增加了基于CNN场景特征的视频检测模块(简称CNN场景模块)以及基于LSTM的时序检测 模块(简称LSTM时序模块)。对于待检测视频,本发明采用语义、场景和时序结构三方面检测 结果相融合的方式,更为全面的判别视频是否涉恐,降低了误检率,提高了方法的实用价 值。
[0008]本发明提供的基于CNN和LSTM的暴恐视频检测方法,具体包括如下步骤:
[0009]第一步,对待检测视频进行关键帧采样,并提取关键帧特征;
[0010] 第二步,利用提取到的关键帧特征,进行视频层面的表达与判别;包括CNN语义模 块的VLAD特征表达与SVM判别、CNN场景模块的场景VLAD特征表达与SVM判别,以及LSTM时序 模块的LSTM判别。
[0011] 第三步,结果融合。采用了基于校验集mAP值的层次融合策略,即对于一个待识别 视频,分别计算三个模块(CNN语义模块、CNN场景模块和LSTM时序模块)的判决得分,再以各 模块在校验集上的mAP值作为权重进行加权融合。
[0012] 本发明的优点或有益效果在于:
[0013] (1)现有技术中单采用CNN语义模块忽略了视频的时序信息。为充分利用暴恐视频 在时序结构方面的特点,本发明在原有方法的基础上,增加了LSTM时序模块。测试结果表 明,引入时序信息,对于识别精度的提升较为显著。
[0014] (2)本发明基于对大规模暴恐视频样本的统计与分析,挖掘到暴恐视频在录制场 景方面极具特色。因此,在原有结构的基础上,本发明将CNN场景模块加入到暴恐视频检测 中,保证了在特定视频场景下的识别精度。
[0015] 本发明提供的基于CNN和LSTM的暴恐视频检测方法,主要应用于政府网络监管部 门和大型视频网站,用于检测用户上传的视频是否涉及暴力恐怖内容。一旦发现视频疑似 包含此类非法内容,应及时发出警告,交人工复核:
[0016] (1)本发明可以应用于政府网络监管部门"铲除网上暴恐音视频"的系列行动中, 在原有基于人工举报的基础上,采用本发明对于主流视频网站的在线视频进行抽样检测, 对于发现问题的视频网站下发整改通知,维护境内互联网环境的安全。
[0017] (2)本发明可以应用于大型视频网站的内容安全系统中,既可以在用户上传视频 过程中过滤掉暴恐内容,又可以对于已有库存视频进行复查,避免因为触及内容安全的红 线给网站造成不必要的损失。
【附图说明】
[0018] 图1是本发明提供的视频检测方法流程框架图。
[0019] 图2是本发明中SPP特征提取示意图。
[0020] 图3是本发明中LSTM神经单元结构示意图。
【具体实施方式】
[0021]下面结合附图和实施例对本发明进行详细说明。
[0022]本发明提供一种基于CNN和LSTM的暴恐视频检测方法,如图1所示,所述的视频检 测方法具体包括如下步骤:
[0023]第一步,对待检测视频进行关键帧采样,并提取关键帧特征;
[0024] (1)对于待检测视频,首先进行等间隔关键帧采样,采样间隔为1秒,得到关键帧图 像。
[0025] (2)将关键帧图像下采样至227 X 227,输入到CNN语义模型和CNN场景模型中,分别 提取该关键帧图像的CNN语义特征和CNN场景特征。
[0026] 所述的CNN语义特征和CNN场景特征又分别具体包括FC6特征、FC7特征和SPP特征 三种特征。其中,FC6特征和FC7特征为常用的4096维向量,而SPP特征提取过程较为特殊,下 面详细说明。
[0027] 如图2中给出的SPP特征提取示意图,SPP特征提取自Conv5层(Conv5全称 convolutional layer 5,即CNN模型卷积第5层)之后,Conv5层充分保留了目标的空间位置 信息,但由于其特征维度过高,不便于直接利用。为避免这一问题,首先将Conv5层的特征图 样按照1X1,2X2和3X3进行空间区域划分,然后在每个划分区域内采用最大值池化的方 法得到14个256维(256D)的向量,每一个向量的每一维特征都对应着某一种显式或隐式的 语义概念,即SPP特征。
[0028]对于每一个关键帧图像,本发明中都提取三种CNN语义特征(包括SPP、FC6和FC7特 征)和三种CNN场景特征(包括SPP、FC6和FC7特征),随后将他们按需分别输入到不同的视频 层面判别模块中,进行进一步处理。
[0029] 第二步,利用提取到的关键帧特征,进行视频层面的表达与判别;
[0030] 所述的视频层面包含三个独立的特征表达与判别,分别为CNN语义模块的VLAD特 征表达与SVM判别、CNN场景模块的场景VLAD特征表达与SVM判别,以及LSTM时序模块的LSTM 判别。
[0031] 所述的CNN语义模块的语义VLAD特征表达与SVM判别,输入特征为三种CNN语义特 征(SPP,FC6,FC7)。首先采用主成分分析(Principal Components Analysis,简称PCA)的方 法,分别将三种特征降至128维、256维和256维。
[0032] 随后,应用VLAD方法,对降维后的D维特征向量,向预先通过K-均值聚类(K-Means) 得到的聚类中心集合C={ci,C2, . . .,ck}进行差分累积投影。令V={vi,V2, . . .,vn}表示一个 包含N个已降维特征向量的集合,则与聚类中心以相关的差分累积向量diffk可以表示为:
[0033]
.⑴
[0034] 其中,i = l,2···,N;k=l,2,···,Kc3NN(Vi)表示已降维特征向量Vi在聚类中心集合C 中的欧氏距离的最近邻。对每个差分累积向量diffKl < j SK)分别进行I2范数归一化,再 将K个差分累积向量级联,便得到了最终的KXD维VLAD特征表达。此处聚类中心数目K被设 定为256,则SPP,FC6,FC7对应VLAD特征表达后的维度分别为32,768维,65,536维和65,536 维。
[0035]最后,训练线性SVM分类器完成视频涉恐置信度的判定。令视频VLAD特征表达组成 的样本集合为X= {X1,X2, . . .,XN},对应视频类别(暴恐,非暴恐)集合为Y= {yi,y2, . . .,yN}, 其中yie{+i,-i},通过几何间隔最大化将其转换为求解凸二次优化问题,学习得到的分割 超平面为:
[0036] w · x+b = 0 (2)
[0037] 其中,w和b分别为分割超平面的斜率和偏置量。可以将最大化分割超平面的几何 间隔,表示为带不等式约束条件的最优化问题:
[0038] (3)
[0039] (4)
[0040] 其中,γ表示样本点Xl到分割超平面的几何距离。该问题可以通过极大极小化拉 格朗日对偶问题进行优化,并通过序列最小化(Sequential Minimal Optimization,简称 SM0)算法进行求解。求解后得到最优的分割超平面的参数wlPb'则暴恐视频分类决策函数 可以表示为:
[0041 ] (5)
[0042] ?。当前VLAD特征表达被判别为暴恐的置信度为:
[0043] (6)
[0044] SPP,FC6,FC7的VLAD特征表达分别通过线性SVM分类器,最后输出三种CNN语义特 征FC6、FC7和SPP特征所对应的判别置信度Ps(fe6),Ps (fe7WPPs(spp)。
[0045]所述的CNN场景模块的场景VLAD特征表达与SVM判别,输入特征为三种CNN场景特 征(SPP,FC6,FC7)。该模块的处理流程与语义VLAD特征表达与SVM判别模炔基本一致,最后 输出三种CNN场景特征FC6、FC7和SPP特征所对应的判别置信度和。
[0046]所述的LSTM时序模块的LSTM判别,输入特征为两种CNN语义特征(FC6,FC7)。首先 将两类特征分别输入到LSTM判别模型中。该模型包含2层LSTM单元,第一层包含1024个神经 元,第二层包含512个神经元。每个LSTM神经元的结构如图3所示。LSTM神经单元的前向传导 过程可以表示为:
[0047] it = o (WiXt+Uiht-1+bi) (7)
[0048] f t = σ (fff xt+Ufht-i+bf) (8)
[0049] 〇t = 〇 (ff〇xt+U〇ht-i + b〇) (9)
[0050] ct = ft*ct-ι + it* Φ (WcXt+Ucht-i+bc) (10)
[0051] ht = 〇t*Φ (ct) (11)
[0052] 其中,两种非线性激活函数分别为?7(Λ·,) = (i +t/_v )_1 和 Φ (Xt) = tanh(xt) 和ct分别代表t时刻输入门、记忆门、输出门和核心门所对应的状态量。对于每一个逻辑门, Wi,Wf,W。和Wc分别代表输入门、记忆门、输出门和核心门所对应的权重转移矩阵,U i,Uf,U。和 Uc分别代表输入门、记忆门、输出门和核心门所对应的t-ι时刻隐藏层变量ht-1对应的权重 转移矩阵,bi,b f,b。,bc则代表输入门、记忆门、输出门和核心门所对应偏置向量。
[0053]首先,t时刻输入特征Xt和t-Ι时刻隐藏层变量hn,在权重转移矩阵W和U,以及偏 置向量b的共同作用下,生成t时刻的状态量it,ft和〇t,见公式(7)至公式(9)。进一步在t-1 时刻核心门状态量辅助下,生成t时刻核心门状态量ct,见公式(10)。最终,在t时刻核 心门状态量ct与输出门状态量 〇t的作用下,生成t时刻隐藏层变量ht,进而影响t+Ι时刻LSTM 神经元的内部变化,见公式(11)。
[0054]第二层LSTM神经元的输出与全连接层分类器相连,最终输出两种CNN语义特征FC6 和FC7特征对应的时序判别置信度Pt(fd5)和Pt(fc:7)。
[0055]第三步,结果融合。
[0056]为保证融合效率,在结果融合方面采用了基于校验集mAP值的层次融合 (Hierarchical Fusion)策略,即对于一个待识别视频,分别计算三个模块(CNN语义模块、 CNN场景模块和LSTM时序模块)的判决得分,再以各模块在校验集上的mAP值作为权重进行 加权融合。实际操作中,首先分别进行CNN语义模块、CNN场景模块和LSTM时序模块的得分融
合,随后里讲轩仝届的犋分副!会.
[0057] (12)
[0058] (13)
[0059] (14)
[0060] (卜)
[〇〇611其中,Ps ,Pt^PPt分别代表基于CNN语义模块、CNN场景模块和LSTM时序模块的判决 得分;ω s、ω JP ω *分别为CNN语义模块、CNN场景模块和LSTM时序模块对应的校验集mAP值; 1^& 6)、1^&7)和1^(5" )分别为(:關语义模块中代6、代7、3??特征对应的判决得分; 、《丨" 7>和〇广~分别为CNN语义模块中FC6、FC7、SPP特征对应的的校验集mAP值; 7'和^??分别为CNN场景模块中FC6、FC7、 spp特征对应的判决得分;</~、 和分别为CNN场景模块中FC6、FC7、SPP特征对应的校验集mAP值;Pt(fe6)和P t(fe7)分别为
【主权项】
1. 一种基于CNN和LSTM的暴恐视频检测方法,其特征在于: 具体包括如下步骤: 第一步,对待检测视频进行关键帖采样,并提取关键帖特征; 第二步,利用提取到的关键帖特征,进行视频层面的表达与判别;包括C順语义模块的 VLAD特征表达与SVM判别、C順场景模块的场景VLAD特征表达与SVM判别,W及LSTM时序模块 的LSTM判别; 第Ξ步,结果融合:采用基于校验集mAP值的层次融合策略,即对于一个待识别视频,分 别计算CN的吾义模块、CNN场景模块和LSTM时序模块的判决得分,再W各模块在校验集上的 mAP值作为权重进行加权融合。2. 根据权利要求1所述的一种基于C順和LSTM的暴恐视频检测方法,其特征在于:第一 步中,关键帖采样间隔为1秒,关键帖特征包括的CN的吾义特征和CNN场景特征,所述的CN的吾 义特征和CNN场景特征又分别具体包括FC6特征、F 口特征和SPP特征Ξ种特征。3. 根据权利要求1或2所述的一种基于C顺和LSTM的暴恐视频检测方法,其特征在于: SPP特征提取自Conv5层,首先将Conv5层的特征图样按照1 X 1,2 X 2和3 X 3进行空间区域划 分,然后在每个划分区域内采用最大值池化的方法得到14个256维的向量,每一个向量的每 一维特征都对应着某一种显式或隐式的语义概念,即SPP特征。4. 根据权利要求1所述的一种基于C順和LSTM的暴恐视频检测方法,其特征在于:第二 步中所述的C顺语义模块的语义化AD特征表达与SVM判别,输入特征为Ξ种C顺语义特征 SPP,FC6,FC7;首先采用主成分分析的方法,分别将Ξ种特征降至128维、256维和256维;随 后,应用VLAD方法,对降维后的特征向量,向预先通过K-均值聚类得到的聚类中屯、集合C = kl,C2, . . .,Ck}进行差分累积投影;令V={V1,V2, . . .,vn}表示一个包含N个已降维特征向量 的集合,则与聚类中屯、Ck相关的差分累积向量diffk表示为:(1) 其中,i = l,2···,N;k=l,2,···,KDNN(vi)表示已降维特征向量Vi在聚类中屯、集合C中的 欧氏距离的最近邻;对每个差分累积向量difb(l含j含K)分别进行b范数归一化,再将K个 差分累积向量级联,便得到了最终的KXD维化AD特征表达;此处聚类中屯、数目K被设定为 256,贝IJSPP,FC6,FC7对应VLAD特征表达后的维度分别为32,768维,65,536维和65,536维; 最后,训练线性SVM分类器完成视频设恐置信度的判定。5. 根据权利要求4所述的一种基于C順和LSTM的暴恐视频检测方法,其特征在于:所述 的训练线性SVM分类器完成视频设恐置信度的判定,具体为:令视频VLAD特征表达组成的样 本集合为x= {X1,X2,. . .,xn},对应视频类别集合为Υ= {yi,y2,. . .,yN},其中yiE {+1,-1}, 通过几何间隔最大化将其转换为求解凸二次优化问题,学习得到的分割超平面为: W · x+b = 0 (2) 其中,W和b分别为分割超平面的斜率和偏置量;将最大化分割超平面的几何间隔,表示 为带不等式约束条件的最优化问题:(3)(4) 其中,丫表示样本点Χι到分割超平面的几何距离;该问题通过极大极小化拉格朗日对偶 问题进行优化,并通过序列最小化算法进行求解;求解后得到最优的分割超平面的参数*^ 和ΙΛ则暴恐视频分类决策函数表示为: f(x) = sign(w* · x+b*) (5) 其中,sign(x)表示符号函数;当前VLAD特征表达被判别为暴恐的置信度为:(6) SPP,FC6,FC7的化AD特征表达分别通过线性SVM分类器,最后输出Ξ种C顺语义特征 FC6、F口和SPP特征所对应的判别置信度",ip7哺巧ww。6. 根据权利要求1所述的一种基于C順和LSTM的暴恐视频检测方法,其特征在于:第二 步中所述的LSTM时序模块的LSTM判别,输入特征为两种C順语义特征FC6,FC7;首先将两类 特征分别输入到LSTM判别模型中,该模型包含2层LSTM单元,第一层包含1024个神经元,第 二层包含512个神经元;每个LSTM神经单元的前向传导过程表示为: it = 〇(WiXt+U 出 t-1+bi) (7) ft = 〇(W巧 t+阳 ht-1+bf) (8) ot = σ (WoXt+Uoht-i+bo) (9) ct = ft*ct-i+it* Φ (WcXt+Ucht-i+bc) (10) ht = 〇t* Φ (ct) (11) 其中,两种非线性激活函数分别为伊U) = (Ue-x')-i和(Hx〇 = tanh(x〇;it,ft,o^ct 分别代表t时刻输入口、记忆口、输出口和核屯、口所对应的状态量;对于每一个逻辑口,Wi, Wf,W。和W。分别代表输入口、记忆口、输出口和核屯、口所对应的权重转移矩阵;Ui,Uf,U。和Uc 分别代表输入口、记忆口、输出口和核屯、口所对应的t-1时刻隐藏层变量ht-i对应的权重转 移矩阵,61,6:,6。,13。则代表输入口、记忆口、输出口和核屯、口所对应偏置向量; 第二层LSTM神经元的输出与全连接层分类器相连,最终输出两种C顺语义特征FC6和 FC7特征对应的时序判别置信度巧ybAl和巧。7. 根据权利要求1所述的一种基于C順和LSTM的暴恐视频检测方法,其特征在于:第Ξ 步结果融合,首先分别进行CN的吾义模块、CNN场景模块和LSTM时序模块的得分融合,随后再 进行全局的得分融合:其中,Ps,Pp和Pt分别代表基于C順语义模块、C順场景模块和LSTM时序模块的判决得分; ω S、ω P和ω t分别为C顺语义模块、C顺场景模块和LSTM时序模块对应的校验集mAP值; 巧wi、巧f"'和巧分别为CNN语义模块中FC6、FC 7、SPP特征对应的判决得分; 吗、仿^/"1和蜂分别为C丽语义模块中Fce、FC7、SPP特征对应的的校验集mAP值; 巧&6)、巧和巧(猶3分别为C順场景模块中Fce、FC 7、spp特征对应的判决得分;句/(6)、仍; 和邸W分别为C順场景模块中FC6、FC7、SPP特征对应的校验集mAP值;巧和巧分别为 LSTM时序模块中FC6、FC7特征对应的判决得分;谢P6)郝巧"分别为LSTM时序模块中FC6、 FC7特征对应的校验集mAP值;最终的暴恐视频检测结果P。是通过Ξ个模炔基于mAP值进行 加权的方式获得的。
【文档编号】G06K9/62GK105844239SQ201610168334
【公开日】2016年8月10日
【申请日】2016年3月23日
【发明人】苏菲, 宋凡, 宋一凡, 赵志诚
【申请人】北京邮电大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1