一种基于循环神经网络的多目标跟踪方法
【专利摘要】本发明公开了一种基于循环神经网络的多目标跟踪方法,包括下述步骤:构建标注了每帧行人位置的监控视频数据集;对标注了每帧行人位置的监控视频数据集进行人工扩充,得到训练集样本;对训练集样本进行分组,得到多个训练组;构建多目标跟踪网络;将各训练组以序列为单位输入多目标跟踪网络进行训练;将待测视频数据输入训练后的多目标跟踪网络,进行前向传播,得到多个目标的运动轨迹。本发明通过采用原始数据以及人工扩充后的大量数据端到端地对所提出的网络模型进行训练,在一个统一的神经网络架构下完成了数据关联和轨迹估计等复杂任务,在不同方向、光照条件、形变等复杂环境条件下,均能有效地对目标运动轨迹进行跟踪。
【专利说明】
一种基于循环神经网络的多目标跟踪方法
技术领域
[0001]本发明涉及计算机视觉和机器学习技术领域,尤其涉及一种基于循环神经网络的多目标跟踪方法。
【背景技术】
[0002]智能监控系统是当今监控行业的一个重点发展方向,主要是依靠计算机视觉和机器学习等技术对监控摄像头拍摄下的画面进行自动地分析,通过对行人的运动轨迹进行跟踪,从而判断出人群的状态、行人的流量等,可以提前预警紧急事件的发生,给管理部门提供充足的应对时间。
[0003]深度学习于2006年正式提出,是近年来机器学习里面的一个热门领域,起源于多层人工神经网络,目前已成功应用于计算机视觉、自然语言处理和智能搜索等领域。其中循环神经网络在机器翻译和自然语言处理等领域已经取得了令人瞩目的成就,在很多应用上都有所建树,相比传统方法有了很大的提升。循环神经网络的一个特点就是对于序列信号的有效处理,而视觉目标跟踪所使用的视频也是一种序列信号,所以自然地想到用循环神经网络来进行视觉目标跟踪。
[0004]在视觉目标跟踪领域,其应用前景虽然十分广泛,但由于其涉及到的算法任务十分复杂,现有技术主要包含了以下三个技术难点:目标未知,随着时间目标数量在改变,对所有出现的目标进行连续的状态估计,数据关联的离散组合问题。传统方法往往只能针对特定的场景进行大量的参数调优,而且模型十分复杂,训练困难。
【发明内容】
[0005]本发明为解决现有技术中需对各跟踪目标的针对性参数调优、在不同方向、光照条件、形变等复杂环境条件下无法有效地对目标运动轨迹进行跟踪等问题,提供了一种基于循环神经网络的多目标跟踪方法。
[0006]为了实现上述目的,本发明采用的技术方案是:
[0007]—种基于循环神经网络的多目标跟踪方法,其特征在于包括下述步骤:
[0008]步骤1:构建标注了每帧行人位置的监控视频数据集;
[0009]步骤2:对标注了每帧行人位置的监控视频数据集进行人工扩充,得到训练集样本;
[0010]步骤3:对训练集样本进行分组,得到多个训练组;
[0011]步骤4:构建多目标跟踪网络;
[0012]步骤5:将各训练组以序列为单位输入多目标跟踪网络进行训练;
[0013]步骤6:将待测视频数据输入训练后的多目标跟踪网络,进行前向传播,得到多个目标的运动轨迹。
[0014]上述方案中,所述步骤I包括通过网络公共数据集取得监控视频数据,将监控视频数据中的每个行人目标在每帧中的位置标注出来,对不同目标加以编号,得到标注了每帧行人位置的监控视频数据集。
[0015]上述方案中,所述步骤2中对所述监控视频数据集进行人工扩充的方法包括对原始视频数据进行人工扰动,人工扰动的方法包括对行人运动轨迹进行镜像翻转、对视频图像进行随机平移、随机旋转。
[0016]上述方案中,所述步骤2中对所述监控视频数据集进行人工扩充的方法包括从所述监控视频数据集中学习到轨迹模型,具体的,通过对所述监控视频数据集中行人运动轨迹的初始位置和平均速度两个变量估计其概率分布,然后通过对所述概率分布进行采样生成多个虚拟运动轨迹。
[0017]上述方案中,所述步骤2中对所述监控视频数据集进行人工扩充的方法包括通过物理建模模拟真实场景下的行人目标运动,生成不同角度位置的相机拍摄的目标运动轨迹。
[0018]上述方案中,所述步骤4中所述多目标跟踪网络由RNN单元构成的跟踪管理网络和由多个LSTM单元构成的数据关联网络组成,所述跟踪管理网络隐含300个隐含单元,所述数据关联网络包含500个隐含单元。
[0019]上述方案中,所述RNN单元在t时刻的输入包括当前状态Xt、存在概率et、度量标准向量Zt+1和数据关联向量At+1,所述RNN单元在t时刻的输出为t+Ι时刻的4个有关值,包括所有目标t+Ι时刻的预测状态x*t+1、所有目标t+Ι时刻的更新状态Xt+1、对每个目标轨迹是否为真的概率估计^+1与4的绝对误差Λ+1;
[0020]上述方案中,所述的每个LSTM单元对应一个检测目标,所述LSTM单元在t时刻的输入包括t-Ι时刻的隐含状态h、单元状态c和矩阵Ct+i= I xt+1-zt+i 12,所述LSTM单元在t时刻的输出包括每个目标对应于所有度量标准的概率分布A1。
[0021]本发明的有益效果是:
[0022]I)本发明所述基于循环神经网络的多目标跟踪方法,通过采用原始数据以及人工扩充后的大量数据端到端地对所提出的网络模型进行训练,相对于传统方法,首次在多目标跟踪领域采用了端到端的模型,避免了对各跟踪目标的针对性参数调优。
[0023]2)本发明能够一个统一的神经网络架构下完成了数据关联和轨迹估计等复杂任务,简化了视频数据分析的过程。
[0024]3)本发明在不同方向、光照条件、形变等复杂环境条件下,均能有效地对目标运动轨迹进行跟踪,跟踪效果良好。
【附图说明】
[0025]图1为本发明所述的多目标跟踪流程图;
[0026]图2为本发明所述的跟踪网络结构图。
【具体实施方式】
[0027]为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作进一步地详细描述。
[0028]下面结合图1-2对本发明作详细说明。
[0029]参见图1,一种基于循环神经网络的多目标跟踪方法,步骤如下:
[0030]步骤I:构建标注了每帧行人位置的监控视频数据集。具体的,将监控视频数据中的每个行人目标在每帧中的位置标注出来,对不同目标加以编号,得到标注了每帧行人位置的监控视频数据集;优选的,可通过MOTChanllenge等网络公共数据集获取了监控视频数据。
[0031]步骤2:对标注了每帧行人位置的监控视频数据集进行人工扩充,得到训练集样本。具体的,最终得到训练集样本包含100,000个20帧的视频序列,扩充视频数据集包含以下三种方式:
[0032](I)对原始视频数据进行人工扰动,包括对运动轨迹进行镜像翻转、对视频图像进行随机平移、随机旋转等。
[0033](2)从原始视频中学习到轨迹模型,对轨迹的初始位置和平均速度两个变量估计其概率分布,然后通过对这个概率分布进行采样生成多个虚拟运动轨迹。
[0034](3)通过物理建模模拟真实场景下的行人目标运动,生成不同角度位置的相机拍摄的目标运动轨迹。
[0035]步骤3:对训练集样本进行分组,得到多个训练组;优选的,可以10个样本为一组划分为不同的训练组。
[0036]步骤4:构建多目标跟踪网络;所述网络由RNN单元构成的跟踪管理网络和由多个LSTM单元构成的数据关联网络组成,所述跟踪管理网络隐含300个隐含单元,所述数据关联网络包含500个隐含单元;所述RNN单元在t时刻的输入包括当前状态Xt、存在概率et、度量标准向量Zt+1和数据关联向量At+1,所述RNN单元在t时刻的输出为t+Ι时刻的4个有关值,包括所有目标t+Ι时刻的预测状态Λ+1、所有目标t+Ι时刻的更新状态Xt+1、对每个目标轨迹是否为真的概率估计et+Aet的绝对误差Λ+ι;所述LSTM单元在t时刻的输入包括t-Ι时刻的隐含状态h、单元状态c和矩阵Ct+1= I xt+1-zt+i 12,所述LSTM单元在t时刻的输出包括每个目标对应于所有度量标准的概率分布A1。
[0037]步骤5:将各训练组以序列为单位输入多目标跟踪网络进行训练;优选的,训练过程中可采用RMSprop算法来最小化loss函数,初始学习率为0.0003,每20,000次迭代后降低5%。最大迭代次数设置为200,000次;优选的,取一个20帧长的监控视频序列作为测试样本,首先根据图像尺寸将其归一化到[-0.5,0.5],然后将该视频序列输入网络,即可输出每帧的目标位置和目标判别,即是每个行人目标的运动轨迹。
[0038]步骤6:将待测视频数据输入测试后的多目标跟踪网络,进行前向传播,得到多个目标的运动轨迹。
[0039]以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
【主权项】
1.一种基于循环神经网络的多目标跟踪方法,其特征在于包括下述步骤: 步骤1:构建标注了每帧行人位置的监控视频数据集; 步骤2:对标注了每帧行人位置的监控视频数据集进行人工扩充,得到训练集样本; 步骤3:对训练集样本进行分组,得到多个训练组; 步骤4:构建多目标跟踪网络; 步骤5:将各训练组以序列为单位输入多目标跟踪网络进行训练; 步骤6:将待测视频数据输入训练后的多目标跟踪网络,进行前向传播,得到多个目标的运动轨迹。2.根据权利要求1所述的基于循环神经网络的多目标跟踪方法,其特征在于,所述步骤I包括通过网络公共数据集取得监控视频数据,将监控视频数据中的每个行人目标在每帧中的位置标注出来,对不同目标加以编号,得到标注了每帧行人位置的监控视频数据集。3.根据权利要求1所述的基于循环神经网络的多目标跟踪方法,其特征在于,所述步骤2中对所述监控视频数据集进行人工扩充的方法包括对原始视频数据进行人工扰动,人工扰动的方法包括对行人运动轨迹进行镜像翻转、对视频图像进行随机平移、随机旋转。4.根据权利要求1所述的基于循环神经网络的多目标跟踪方法,其特征在于,所述步骤2中对所述监控视频数据集进行人工扩充的方法包括从所述监控视频数据集中学习到轨迹模型,具体的,通过对所述监控视频数据集中行人运动轨迹的初始位置和平均速度两个变量估计其概率分布,然后通过对所述概率分布进行采样生成多个虚拟运动轨迹。5.根据权利要求1所述的基于循环神经网络的多目标跟踪方法,其特征在于,所述步骤2中对所述监控视频数据集进行人工扩充的方法包括通过物理建模模拟真实场景下的行人目标运动,生成不同角度位置的相机拍摄的目标运动轨迹。6.根据权利要求1所述的基于循环神经网络的多目标跟踪方法,其特征在于,所述步骤4中所述多目标跟踪网络为端对端神经网络,所述网络由RNN单元构成的跟踪管理网络和由多个LSTM单元构成的数据关联网络组成,所述跟踪管理网络隐含300个隐含单元,所述数据关联网络包含500个隐含单元。7.根据权利要求6所述的基于循环神经网络的多目标跟踪方法,其特征在于,所述RNN单元在t时刻的输入包括当前状态Xt、存在概率Et、度量标准向量Zt+l和数据关联向量At+l,所述RNN单元在t时刻的输出为t+Ι时刻的4个有关值,包括所有目标t+Ι时刻的预测状态x*t+1、所有目标t+1时刻的更新状态Xt+1、对每个目标轨迹是否为真的概率估计^+1与4的绝对误差 ε%+ι。8.根据权利要求6所述的基于循环神经网络的多目标跟踪方法,其特征在于,所述的每个LSTM单元对应一个检测目标,所述LSTM单元在t时刻的输入包括t-Ι时刻的隐含状态h、单元状态c和矩阵Ct+1= I xt+1-zt+i 12,所述LSTM单元在t时刻的输出包括每个目标对应于所有度量标准的概率分布A1。
【文档编号】G06K9/00GK106022239SQ201610317720
【公开日】2016年10月12日
【申请日】2016年5月13日
【发明人】李鸿升, 范峻铭, 周辉, 胡欢, 曹滨
【申请人】电子科技大学