基于阈值矩阵和特征融合视觉单词的人物行为识别方法

文档序号:8299736阅读:349来源:国知局
基于阈值矩阵和特征融合视觉单词的人物行为识别方法
【技术领域】
[0001] 本发明设及一种人物行为识别的方法,可用于目标跟踪、人物识别、智能监控、人 机交互等多个领域。
【背景技术】
[0002] 行为识别的研究和应用已经成为当今世界的热口主题。人机交互系统是人物行为 识别的一个典型的应用,人机交互系统利用通过利用图像传感器读入视频,然后使用计算 机视觉、图像处理和模式识别等算法进行处理,最终的目的是通过读入的视频识别出其中 人物的行为从而做出相应的回应。在整个交互系统中,如何提取出人物行为关键位置的特 征来表征行为成为了一个主要的问题,在对特征进行提取过后,对于该些传入的数据,选择 不同的模型进行建模分析和识别也非常重要。对于输入的视频,一般可W粗略的将其区分 为简单背景和复杂背景。简单背景一般指场景比较单一,如讲课时,老师一般站立在黑板 之前,背景除了黑板没有其他目标。复杂背景一般可W认为是动态的背景,即除了前景目标 夕F,背景也存在着少量的运动,如飘动的树叶或者远处的人流。在整个人机交互系统中,必 须要考虑到背景对人物目标特征提取的影响。因此,如何能够降低背景对前景的干扰,如何 能够更好的选择特征来表示行为成为了人物行为识别需要解决的主要问题。上述的人机交 互例子属于计算机视觉中的概念,而完成该项工作的基础就是要对场景中人物的行为进行 识别。
[0003] 行为识别,即输入视频中前景目标的行为进行分析和分类的过程。而人物行为指 的就是视频中的前景目标为人,而非汽车,动物。人物行为识别是计算机视觉中的一个重要 研究方向,通过对人物特征的提取建立行为模型,然后通过模型的推导求出整个行为的类 另IJ,从而达到识别的目的。
[0004] 从上述的例子可知,人机交互系统中计算机如何能够做出最准确响应完全依赖于 对视频帖的人物行为识别的准确性,所W提取出能够充分描述行为的特征,选择准确度高 的分类模型来提高识别率成为了人物行为识别需要解决的主要问题。
[0005] 目前,人体行为分析在诸多方面都有着广泛的应用前景和潜在的商业价值。如基 于内容的视频分析,视频监控和安全系统W及人机交互系统;在我们的日常生活中,视频信 息已经非常普及。随着视频分享网站的日益扩大,分类和存储相关主题的视频也成为了一 个研究的热点,而要对各个视频进行分类存贬的前提是需要知道每个视频中的人物在做的 事情,该就需要进行行为的识别;又如监狱内的视频监控系统需要根据犯人的异常行为来 给出警告,该时就需要算法可W很好的对犯人的各种行为进行分类,通过与常规行为的比 对来判断犯人的行为是否有异常;再如之前提到的人机交互系统,对于讲课的教师的肢体 动作来判断是否需要将ppt进行翻页或者后退等操作。所有的应用都需要计算机可W正确 的识别出视频中人物所做的行为,因此对人物行为识别已经成为了计算机视觉中的一个重 要研究领域。
[0006] 对于各种不同场景下的输入视频,行为识别的过程基本一致。首先对训练视频进 行动作的表征,即提取各种特征来描述行为,然后针对不同的方法,选择不同的模型对该些 特征向量(准确的说是视觉单词聚类前的特征,但是一般可W认为是视觉单词)进行建模 分析,从而建立各个动作的模型;在动作模型建立好后,同样对测试视频提取特征,然后将 特征作为输入,放入建好的动作模型中进行分类,最后将动作的分类结果作为测试视频中 人物行为的标签返回出来,达到识别的目的。
[0007]目前,对于行为特征提取主要分为两种:基于局部特征的提取和基于全局特征的 提取。常见的局部特征提取方法有基于立维Harris角点的方法、基于化boids立方体的方 法和基于S维SIFT特征的方法,其中基于角点的方法将视频中检测出的S维Harris角点 作为视频的时空兴趣点,建立W兴趣点为中屯、的时空立方体并构建光流直方图和梯度直方 图作为特征生成视觉单词,该种方法可W很好地提取出兴趣点周围的运动信息,但是容易 受到光照的影响;基于化boids立方体的方法使用G油or滤波检测视频中的兴趣点,之后生 成基于化boids的视觉单词,由于该视觉单词使用简单的空间立方体,因此该特征不能很 好地反映出兴趣点周围的运动变化;基于S维SIFT特征的方法,使用S维SIFT算子作为视 频的视觉单词,有效地减少了噪声和光照等因素的影响,但是S维SIFT特征对于运动信息 的表示有一定的欠缺,在遇到两个动作近似的情况下,往往得不到较好地结果。常见的全局 特征提取方法如梯度方向直方图和光流直方图将整帖图像作为一个特征,该种方法能够很 好的描述图像的运动信息W及运动趋势,但是无法细致的描绘行为的细节特性。并且所有 的方法在特征提取时,均对图像进行全局的考虑,没有对前背景区别对待,因此当背景相对 复杂时,识别精度会有明显下降。
[000引对于识别时的分类模型,目前主要分为S种:判别式模型分类,时空状态模型分 类和主题模型分类。判别式模型方法不会过多地考虑视频序列在时间维度上的信息,他们 一般假设所有的视频在每一帖上的人物行为都是独立的,其中的Wk近邻分类方法利用训 练集视频中行为表征间的距离来区分行为,一般使用离聚类中屯、最近的类别标记视频。该 类方法在训练数据集非常大的情况下,每个特征间距离的比较次数会很多,计算开销就会 变的非常大;最为典型的时空状态模型是隐马尔科夫模型(HMM),该模型由各个状态通过 边来相连接而成,假设其中的每个状态都表示在一个特定时刻的行为并且观测变量都是相 互独立的,但是该一假设并不符合实际,因此在实际应用中,时空状态模型的识别精度并不 高;随着主题模型在文本分类上的巨大成功,近年来大量学者引入了主题模型用于分类识 别视频中的行为,不同与前面两种方法,主题模型在对特征进行分类识别时,还加入了高层 的语义信息,并且在训练时,无需对训练数据进行人工标注,且运算速度块,识别精度较高, 在行为识别领域有较广泛的应用前景。
[0009] 近年来,大量的研究人员对人物行为识别方法进行了研究与改进,本发明将其分 为两类;1)对视觉单词(特征)的更改;2)对模型的更改。
[0010] 1)对视觉单词(特征)的更改
[0011] 提取视觉单词的方法一般分为=种;基于整体均匀网格,随机采样和基于关键区 域或兴趣点的方式。对于基于整体均匀网络的方法;该方法一般对整个图像进行处理,首先 将图像分割成均匀的区域,该些区域可W采用重叠或者非重叠的方式,然后分别对每个区 域进行局部特征的提取,例如梯度直方图特征、颜色直方图特征等,并将该些特征映射成为 视觉单词。该方法在提取特征时不需要进行太多的预处理,能保留图像所有区域内的相关 信息,因此该方法在处理有大量语义信息的场景时比较有效,比如自然场景分类;对于随机 采样方法,主要是使用基于随机采样的方式来生成视觉单词。Mar6等人为了解决图像或视 频分析中经常出现的目标遮挡,尺度和视角,变换等问题,在视觉单词生成过程中,使用随 机树在图像上产生多个随机的窗口来进行采样,然后对该些区域数据进行视觉单词生成, 最后根据一定的规则创建索引,由于该方法计算简单,时间复杂度很低并且同时鲁椿性较 高,因此在处理大规模数据时具有一定的优势;对于基于兴趣点的方法:化n Yang等人使 用DOG检测子检测出图像中的关键点(兴趣点),之后计算关键点的PCA-SIFT特征作为图 像的视觉单词,该种视觉单词具有较好地抗噪性和尺度不变性,并且与传统的SIFT相比, PCA-SIFT在计算速度上也更有优势,但是使用DOG检测方法无法获得足够多的兴趣点,影 响到了后续的图像分类。对于=维的视频,Laptev首先将二维图像中的Harris角点检测方 法扩展到了 =维空间,从视频中
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1