可穿戴眼动仪第一视角视频图像分析方法
【专利摘要】本发明涉及一种可穿戴眼动仪第一视角视频图像分析方法,包括以下部分:数据预处理:绘制出眼睛关注点坐标与第一视角视频图像帧的关系图,找出跳变点所对应的视频图像帧,并在第一视角视频图像帧原始数据中筛选掉跳变点所对应的视频图像帧;数据分析:对通过数据预处理的第一视角视频图像数据进行分析;所述数据分析的具体步骤为:S1、相机标定:对第一视角视频图像进行矫正;S2、图像分割:检测并提取出图像中被试者所关注的目标区域;S3、物体识别:对目标区域进行有效识别。本发明能有效检测并识别被试者所注视的目标区域,并对注视点位置进行自动标识。
【专利说明】
可穿戴眼动仪第一视角视频图像分析方法
技术领域
[0001] 本发明的内容属于眼动仪数据分析领域,更具体地说是一种可穿戴眼动仪第一视 角视频图像分析方法。
【背景技术】
[0002] 随着眼动技术的发展,眼动仪开发日渐成熟,在心理学、医学、使用性测试、市场调 查等各个方面都有很好的应用前景。但是针对眼动数据的分析却大多挺留在对注视时长 (f ixation duration)、和注视点次数、兴趣区域、注视轨迹图等的提取及加工上,目前针对 眼动数据的分析,通过现有的数据分析模块,通常主要获得热点图、扫描路径等可视化的结 果。并且其眼动分析主要都针对于桌面式眼动仪,桌面式眼动仪通过采集被试接受固定刺 激时的眼动数据,眼动追踪是在固定的参考系下进行的,它能够自动处理被试在预定义感 兴趣区域内注视点。目前出现的可穿戴式眼动仪轻巧舒适,采用了以用户为中心的设计,且 能够采集被试者在真实场景下进行自然交互的眼动数据,获得最自然的视觉行为数据,因 此利用可穿戴式眼动仪来进行眼动分析越来越重要。但是在真实场景中,戴可穿戴式眼动 仪时被试者所关注目标区域是实时变化且无法预知的,也就无法预定义感兴趣区域,若要 进一步进行眼动评估,研究人类的某些视觉行为以及心理认知,一般需要手动标识被试者 注视点位置,人工成本高且耗时长。
【发明内容】
[0003] 本发明所要解决的技术问题是克服现有技术中的不足,提供一种自动标识被试者 注视点位置的可穿戴眼动仪第一视角视频图像分析方法。
[0004] 为解决现有技术问题,本发明采用的技术方案是: 一种可穿戴眼动仪第一视角视频图像分析方法,包括以下部分: 数据预处理:绘制出眼睛关注点坐标(X,y)与视频图像帧的关系图,找出跳变点所对应 的视频图像帧,在第一视角视频图像帧原始数据中筛选掉跳变点所对应的视频图像帧;数 据分析:对通过数据预处理的第一视角视频图像数据进行分析。
[0005] 所述数据分析的具体步骤为: 51、 相机标定:对第一视角视频图像进行矫正; 52、 图像分割:将图像分成若干特定的、具有独特性质的区域,检测并提取出被试者所 注视的目标区域,所述区域是图像中具有一系列均匀性像素点的集合; 53、 物体识别:对目标区域进行有效识别。
[0006] 本发明通过设置数据预处理和数据分析来对可穿戴眼动仪第一视角视频图像数 据进行有效处理,能有效检测并识别出被试所注视目标区域 所述数据预处理中的跳变点是指由于眼睛眨眼导致摄像头追踪不到瞳孔,从而造成关 系图上眼睛关注点坐标(x,y)发生异常跳变的点。
[0007] 所述数据分析中步骤S2图像分割的具体步骤为: S21、利用简单线性迭代聚类生成超像素,在生成超像素时,利用transitive distance 和KL距离并进行加权来度量图像特征的距离,使得超像素分割更加准确。
[0008] S22、将第一视觉视频图像每个通道的每个像素,分别用独立随机变量来表示,随 机变量的取值都在〇~g/Q之间,Q个随机变量的和属于集合{1,2,.. .,g},g取常数256,同时 根据图像中不同地方像素不同,将图像分成若干小区域,所述区域是图像中具有一系列均 匀性像素点的集合; S23、对图像中相邻区域进行合并形成新区域,得到被试者所关注的目标区域,所述新 区域内的像素点要服从同一分布,否则不能合并。
[0009] 进一步的,所述Q代表第一视角视频图像的复杂程度。
[0010]所述数据分析中步骤S3物体识别的具体步骤为: 531、 提取特征:从眼动仪采集的原始数据中提取特征,将图像表示成为一个K维数值向 量; 532、 特征标记:分别将对应注视目标进行标记 533、 训练分类器:利用已标记的特征来训练分类器; 534、 进行识别:利用步骤S33中的分类器对图像中注视目标进行识别,同时得到识别的 准确率。
[0011] 进一步的,所述步骤S31提取特征的具体步骤为: 5311、 利用SIFT算法从不同类别的图像中提取视觉词汇向量,这些向量代表的是图像 中局部不变的特征点; 5312、 将所有特征点向量集合到一块,利用K-Means算法合并词义相近的视觉词汇,构 造一个包含K个词汇的单词表; 5313、 统计单词表中每个单词在图像中出现的次数,从而将图像表示成为一个K维数值 向量。
[0012] 进一步的,所述步骤S33训练分类器的具体步骤为: 5331、 计算已知类别数据集中每个样本与当前样本的距离,并采用巴氏距离度量不同 样本与当前样本的距离的差异; 5332、 选取与当前点距离最小的K个点; 5333、 统计前K个点中每个类别的样本出现的频率; 5334、 返回前K个点出现频率最高的类别作为当前点的预测分类。
[0013] 与现有技术相比,本发明通过数据预处理和数据分析两部分对可穿戴眼动仪第一 视角视频图像进行分析,能够有效检测并识别出被试者在真实场景下所注视目标,不需要 再对注视目标进行手动标识,大大节省了人力资源,并且延伸了眼动仪的应用范围,让其可 以在实际场景下进行。
【附图说明】
[0014] 图1为本发明实施例的模型图。
[0015] 图2为本发明实施例的眼动仪所采集第一视角视频图像的视频图像帧。
[0016] 图3为本发明实施例的眼睛关注点坐标图。
[0017] 图4为本发明实施例的相机标定图。
[0018] 图5为本发明实施例的图像分割结果图。
[0019] 图6为本发明实施例的被试者所注视的目标区域特征直方图。
【具体实施方式】
[0020] 以下结合附图对本发明做进一步的解释说明。附图仅用于示例性说明,不能理解 为对本发明的限制;为了更好说明本实施例,附图某些部件会有省略、放大或缩小;对于本 领域技术人员来说,附图中某些公知结构及其说明可能省略是可以理解的。
[0021] 如图1所示的一种可穿戴眼动仪第一视角视频图像分析方法,包括数据预处理和 数据分析,所述数据预处理绘制出眼睛关注点坐标(X,y)与视频图像帧的关系图,并筛选掉 跳变点对应的视频图像帧;所述数据分析对通过数据预处理的第一视角视频图像数据进行 分析;所述数据分析的具体步骤为: 51、 相机标定:对第一视角视频图像进行矫正; 52、 图像分割:将图像分成若干特定的、具有独特性质的区域,检测并提取出被试者所 注视的目标区域,所述区域是图像中具有一系列均匀性像素点的集合; 本实验中选取尺度因子128,利用该尺度因子进行分割所获得的图像既没有过分割,也 没有欠分割,将期望检测出来的区域有效地检测了出来,由于眼动仪在实际场景中,场景图 像实时变换,场景中的物景时而简单,时而复杂,因此通过调节尺度因子可以获得较好的分 割效果。
[0022] S3、物体识别:对目标区域进行有效识别。
[0023] 将图像进行分割完之后,抠出被试者所关注目标区域,然后对目标区域进行进一 步的识别处理。影响识别准确度的因素有:一是由于没有对图像进行一些去光照的相应处 理,例如直方图均衡以及主成分分析等等,图像很容易受光照影响,二是由于人工因素增大 了识别的难度,图像易受到背景信息等因素的影响而造成识别错误。本实验中主要选取了 五类目标区域,对这五类目标区域利用词袋模型进行特征提取,并利用空间金字塔将图像 表示为如下图6所示的形式,这里利用KNN算法将其进行分类以及识别。其核心思想是通过 与其最相邻的k个样本的类别来判别待测样本的类别。待测样本的类别就是其选取的K个最 相邻的样本中占大多数的类别。在距离度量方面,摒弃传统的欧式距离采用巴氏距离,巴氏 距离用于测量两离散概率分布,它常在分类中测量类之间的可分离性。
[0024]本实验每类样本25个,首先手动标记这5类目标区域图像分别为1,2,3,4,5。采用 交叉比对策略,即按照顺序依次选择一个样本的数据作为测试数据,同时把其余样本数据 作为训练数据。将预测的结果与我们标记的结果进行比较,相同则表示识别正确,不相同则 表示识别错误,从而可以得到一个识别的准确率。实验结果表明,选取不同的K值,会获得不 同的识别率,如表1所示,在针对本实验的目标识别中,KNN取得了很不错的效果,能够达到 完全识别。
[0025] 表1不同K值的准确度
所述数据分析中步骤S2图像分割的具体步骤为: 521、 利用简单线性迭代聚类生成超像素,在生成超像素时,利用transitive distance 和KL距离并进行加权来度量图像特征的距离,使得超像素分割更加准确; 522、 将第一视觉视频图像每个通道的每个像素,分别用独立随机变量来表示,随机变 量的取值都在〇~g/Q之间,Q个随机变量的和属于集合{1,2,...,g},g取常数256,同时根据 图像中不同地方像素不同,将图像分成若干小区域,所述区域是图像中具有一系列均匀性 像素点的集合; 523、 对图像中相邻区域进行合并形成新区域,得到被试者所关注的目标区域,所述新 区域内的像素点要服从同一分布,否则不能合并。
[0026] 所述Q代表第一视角视频图像的复杂程度。
[0027] 所述数据分析中步骤S3物体识别的具体步骤为: 531、 提取特征:从眼动仪采集的原始数据中提取特征,将图像表示成为一个K维数值向 量; 532、 特征标记:分别将对应注视目标进行标记 533、 训练分类器:利用已标记的特征来训练分类器; 534、 进行识别:利用步骤S33中的分类器对图像中注视目标进行识别,同时得到识别的 准确率。
[0028] 所述步骤S31提取特征的具体步骤为: 5311、 利用SIFT算法从不同类别的图像中提取视觉词汇向量,这些向量代表的是图像 中局部不变的特征点; 5312、 将所有特征点向量集合到一块,利用K-Means算法合并词义相近的视觉词汇,构 造一个包含K个词汇的单词表; 5313、 统计单词表中每个单词在图像中出现的次数,从而将图像表示成为一个K维数值 向量。
[0029] 所述步骤S33训练分类器的具体步骤为: 5331、 计算已知类别数据集中每个样本与当前样本的距离,并采用巴氏距离度量不同 样本与当前样本的距离的差异; 5332、 选取与当前点距离最小的K个点; 5333、 统计前K个点中每个类别的样本出现的频率; 5334、 返回前K个点出现频率最高的类别作为当前点的预测分类。
[0030]如图2所示,具体地使用可穿戴眼动仪采集了几名被试者在实验室搭建的场景中 自由观看的眼动数据,它能够实时记录被试者的注视目标,得到注视目标在第一视角视频 图像的坐标。
[0031]如图3所示,某些关注点坐标会发生异常跳变,坐标(x,y)会超出正常范围,这主要 原因是由于眼睛眨眼导致摄像头追踪不到瞳孔导致。根据这个规律,找出所有关注点跳变 的对应的视频图像帧图像,不对其进行进一步的分析,这样还可以使原本不断跳变的第一 视角视频图像变得连续和平滑。
[0032]如图4所示,利用相机标定方法可获得场景图片经过矫正后的图像。
[0033]如图5所示图像分割结果图,在图像分割时,这里从矫正后的帧图像中抽取100张 帧图像,其中被试者注视不同目标,根据注视目标的不同,可分为5类,利用图像分割,分别 将这100张图片中的目标区域进行检测并提取。
[0034] 如图6所示的被试者所注视的目标特征直方图,在物体识别时,首先标记这4类目 标区域图像分别为1,2,3,,4,5采用交叉比对策略,即按照顺序依次选择每一个体的数据作 为测试数据,同时把其余参与者的数据作为训练数据。将预测的结果与我们标记的结果进 行比较,相同则表示识别正确,不相同则表示识别错误,从而可以得到一个识别的准确率。
[0035] 显然,本发明的上述实施例仅仅是为清楚地说明本发明所作的举例,而并非是对 本发明的实施方式的限定。在上述说明的基础上还可以做出其它不同形式的变化或变动, 这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修 改、等同替换和改进等,均应包含在本发明权利要求的保护范围之内。
【主权项】
1. 一种可穿戴眼动仪第一视角视频图像分析方法,其特征在于,包括以下部分: 数据预处理:绘制出眼睛关注点坐标(X,y)与第一视角视频图像帧的关系图,找出跳变 点所对应的视频图像帧,并在第一视角视频图像帧原始数据中筛选掉跳变点所对应的视频 图像帧; 数据分析:对通过数据预处理的第一视角视频图像数据进行分析; 所述数据分析的具体步骤为: 51、 相机标定:对第一视角视频图像进行矫正; 52、 图像分割:检测并提取出图像中被试者所注视的目标区域; 53、 物体识别:对目标区域进行有效识别。2. 根据权利要求1所述的可穿戴眼动仪第一视角视频图像分析方法,其特征在于,所述 数据预处理中的跳变点是指由于眼睛眨眼导致摄像头追踪不到瞳孔,从而造成关系图上眼 睛注视点坐标(x,y)产生异常跳变的点。3. 根据权利要求1所述的可穿戴眼动仪第一视角视频图像分析方法,其特征在于,所述 数据分析中步骤S2图像分割的具体步骤为: 521、 利用简单线性迭代聚类生成超像素,在生成超像素时,利用transitive distance 和KL距离并进行加权来度量图像特征的距离,使得超像素分割更加准确; 522、 将第一视角视频图像每个通道的每个像素,分别用独立随机变量来表示,随机变 量的取值都在〇~g/Q之间,Q个随机变量的和属于集合{1,2,...,g},g取常数256,同时根据 图像中不同地方像素不同,将图像分成若干小区域,所述区域是图像中具有一系列均匀性 像素点的集合; 523、 对图像中相邻区域进行合并形成新区域,得到被试者所关注的目标区域,所述新 区域内的像素点要服从同一分布,否则不能合并。4. 根据权利要求3所述的可穿戴眼动仪第一视角视频图像分析方法,其特征在于,所述 Q代表第一视角视频图像的复杂程度。5. 根据权利要求1所述的可穿戴眼动仪第一视角视频图像分析方法,其特征在于,所述 数据分析中步骤S3物体识别的具体步骤为: 531、 提取特征:从眼动仪采集的原始图像数据中提取特征,将图像表示成为一个K维数 值向量; 532、 特征标记:分别将对应注视目标标记为正类1或负类0; 533、 训练分类器:利用已标记的特征来训练分类器; 534、 进行识别:利用步骤S33中的分类器对图像中注视目标进行识别,同时得到识别的 准确率。6. 根据权利要求5所述的可穿戴眼动仪第一视角视频图像分析方法,其特征在于,所述 步骤S31提取特征的具体步骤为: 5311、 利用SIFT算法从不同类别的图像中提取视角词汇向量,这些向量代表的是图像 中局部不变的特征点; 5312、 将所有特征点向量集合到一块,利用K-Means算法合并词义相近的视觉词汇,构 造一个包含K个词汇的单词表; 5313、 统计单词表中每个单词在图像中出现的次数,从而将图像表示成为一个K维数值 向量。7.根据权利要求5所述的可穿戴眼动仪第一视角视频图像分析方法,其特征在于,所述 步骤S33训练分类器的具体步骤为: 5331、 计算已知类别数据集中每个样本与当前样本的距离,并采用巴氏距离度量不同 样本与当前样本的距离的差异; 5332、 选取与当前样本距离最小的K个点; 5333、 统计前K个样本中每个类别的样本出现的频率; 5334、 返回前K个样本出现频率最高的类别作为当前点的预测分类。
【文档编号】G06K9/00GK105975928SQ201610284710
【公开日】2016年9月28日
【申请日】2016年4月29日
【发明人】李明, 刘静
【申请人】广东顺德中山大学卡内基梅隆大学国际联合研究院, 中山大学