使用手势控制媒体回放的系统和方法

文档序号：10617835阅读：993来源：国知局

使用手势控制媒体回放的系统和方法
【专利摘要】通过输入的手势来控制回放设备对媒体的回放。每个用户手势首先能够被分解成基础手势，基础手势指示特定的回放模式。手势然后被分解成包含修饰符命令的第二部分，修饰符命令确定根据基础命令所确定的回放模式的速度。然后使用所指定的回放模式、以由修饰符命令所确定的速度来播放媒体内容。
【专利说明】
使用手势控制媒体回放的系统和方法
[0001] 相关申请的引用
[0002] 本申请要求享有于2014年1月7日提交的序列号为61/924,647的美国临时申请和于2014年3月31日提交的序列号为61/972,954的美国临时申请的权益，通过引用将其全部内容并入本文。
技术领域
[0003] 本公开一般涉及控制媒体的回放，具体涉及使用手势来控制媒体的回放。
【背景技术】
[0004] 在诸如视频或音频这样的媒体的控制中，用户典型地使用遥控器或者按钮来控制这样的媒体的回放。例如，用户能够按下"播放"按钮以使媒体由诸如计算机、接收器、MP3播放器、电话、平板等回放设备回放，以便以实时播放模式来播放媒体。当用户想要向前跳过媒体的一部分时，用户能够激活"快进"按钮，以使回放设备以比实时更快的播放模式使媒体向前。类似地，用户能够激活"快退按钮"，以使回放设备以比实时更快的播放模式使媒体倒退。
[0005] 为了脱离对遥控器的使用或者对回放设备上的按钮的使用，设备能够被实现为使用识别手势来控制设备的回放。也就是说，手势能够由设备的用户接口部分光学地识别，其中手势由设备解释以控制媒体回放。由于回放模式以及能够被用于这样的模式的速度的多样性，设备制造商可能将需要用户记住许多手势命令以便控制媒体的回放。

【发明内容】

[0006] 公开了一种使用手势来控制回放设备的媒体的回放的方法和系统。首先将用户手势分解成基础手势，基础手势指示特定的回放模式。然后将手势分解成包含修饰符命令的第二部分，修饰符命令修改根据基础命令所确定的回放模式。然后，通过修饰符命令来影响回放模式，其中，例如，回放模式的速度能够由修饰符命令来确定。
【附图说明】
[0007] 根据下面结合附图阅读的优选实施例的详细描述，本公开的这些和其他方面、特征和优点将被描述或者变得显而易见。
[0008] 遍及所有视图，相同的标号表示相同的元件，在附图中：
[0009] 图1是根据本公开的一方面的手势定点和识别的系统的示例性例示；
[0010] 图2是根据本公开的一方面的手势识别的示例性方法的流程图；
[0011] 图3是根据本公开的一方面的手势定点和识别的示例性方法的流程图；
[0012] 图4例示从由用户执行的分割轨迹"0"提取的状态转变点的示例；
[0013] 图5是根据本公开的一方面的使用隐马尔可夫模型(Hidden Markov Model，HMM) 和几何特征分布来训练手势识别系统的示例性方法的流程图；
[0014] 图6是根据本公开的一方面的使手势识别系统适配于特定用户的示例性实施例的流程图；
[0015] 图7是根据本公开的一方面的示例性回放设备的框图；
[0016] 图8是根据本公开的一方面的确定被用于控制媒体回放的输入手势的示例性实施例的流程图；
[0017] 图9是根据本公开的一方面的示出用于控制媒体回放的手臂和手用户输入手势的表示的用户接口的表示；
[0018] 图10是根据本公开的一方面的示出用于控制媒体回放的手臂和手用户输入手势的用户接口的表示；以及
[0019] 图11是根据本公开的一方面的示出用于控制媒体回放的手臂和手用户输入手势的用户接口的表示。
[0020] 应当理解，附图是用于例示公开的构思的目的，而未必是用于例示本公开的唯一可能配置。
【具体实施方式】
[0021] 应当理解，附图中所示的元件能够以各种形式的硬件、软件或者其组合来实现。优选地，这些元件在一个或多个经适当编程的通用设备上以硬件和软件的组合来实现，通用设备可以包括处理器、存储器和输入/输出接口。
[0022]本描述例示本公开的原理。因此，应当意识到，虽然未明确地在本文中描述或示出，但是本领域中的那些技术人员将能够设计出实施本公开的原理并且包括在本公开的范围内的各种布置方式。
[0023]在本文中所陈述的所有示例和条件语言旨在帮助读者理解本公开的原理以及由发明人贡献以促进本领域的构思的教学目的，而不应被解释为局限于这样具体陈述的示例和条件。
[0024] 而且，在本文中陈述本公开的原理、方面和实施例以及其具体示例的所有陈述旨在包括其结构和功能的等同物。另外，这样的等同物旨在包括当前已知的等同物以及在未来开发的等同物，即所开发的执行相同功能的任何元件而不管结构如何。
[0025] 因此，例如，本领域的那些技术人员将意识到，在本文中所呈现的框图表示实施本公开的原理的例示性电路系统的概念视图。类似地，应当意识到，任何流程图、流程图表、状态转变图、伪代码等均表示可以真实地表示在计算机可读介质中并且因此由计算机或处理器执行的各种处理(无论是否明确地示出这样的计算机或处理器）。
[0026] 附图中所示出的各种元件的功能可以通过使用专用硬件以及结合适当软件的能够执行软件的硬件来提供。当由处理器提供时，功能可以由单个专用处理器、单个共享处理器或者多个单独的处理器（它们中一些可以被共享）来提供。而且，术语"处理器"或"控制器"的明确使用不应当被解释成排他性地指能够执行软件的硬件，并且可以暗含地包括但不局限于数字信号处理器（"DSP"）硬件、用于存储软件的只读存储器（"ROM"）、随机存取存储器（"RAM"）以及非易失性存储器。
[0027] 在相关的权利要求书中，被表述为用于执行指定功能的装置的任何元件旨在包括执行该功能的任何方法，包括，例如a)执行该功能的电路元件的组合，或者b)任何形式的软件（因此包括固件、微代码等），该软件与执行该软件以执行该功能的适当的电路系统相结合。由这样的权利要求所限定的本公开在于如下事实：由所陈述的各种装置所提供的功能性以权利要求所要求的方式组合和结合在一起。因此认为能够提供那些功能性的任何装置等同于在本文中所示出的那些。
[0028] 本公开提供实现各种手势识别系统的示例性实施例，但是能够使用用于识别手势的其他实现方式。还提供采用用户的手的轨迹的隐马尔可夫模型(HMM)和几何特征分布的系统和方法来实现自适应手势识别。
[0029] 手势识别由于其在符号语言识别、多模态人机交互、虚拟现实和机器人控制中的潜在使用而受到越来越多的关注。大多数手势识别方法将所观察到的输入图像序列与训练样本或模型相匹配。输入序列被分类成样本或模型与其最佳匹配的手势分类。动态时间规整(DTW)、连续动态编程(CDP)、隐马尔可夫模型(HMM)以及条件随机场(CRF)是手势分类器的示例。
[0030] HMM匹配是用于手势识别的使用最广泛的技术。然而，这种方法无法利用已经被证明对于手势识别很有效的手的轨迹的几何信息。在利用手轨迹的先前方法中，手轨迹被看作整体，提取影响轨迹的形状的一些几何特征(诸如X和y轴上的平均的手的位置、所观察到的手的X和y位置的偏斜度等)作为贝叶斯分类器的输入以便识别。然而，该方法无法精确地描述手的手势。
[0031] 对于联机手势识别，手势定点（spotting)，即确定手势的开始点和结束点，是非常重要但困难的任务。存在两种用于手势定点的方法:直接方法和间接方法。在直接方法中，首先计算诸如速度、加速度和轨迹曲率这样的运动参数，并且找到这些参数的突变以识别候选手势边界。然而，这些方法不够准确。间接方法结合手势定点和手势识别。对于输入序列，间接方法找到在与训练样本或模型相匹配时给出高识别得分的间隔，从而同时完成手势的时域分割和识别。然而，这些方法通常是耗时的，并且也可能发生一些手势的错误检测。一种常规的方法提出使用剪枝(pruning)策略来提高系统的准确度和速度。然而，该方法简单地基于手轨迹的单个点与单个模型状态之间的兼容性进行剪枝。如果当前观察的可能性低于阈值，则匹配假设(match hypothesis)将被剪枝。基于这种简单策略的剪枝分类器可能易于过拟合训练数据。
[0032] 而且，不同用户的手势通常在速度、开始点和结束点、转折点的角度等方面不同。因此，学习如何调整分类器以使识别系统适配于特定用户是非常有意义的。
[0033] 先前，只有少数研究者研究自适应手势识别。一种技术通过用新的样本重新训练 HMM模型来实现手势系统的适配。然而，该方法损失先前样本的信息，并且对噪声数据敏感。另一种技术使用Baum-Welch方法的联机版本来实现手势分类器的联机学习和更新，并且开发了一种能够联机学习简单手势的系统。然而，该方法的更新速度非常慢。
[0034] 虽然仅存在关于自适应手势识别的少量研究，但是已经公开了很多用于自适应语音识别的方法。一种这样的研究通过最大后验(maximum a posteriori，MAP)参数估计来更新HMM模型。通过使用参数的先验分布，需要较少的新数据来获得强健的参数估计和更新。该方法的缺点是新的样本仅能够更新其对应分类的HMM模型，从而降低了更新速度。最大似然线性回归(MLLR)被广泛地用于自适应语音识别。其使用新的样本来估计模型参数的一组线性变换，使得模型能够在变换之后更好地匹配新的样本。所有模型参数能够共享全局线性变换，或者聚类成不同的分组，其中每组参数共享相同的线性变换。MLLR能够克服MAP的缺点，并且提高模型更新速度。
[0035]对于输入序列，所检测到的感兴趣的点与HMM模型相匹配，并且通过Viterbi算法或函数找到HMM模型的状态改变的点。这些点称作状态转变点。基于状态转变点与手势的开始点的相对位置，从手势模型提取几何特征。这些几何特征比传统方法更精确地描述手的手势。状态转变点通常对应于轨迹开始改变的点，并且与将手轨迹作为整体并且基于手轨迹的统计特性来提取几何特征的传统方法相比，基于这些点与开始点的相对位置来提取特征能够非常好地反映手势的形状的特性。
[0036] 此外，在将几何特征的提取合并到HMM模型的匹配中时，容易利用所提取的几何特征进行剪枝以及帮助识别手势的类型。例如，如果在状态转变点处所提取的几何特征的可能性低于阈值，则该匹配假设将被剪枝。即，如果针对某个帧，确定将该帧匹配到HMM模型的任何状态的成本太高，则本公开的系统和方法断定给定的模型没有良好地匹配输入序列，然后其将停止将随后的帧匹配到状态。
[0037] 用于剪枝的几何特征的合并比仅使用单个观察更准确和强健。当基于HMM模型以及手轨迹与手势分类之间的几何特征分布所计算出的模型匹配得分大于阈值时，手势被分割和识别。运动参数的突变的检测、HMM模型匹配以及轨迹几何特征提取的这种组合胜过现有的手势定点方法。
[0038] 现在参考附图，在图1中示出根据本公开的实施例的示例性系统组件100。可以提供图像捕获设备102来捕获执行手势的用户的图像。应当意识到，图像捕获设备可以是任何已知的图像捕获设备，并且可以包括数字静物相机、数字录像机、网络摄像头等。所捕获的图像输入到处理设备104,例如计算机。计算机在具有诸如一个或多个中央处理单元(CPU)、例如随机存取存储器(RAM)和/或只读存储器(ROM)这样的存储器106以及例如键盘、光标控制设备(例如鼠标或控制杆)和显示设备这样的输入/输出（I/O)用户接口 108等硬件的各种已知的计算机平台的任何上实现。计算机平台还包括操作系统和微指令代码。在本文中所描述的各种处理和功能可以是经由操作系统执行的微指令代码的一部分或者软件应用程序的一部分(或者其组合）。在一个实施例中，软件应用程序有形地实施在程序存储设备上，其可以被上传到诸如处理设备104这样的任何适当的机器并执行。另外，各种其他外围设备可以通过诸如并行端口、串行端口或者通用串行总线(USB)等各种接口和总线结构连接到计算机平台。其他外围设备可以包括另外的存储设备110和打印机(未示出）。
[0039] 软件程序包括:存储在存储器106中的手势识别模块112,其也称作手势识别器，用于识别所捕获图像序列中的用户所执行的手势。手势识别模块112包括:对象检测器和跟踪器114,其检测例如用户的手这样的感兴趣的对象，并且通过所捕获图像的序列来跟踪感兴趣的对象。设置模型匹配器116以将被检测和跟踪的对象匹配到存储在HMM模型数据库118 中的至少一个HMM模型。每个手势类型具有与其相关联的HMM模型。将输入序列与对应于不同手势类型的所有HMM模型相匹配，以找到哪个手势类型最佳地匹配该输入序列。例如，给定作为来自所捕获视频的每个帧的特征序列的输入序列以及作为状态序列的手势模型，模型匹配器116找到每个帧与每个状态之间的对应关系。模型匹配器116可以采用Viterbi算法或函数、前向算法或函数、前向后向算法或函数等来实现匹配。
[0040] 手势识别模块112(在图7中也标记为722)还包括:转变检测器120,用于检测HMM模型的状态改变的点。这些点被称作状态转变点，并且通过由转变检测器120采用的尤其是 Viterbi算法或函数找到或检测到。由特征提取器122基于状态转变点与手势的开始点之间的相对位置提取几何特征。
[0041]手势识别模块112还包括:剪枝算法或函数124,其也被称作剪枝器，用来减少用以找到匹配的HMM模型所执行的计算的数量，从而加速手势定点和检测处理。例如，给定作为来自所捕获视频的每个帧的特征序列的输入序列以及作为状态序列的手势模型，应该找到每个帧与每个状态之间的对应关系。然而，如果针对某个帧，剪枝算法或函数124发现将该帧匹配到任何状态的成本太高，则剪枝算法或函数124将停止将随后的帧匹配到状态，并且断定给定的模型没有良好地匹配输入序列。
[0042]另外，手势识别模块112包括:最大似然线性回归(MLLR)函数，用来适配HMM模型，并且针对每个手势分类，递增地学习特定用户的几何特征分布。通过同时更新HMM模型和几何特征分布，手势识别系统能够快速地适配于用户。
[0043] 图2是根据本公开的一方面的手势识别的示例性方法的流程图。初始地，在步骤 202,处理设备104获取由图像捕获设备102所捕获的输入图像的序列。手势识别模块112然后在步骤204使用HMM模型和几何特征来执行手势识别。步骤204将进一步在下面参照图3至图4来描述。在步骤206中，手势识别模块112将适配特定用户的每个手势分类的HMM模型和几何特征分布。步骤206将进一步在下面参照图5至图6来描述。
[0044] 图3是根据本公开的一方面的手势定点和识别的示例性方法的流程图。
[0045] 候选开始点检测
[0046] 初始地，在步骤302中，由图像捕获设备102捕获图像的输入序列。在步骤304中，对象检测器和跟踪器114检测输入序列中的候选开始点并且遍及序列地跟踪候选开始点。使用诸如手位置和速度这样的特征来表示输入序列的每个帧中的所检测到的手。这些特征通过用户的面部的位置和宽度来规格化。
[0047] 如同直接手势定点方法，候选开始点被检测为输入序列中的运动参数的突变。具有异常速度或严重的轨迹曲率的点被检测为候选开始点。使用该方法，通常存在许多错误的正检测(positive detection)。使用这些点作为手势边界的直接手势定点方法不是非常准确和强健。本公开的方法使用不同的策略。手轨迹被匹配到从这些候选开始点开始的每个手势分类的HMM模型，因此该方法能够结合直接手势定点方法和间接手势定点方法的优点。
[0048] HMM模型匹配
[0049] 在步骤306中，输入图像的序列经由模型匹配器116匹配到HMM模型118,如下面将描述的。
[0050] 设〇={(^，〇2，-_}是特征矢量的连续序列，其中^是从输入图像的输入帧」提取的特征矢量。使用诸如手位置和速度这样的特征来表示在每个帧中所检测到的手。这些特征通过执行手势的用户的面部的位置和宽度来规格化。设为左右HMM模型，其具有手势g的m+Ι个状态。每个状态与给出每个观察矢量Qj的可能性的高斯观察密度相关联。将使用Baum-Welch算法或函数来训练HMM模型。每个模型的状态的数量根据轨迹长度来指定，如同使用Baum-Welch算法或函数通常所做的那样。转变概率被固定以简化学习任务，亦即，每次转变时，模型同等可能地移动到下一个状态或者保持在相同的状态。
[0051] 用ak>1表示从状态k转变到状态i的转变概率，并且用表示当与模型状态相匹配时的特征矢量(^的可能性。设C为使用在1.1节中所描述的方法所检测到的候选开始点集。Mf是特殊状态，其中
[0052]
Cl)
[0053] 因此，HMM模型匹配仅在这些候选开始点处开始。用V(i，j)表示前j个输入特征矢量(Q:，…，Q』)与前i+Ι个模型状态Pf产相匹配时的最大概率。从而具有
[0054]
[0055] 设(Qi，…，QJ与之间的最大匹配得分SH(i，j)是V(i，j)的对数：
[0056] Sh(i, j) = log V(i, j). (3)
[0057] 基于等式（2)中的特性，使用动态编程(DP)来高效地计算最大匹配得分。使用以 (i，j)为索引的表格来实现DP。当从输入帧提取新的特征矢量^时，计算与帧η相对应的表格的片段，并且在单元（i，n)处存储两条信息：1)311(1，11)(1 = 0，一，111)的值；以及2)被用于使等式(2)最小化的前导(predecessor)k，其中，ShQ，n)是模型与在帧i处结束的输入序列之间的最优匹配的得分，并且k是在最优匹配中前一帧所对应的状态。S H(m，n)对应于模型与在帧η处结束的输入序列之间的最优对齐。最优动态编程(DP)路径(亦即，HMM模型的最优状态序列)能够使用回溯来获得。现有的间接法通常使用S H(m，n)来完成手势定点，亦即，如果SH(m，n)大于阈值，则手势结束点被检测为帧n，并且手势开始点能够通过回溯最优DP路径来找到。
[0058] 为了提高系统的速度和准确度，常规的系统使用剪枝策略，其中，它们基于当前观察的可能性进行剪枝:如果$ 4》，其中i(i)是模型状态i的阈值，并且根据训练数据而被学习到，则单元(i，j)将被剪枝掉，并且经过它的所有路径都将被拒绝。然而，这种简单的剪枝策略不够准确。
[0059] 几何特征提取
[0060] 在本公开的方法中，将几何特征的提取合并到HMM模型匹配过程中。对于输入序列，HMM模型的状态序列在步骤308中经由转变检测器120来确定。检测HMM的状态改变的点。图4给出从分割轨迹"0"提取的示例性状态转变点的一些示例，轨迹由用户执行并且由图像捕获设备102捕获。黑色点是状态转变点。可以看出，对于所有轨迹，状态转变点的位置是类似的，因此，如下面将描述的那样，在步骤310中经由特征提取器122基于状态转变点与手势的开始点的相对位置来提取几何特征。
[0061] 将手势的开始点表示为(XQ，yQ)，在转变点（Xt，yt)处所提取的几何特征包括:^- x〇、yt-yo矛I
这些简单的特征能够良好地描述手轨迹的几何信息。
[0062] 对于每个手势分类，使用与其相关联的HMM模型来提取其训练样本的几何特征。假设几何特征服从高斯分布。从训练样本学习几何特征的分布。然后，每个手势分类与HMM模型以及其几何特征分布相关联。将手势g的几何特征分布表示为
ζ中!11与仏的状态数量有关，并且#是在ΗΜΜ模型的状态从i-Ι改变成i的点处所提取的几何特征的分布。因为几何特征的提取合并到HMM模型匹配过程中，所有容易利用几何特征进行剪枝。例如，如果帧F是状态转变帧，则基于帧F来提取几何特征。如果所提取的几何特征的概率低于阈值，则该匹配将被剪枝掉，亦即，模型匹配器116将停止将随后的帧匹配到模型的状态，并且将选择至少一个第二手势模型进行匹配。现在将参照下面的等式(4)来描述剪枝过程。
[0063] 在步骤312中，如果满足下面的条件，则剪枝函数或者剪枝器124将剪枝掉单元(i， j)：
[0064]
(寺》其中，pre(i)是 HMM模型匹配期间状态i的前导,?是在点j处所提取的几何特征，t(i)是从训练样本学习的阈值，并且!丨〇和τ⑴如在1.2节中那样地定义。
[0065] 在步骤314中，（Gh，…，Qn)与
之间的总匹配得分由手势识别模块112 计算如下：
[0066]
[0067] 其中，α是系数，SH(m，n)是HMM匹配得分，并且Gj(i)是HMM状态从i-Ι改变成i的点处所提取的几何特征。如同间接方法那样地完成手势的时域分割，亦即，如果S(m，n)大于阈值，则如同在步骤216中那样，将手势结束点检测为帧n，并且如同在步骤218中一样，手势开始点能够通过回溯最优DP路径而找到。通过使用表达式(4)和等式(5)，方法能够组合HMM和手轨迹的几何特征用于手势定点和识别，从而提高系统的准确度。
[0068] 在另一个实施例中，提供采用隐马尔可夫模型(HMM)和几何特征分布完成自适应手势识别的系统和方法。本公开的系统和方法组合HMM模型和用户的手轨迹的几何特征用于手势识别。对于输入序列，跟踪所检测到的感兴趣的对象(例如手），并且将其与HMM模型相匹配。通过Vi terb i算法或函数、前向算法或函数、前向后向算法或函数等找到HMM模型的状态改变的点。这些点被称作状态转变点。基于状态转变点与手势的开始点的相对位置，提取几何特征。给定适配数据(亦即，特定用户执行的手势），使用最大似然线性回归(MLLR)方法来适配HMM模型，并且递增地学习特定用户的每个手势分类的几何特征分布。通过同时更新HMM模型和几何特征分布，手势识别系统能够快速地适配于特定用户。
[0069] 组合HMM和轨迹几何特征的手势识别
[0070] 参照图5,例示根据本公开的一方面的使用隐马尔可夫模型(HMM)和几何特征分布来训练手势识别系统的示例性方法的流程图。
[0071] 初始地，在步骤502中，由图像捕获设备102获取或捕获图像的输入序列。在步骤 504中，对象检测器和跟踪器114检测输入序列中的感兴趣的对象(例如用户的手），并且遍及序列地跟踪对象。使用诸如手位置和速度这样的特征来表示在输入序列的每个帧中所检测到的手。这些特征通过用户的面部的位置和宽度来规格化。给定图像的帧上的面部中心位置(xf，yf)、面部的宽度W以及手位置(xh，yh)，经规格化的手位置是xhn=(xh-xf )/w，yhn =(yh-yf) /w，亦即，将绝对坐标改变成相对于面部中心的相对坐标。
[0072]在步骤506中，使用具有高斯观察密度的左右HMM模型，将所检测到的手匹配到手势模型，并且确定手势分类。例如，给定作为来自所捕获视频的每个帧的特征序列的输入序列和作为状态序列的手势模型，模型匹配器116经由例如Viterbi算法或函数、前向算法或函数、前向后向算法或函数，找到每个帧与每个状态之间的对应关系。
[0073]接下来，在步骤508中，对于输入序列，由转变检测器120使用Viterbi算法或函数来检测所匹配的HMM模型的状态序列。检测HMM模型的状态改变的点。在步骤510中，经由特征提取器122基于状态转变点与手势的开始点的相对位置来提取几何特征。将手势的开始点表示为(x〇，y〇)，在转变点（xt，yt)处所提取的几何特征包括:xt-x〇、yt-y〇和
给定输入序列，在所有状态转变点所所提取的特征形成输入序列的几何特征。这些简单的特征能够良好地描述手轨迹的几何信息。
[0074] 对于每个手势分类，训练左右HMM模型，并且使用该HMM模型来提取其训练样本的几何特征。假设几何特征服从高斯分布。几何特征的分布从训练样本学习。然后，在步骤512 中，每个手势分类与HMM模型以及其几何特征分布相关联，并且在步骤514存储相关联的HMM 模型和几何特征分布。
[0075] 分别将与第i个手势分类相关联的HMM模型和几何特征分布表示为AjPqi。为了将分割的手轨迹〇= {(^，(^，…加}(亦即，被检测和跟踪的对象)与第i个手势分类相匹配，使用 Μ提取几何特征6=吣，62，"心}。匹配得分由手势识别模块112计算如下：
[0076] S = a X log ρ(〇 | λ?) + ( 1-α) X log qi(G) (6)
[0077] 其中，α是系数，并且p(〇|M)是给定HMM模型~的手轨迹〇的概率。p(〇|M)能够使用前向后向算法或函数来计算。输入的手轨迹将被分类成匹配得分最高的手势分类。因此，使用等式(6)，本公开的系统和方法能够组合HMM模型和用户的手轨迹(亦即，被检测和跟踪的对象)的几何特征用于手势识别。
[0078]手势识别的适配
[0079] 图6是根据本公开的一方面的用于将手势识别系统适配于特定用户的示例性方法的流程图。给定适配数据(亦即，特定用户执行的手势），本公开的系统和方法采用最大似然线性回归(MLLR)函数来适配HMM模型并且递增地学习每个手势分类的几何特征分布。
[0080] 初始地，在步骤602中，由图像捕获设备102捕获图像的输入序列。在步骤604中，对象检测器和跟踪器114检测输入序列中的感兴趣的对象，并且遍及序列地跟踪对象。在步骤 606中，使用具有高斯观察密度的左右HMM模型对手势分类进行建模。在步骤608中，检索被关联到所确定的手势分类的几何特征分布。
[0081 ]接下来，在步骤610中，使用最大似然线性回归(MLLR)函数针对特定用户来适配 HMM模型。最大似然线性回归(MLLR)被广泛地用于自适应语音识别。其使用新的样本来估计模型参数的一组线性变换，使得模型能够在变换之后更好地匹配新的样本。在标准MLLR方法中，根据下式来更新高斯密度的平均矢量：
[0082]
[0083]其中，W是nX(n+l)矩阵(并且η是观察特征矢量的维度)并且ξ是经扩展的平均矢量:ξΤ=[1，μL，…，μη]。假设适配数据0是一系列的T个观察:0 = 〇1···〇τ。为了计算等式⑴中的 W，将被最大化的目标函数是生成适配数据的可能性：
[0084]
[0085] 其中，Θ是生成〇的可能状态序列，λ是模型参数的集合。通过最大化辅助函数
[0086]
[0087] 其中，λ是模型参数的当前集合，并且I是模型参数的经重新估计的集合，等式(8) 中的目标函数也被最大化。关于W最大化等式(9)能够使用期望最大化(ΕΜ)算法或函数来求解。
[0088] 然后，在步骤612中，系统通过在预定数量的适配样本上重新估计几何特征分布的平均和协方差矩阵，来递增地学习用户的几何特征分布。将手势g的当前几何特征分布表示
其中If是在HMM模型的状态从i-Ι改变成i的点处所提取的几何特征的分布。假设if的平均和协方差矩阵分别表示为續和綠:。给定手势g的适配数据，从该数据提取几何特征，并且使在状态从i-Ι改变成i的适配数据的点处所提取的几何特征形成集合 X={X1，…Xk}，其中，^是从手势g的第i个适配样本提取的特征，并且k是手势g的适配样本的数量。然后，如下那样地更新几何特征分布：
[0089]
[0090]其中分别是if的经重新估计的平均和协方差矩阵。
[0091]通过同时更新HMM模型和几何特征分布，手势识别系统能够快速地适配于用户。然后，在步骤614中，针对特定用户，在存储设备110中存储经适配的HMM模型和所学习的几何特征分布。
[0092]已经描述了用于手势识别的系统和方法。使用手势模型（例如HMM模型）和几何特征分布来执行手势识别。基于适配数据(亦即，特定用户执行的手势），HMM模型和几何特征分布两者都被更新。以这种方式，系统能够适配于特定用户。
[0093]在图7中所示的回放设备700中，经由输入信号接收器702接收图像信息以及用于购买项目的对应信息。输入信号接收器702能够是被用于对通过若干可能的网络(包括用无线电、缆线、卫星、以太网、光纤和电话线网络)之一提供的信号进行接收、解调和解码的若干已知的接收器电路之一。所期望的输入信号能够在输入信号接收器702中基于通过控制接口（未示出）提供的用户输入进行选择和检索。经解码的输出信号提供给输入流处理器 704。输入流处理器704执行最终的信号选择和处理，并且包括针对内容流将视频内容与音频内容分离。音频内容提供给音频处理器706,以便从诸如压缩数字信号这样的接收格式转换成模拟波形信号。模拟波形信号提供给音频接口 708，并且进一步提供给显示设备或者音频放大器(未示出）。替代地，音频接口 708能够使用高清晰度多媒体接口（HDMI)缆线或者诸如经由索尼/飞利浦数字互连格式(sroiF)这样的替代的音频接口，将数字信号提供给音频输出设备或显示设备。音频处理器706还执行任何必要的转换以便存储音频信号。
[0094]来自输入流处理器704的视频输出提供给视频处理器710。视频信号能够是若干格式中的一种。视频处理器710基于输入信号格式在必要时提供视频内容的转换。视频处理器 710还执行任何必要的转换以便存储视频信号。
[0095]存储设备712存储在输入处所接收的音频和视频内容。存储设备712允许在控制器 714的控制下并且还基于从用户接口 716接收到的命令(例如，诸如下一个项目、下一页、缩放、快进(FF)回放模式和倒带(Rew)回放模式这样的导航指令），对内容进行稍后检索和回放。存储设备712能够是硬盘驱动器、诸如静态随机存取存储器或者动态随机存取存储器这样的一个或多个大容量集成电子存储器，或者能够是诸如压缩盘驱动器或者数字视频光盘驱动器这样的可交换光盘存储设备。在一个实施例中，存储设备712能够在外部而不存在于系统中。
[0096]来自视频处理器710(源自输入或存储设备712)的经转换的视频信号提供给显示接口 718。显示接口 718进一步将显示信号提供给上述类型的显示设备。显示接口 718能够是诸如红绿蓝(RGB)这样的模拟信号接口或者能够是诸如高清晰度多媒体接口（HDMI)这样的数字接口。
[0097] 能够是处理器的控制器714经由总线互连到设备700的若干组件，包括输入流处理器702、音频处理器706、视频处理器710、存储设备712、用户接口 716以及手势模块722。控制器714管理将输入流信号转换成用于存储在存储设备上或者用于显示的信号的转换处理。控制器714还管理用于回放所存储的内容的检索和回放模式。而且，如将在下面所描述的那样，控制器714执行对所存储的或者将经由上述递送网络递送的内容的搜索。控制器714还耦合到控制存储器720(例如，易失性或者非易失性存储器，包括随机存取存储器、静态RAM、动态RAM、只读存储器、可编程ROM、闪速存储器、EPROM、EEPR0M等），以便存储控制器714的信息和指令代码。而且，存储器的实现方式能够包括若干种可能的实施方式，诸如单个存储器设备，或者替代地，连接在一起以形成共享或共用存储器的多于一个的存储器电路。另外，存储器能够与诸如总线通信电路系统的一部分这样的其他电路系统一起包括在更大的电路中。
[0098]本公开的用户接口 716能够采用在显示器各处移动光标的输入设备，这进而使得内容在光标经过它时放大。在一个实施例中，输入设备是远程控制器，具有一种形式的运动检测，诸如陀螺仪或加速度计，从而允许用户在屏幕或显示器各处自由地移动光标。在另一个实施例中，输入设备是以将跟踪用户在板上、在屏幕上的移动的触摸板或者触摸敏感设备的形式的控制器。在另一个实施例中，输入设备可以是具有方向按钮的传统遥控器。根据在说明书中描述的示例性原理，用户接口 716也能够被配置为使用相机、视觉传感器等光学地识别用户手势。
[0099]作为来自图1的示例性实施例，手势模块722解释来自用户接口 716的基于手势的输入，并且根据上面的示例性原理来确定用户正在做出什么手势。所确定的手势然后能够被用于阐明回放以及回放的速度。具体地，能够使用手势来指示比媒体的实时播放更快地回放媒体，诸如快进操作和快退操作。类似地，手势也能够指示比媒体的实时播放更慢，诸如慢动作前进操作和慢动作倒退操作。关于手势意味着什么以及这样的手势如何控制媒体的回放速度的这些确定在各种例示性实施例中描述。
[0100] 能够将手势分解成被称作基础手势和手势修饰符的至少两个部分。基础手势是包含移动的一方面(能够是手臂或腿的移动）的"总的"手势。手势的修饰符能够是在人移动手臂的同时所展示的手指的数量、当人移动手臂时手上的所展示的手指的位置、当人移动他们的腿时的脚的移动、当人移动手臂时的手的挥动等。基础手势能够由手势模块722确定，以便以诸如快进、快退、慢动作前进、慢动作后退、正常播放、暂停等回放模式来操作回放设备700。手势的修饰符然后由手势模块720确定，以便设置回放的速度，回放的速度能够比与正常播放模式相关联的媒体的实时播放更快或更慢。在示例性实施例中，与具体手势相关联的回放将持续与用户保持手势一样长的时间。
[0101] 图8例示根据示例性实施例的使用输入的手势来控制媒体的回放的流程图800。步骤802具有用户接口 710接收用户手势。如上所述，用户手势能够由用户接口 710使用视觉技术来识别。在步骤804中，手势模块722将输入的手势分解成基础手势，基础手势例示性地能够是手臂在向左的方向上的移动、手臂在向右的方向上的移动、手臂在向上的方向上的移动、手臂在向下的方向上的移动等。所确定的基础手势然后与控制命令相关联，控制命令被用于使用诸如正常播放模式、快进、快退、慢的前进动作、慢的倒退动作、暂停模式等例示性回放模式来选择回放模式。回放模式能够是作为实时播放操作的实时回放模式。回放模式也能够是非实时回放模式，其使用诸如快进、快退、慢动作前进、慢动作倒退等回放模式。在示例性实施例中，手臂在向右的方向上的移动指示前进回放操作，而手臂在向左的方向上的移动指示倒退回放操作。
[0102] 步骤806具有手势模块722确定基础手势的修饰符，其中，例示性的修饰符包括在手上所展示的手指的数量、手上的手指的位置、手的挥动的数量、手的手指的移动等。在例示性示例中，第一手指能够指示第一回放速度，第二手指能够指示第二回放速度，第三手指能够指示第三回放速度，以此类推。理想地，修饰符对应于比非实时更快或更慢的回放速度。
[0103] 在另一个例示性示例中，食指的位置能够代表比实时回放速度快两倍，中指的位置能够代表比实时回放速度快四倍，无名指的位置能够代表比实时回放速度快八倍，以此类推。
[0104] 对应于不同修饰符的速度能够是比实时速度更快和更慢的混合。在又一个例示性示例中，食指的位置能够代表比实时回放速度快两倍，而中指的位置能够代表实时回放速度的一半。根据示例性原理，能够使用速度的其他混合。
[0105] 在步骤808中，由手势模块722确定的修饰符与控制命令相关联，控制命令根据步骤806确定回放模式的速度。在步骤810中，控制器714使用控制命令以修饰符所确定的速度、以所确定的回放模式来启动媒体的回放。根据所选择的回放模式，媒体能够以所确定的回放模式、经由音频处理器706和视频处理器710输出。
[0106] 在可选的实施例中，从快速操作到慢速动作模式的改变能够通过在向下的方向上移动手臂来完成。即，用来引起快进操作的基础手势现在将导致慢的前进动作操作，而导致快退操作的基础手势现在将导致慢动作倒退操作。在另一个可选的实施例中，根据示例性原理，响应于在向上的方向上移动手臂的手势来执行基础手势从慢速操作到快速操作的改变。
[0107] 图9展示用户接口 900的示例性实施例，其示出用来控制媒体的回放的手臂和手的手势的表示。用户接口 900中的特定手势示出使用一个手指的向右的手臂。向右的手臂移动的基础手势将指示媒体的快进或慢动作前进回放，其中修饰符指示媒体应当以第一速度回放。图10展示用户接口 1000的示例性实施例，其示出向右移动的手臂和手的手势，其中媒体的回放将以第三速度进行，第三速度对应于三个手指作为修饰符的显示。
[0108] 图11展示例示用来控制媒体的回放的手臂和手的手势的用户接口 1100的示例性实施例。具体地，用户接口 1100中的手势是向左移动的基础手势，其与作为快退或者慢动作回顾的、基于倒退的模式的媒体回放相关。根据示例性原理，基于倒退的模式的速度是多个速度中的第二速度。下面表格1示出根据所公开的原理的具有相关联修饰符的基础手势。
[0109] 表格 1
[0110]
[0111]虽然在本文中已经详细地示出并描述了体现本公开的教导的实施例，但是本领域的那些技术人员能够容易地设计出许多其他变化的实施例，其仍然体现这些教导。已经描述了用于手势识别的系统和方法的优选实施例(其旨在是例示性的而不是限制性的），应当注意，本领域的技术人员能够根据上面的教导做出修改和变化。因此，应当理解，可以在所公开的本公开的具体实施例中进行改变，其在由所附的权利要求书所给出的本公开的范围内。
【主权项】
1. 一种控制媒体回放的方法，包括：接收与用户手势相对应的输入(802); 将输入的基础手势与对应于回放模式的控制命令相关联(804); 接收基础手势的修饰符(806); 将修饰符与控制命令相关联(808);以及响应于所述控制命令，根据相关联的回放模式和修饰符来播放媒体(810)。2. 根据权利要求1所述的方法，还包括：将多个不同的修饰符中的一个与控制命令选择性地相关联；以及响应于多个修饰符中的所选择的一个来修改回放模式。3. 根据权利要求2所述的方法，还包括:选择多个修饰符中的不同的一些来控制回放模式的方向和速度。4. 根据权利要求1所述的方法，其中，回放模式是从包括快进操作、快退操作、慢动作前进操作和慢动作倒退操作的分组中选择出的至少一个模式。5. 根据权利要求1所述的方法，其中，基础手势是从包括向左边的方向移动手臂、向右边的方向移动手臂、在向上的方向上移动手臂和在向下的方向上移动手臂的分组中选择出的至少一个手势。6. 根据权利要求5所述的方法，其中，基础手势的修饰符是从包括展示至少一个手指、至少一个所展示手指的位置、至少一个手挥动以及至少一个手指的至少一个移动的分组中选择出的至少一个元素。7. 根据权利要求6所述的方法，其中，展示至少一个手指还包括：展示一个手指表示回放速度的第一速度；展示两个手指表示回放速度的第二速度；以及展示三个手指表示回放速度的第三速度。8. 根据权利要求6所述的方法，其中，展示至少一个手指还包括：在第一位置处展示手指表示处于第一回放速度的速度；在第二位置处展示手指表示处于第二回放速度的速度；以及在第三位置处展示手指表示处于第三回放速度的速度。9. 根据权利要求5所述的方法，其中，在向下的方向上移动手臂将回放速度从快速操作改变成慢动作操作。10. 根据权利要求5所述的方法，其中，在向上的方向上移动手臂将回放速度从慢动作操作改变成快速操作。11. 根据权利要求1所述的方法，其中，基础手势是向右的移动手臂移动，其指示回放模式是快进操作，并且基础手势的修饰符是至少一个手指的显示，其中使用所显示手指的数量来确定快进操作的速度。12. 根据权利要求1所述的方法，其中，基础手势是向左的手臂移动，其指示回放模式是快退操作，并且基础手势的修饰符是至少一个手指的显示，其中使用所显示手指的数量来确定快退操作的速度。13. 根据权利要求1所述的方法，其中，基础手势是向右的移动手臂移动，其指示回放模式是慢进操作，并且基础手势的修饰符是至少一个手指的显示，其中使用所显示手指的数量来确定慢进操作的速度。14. 根据权利要求1所述的方法，其中，基础手势是向左的手臂移动，其指示回放模式是慢退操作，并且基础手势的修饰符是至少一个手指的显示，其中使用所显示手指的数量来确定慢退操作的速度。15. -种用于控制媒体回放的装置，包括：处理器；以及存储器，耦合到处理器，所述存储器用于存储指令，所述指令在被处理器执行时执行以下操作：接收与用户手势相对应的输入(802); 将输入的基础手势与对应于回放模式的控制命令相关联(804); 接收基础手势的修饰符(806); 将修饰符与控制命令相关联(808);以及响应于所述控制命令，根据相关联的回放模式和修饰符来播放媒体(810)。16. 根据权利要求15所述的装置，包括使处理器执行以下操作的指令：将多个不同的修饰符中的一个与控制命令选择性地相关联；以及响应于多个修饰符中的所选择的一个来修改回放模式。17. 根据权利要求16所述的装置，还包括使处理器执行以下操作的指令:选择多个修饰符中的不同的一些来控制回放模式的方向和速度。18. 根据权利要求15所述的装置，其中，回放模式是从包括快进操作、快退操作、慢动作前进操作和慢动作倒退操作的分组中选择出的至少一个模式。19. 根据权利要求15所述的装置，其中，基础手势是从包括向左边的方向移动手臂、向右边的方向移动手臂、在向上的方向上移动手臂和在向下的方向上移动手臂的分组中选择出的至少一个手势。20. 根据权利要求19所述的装置，其中，基础手势的修饰符是从包括展示至少一个手指、至少一个所展示手指的位置、至少一个手挥动以及至少一个手指的至少一个移动的分组中选择出的至少一个元素。21. 根据权利要求20所述的装置，其中，展示至少一个手指还包括：展示一个手指表示回放速度的第一速度；展示两个手指表示回放速度的第二速度；以及展示三个手指表示回放速度的第三速度。22. 根据权利要求20所述的装置，其中，展示至少一个手指还包括：在第一位置处展示手指表示处于第一回放速度的速度；在第二位置处展示手指表示处于第二回放速度的速度；以及在第三位置处展示手指表示处于第三回放速度的速度。23. 根据权利要求19所述的装置，其中，在向下的方向上移动手臂将回放速度从快速操作改变成慢动作操作。24. 根据权利要求19所述的装置，其中，在向上的方向上移动手臂将回放速度从慢动作操作改变成快速操作。25. 根据权利要求15所述的装置，其中，基础手势是向右的移动手臂移动，其指示回放模式是快进操作，并且基础手势的修饰符是至少一个手指的显示，其中使用所显示手指的数量来确定快进操作的速度。26. 根据权利要求15所述的装置，其中，基础手势是向左的手臂移动，其指示回放模式是快退操作，并且基础手势的修饰符是至少一个手指的显示，其中使用所显示手指的数量来确定快退操作的速度。27. 根据权利要求15所述的装置，其中，基础手势是向右的移动手臂移动，其指示回放模式是慢进操作，并且基础手势的修饰符是至少一个手指的显示，其中使用所显示手指的数量来确定慢进操作的速度。28. 根据权利要求15所述的装置，其中，基础手势是向左的手臂移动，其指示回放模式是慢退操作，并且基础手势的修饰符是至少一个手指的显示，其中使用所显示手指的数量来确定慢退操作的速度。
【文档编号】G06K9/00GK105980963SQ201580007424
【公开日】2016年9月28日
【申请日】2015年1月7日
【发明人】S.K.韦斯特布鲁克, J.M.诺古埃罗尔
【申请人】汤姆逊许可公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：S.K.韦斯特布鲁克;J.M.诺古埃罗尔;
技术所有人：汤姆逊许可公司;
我是此专利的发明人

上一篇：用于检测手移动的移动检测装置的制造方法
上一篇：信息处理设备、信息处理方法和程序的利记博彩app

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。