专利名称:记录所捕获图像的音频元数据的利记博彩app
技术领域:
本发明通常涉及音频处理领域,并且更具体地涉及在相关联的静止或视频数字化
图像的图像文件中嵌入音频元数据。
背景技术:
数字照相机往往包括视频捕获能力。另外,一些数字照相机具有用音频注解图像 捕获数据的能力。音频波形往往被存储为数字编码的音频样本并且放置在文件格式的适当 容器内,例如数字静止图像文件的元数据标签或者简单地作为视频文件或流中的(一个或 多个)编码音频层。 在消费电子学工业中已经有许多创新将图像内容与声音进行结合。例如,伊斯 曼'柯达公司在US6496656B1中教导了如何在硬拷贝印刷品中嵌入音频波形。另一个柯达 专利US6993196B2教导了如何将音频数据作为非标准元数据存储在图像文件的结尾处。
Virage公司具有一个专利US6833865,该专利教导了关于一种用于实时嵌入的元 数据提取的系统,所述元数据提取能够是与场景或音频相关的,只要音频已经存在于视听 数据流中即可。该处理能够与捕获并行地或者顺序地进行。 US7113219B2是惠普专利,其教导了使用按钮上的第一位置来捕获音频以及使用 第二位置来捕获图像。 尽管这样的音频信息驻留在图像或视频文件中以用于回放目的,但是该音频除了 允许在以后查看文件时回放声音之外没有其它目的。当前,没有机制用于在捕获时或在以 后自动地捕获与数字图像或视频捕获同时的音频事件以便后续分析进行理解、组织、分类 或搜索/检索。
发明内容
简而言之,依据本发明,提供了一种在图像捕获期间记录音频元数据的方法,包 括 a)提供用于捕获静止或视频数字化的场景图像和记录音频信号的图像捕获设 备; b)当该设备处于开机模式时连续地记录所述音频信号;以及 c)由所述图像捕获设备启动静止图像或视频图像的捕获,并且将在静止图像或视
频图像的捕获终止之前、期间和之后的时间内产生的音频信号存储为元数据。
本发明自动地将音频元数据与图像捕获相关联。而且,本发明自动地将同时发生
的音频信息的预定段与图像或图像的视频序列相关联。 要理解,如本发明的该说明书中使用的短语"图像捕获"、"捕获的图像"、"图像数 据"涉及静止图像捕获以及运动图像捕获,如在视频中。术语"静止图像捕获"和"视频捕 获"或者其变型在需要时将用来描述不同的静止或运动捕获情况。
本发明的优点源于如下事实在图像捕获之前、期间和之后被捕获的记录的音频信息提供场景的情境以及有用的元数据,其能够被分析以语义理解所捕获的图像。依据本 发明,一个过程将音频信息的不断更新的活动窗口与所捕获的图像相关联,以允许用户有 不必经过驱动按钮或开关来主动地启动音频捕获的自由。用户所需的物理动作是启动图像 或视频捕获事件。音频信号与(多个)图像的关联以及音频信息的活动窗口的管理由设备 的电子器件自动地处理并且对用户是完全透明的。 通过查看以下优选实施例的详细描述和所附权利要求并且参照附图,将更清楚地 理解和明白本发明的这些以及其它方面、目标、特征和优点。 本发明包括这些优点存储于存储器中的开机模式中的音频的连续捕获允许捕获 能够用于对图像数据的语义理解的更多信息,以及在查看图像数据时经过音频的回放来增 强用户体验。在图像捕获时,来自静止和视频捕获之前的一段时间、静止和视频捕获期间以 及静止和视频捕获之后的一段时间的音频样本作为元数据被自动地存储在图像文件中以 用于以后的语义分析。
图la是描述发明的实施例的框图; 图lb示出含有图像和音频数据的多媒体文件; 图2a是描述代表性摄影环境的草图,含有照相机用户、对象、场景以及其它产生 环境中声音的目标; 图2b是使用发明的优选实施例说明在典型使用情况下发生的高级事件的流程 图; 图3a是示出作为与静止图像捕获情况交叠的时变信号的数字化音频信号波形的 详细图; 图3b是特定于视频捕获情况的数字化音频信号波形的详细图;以及
图4是用于分析所记录的音频信号的图la所示的分析过程的框图。
具体实施例方式
在以下描述中,本发明将在其优选实施例中被描述为数字照相机设备。本领域技 术人员将容易意识到等效发明还能够存在于其它实施例中。 图la示出了数字照相机设备10的示意图。数字照相机设备IO含有用于图像捕 获的照相机镜头及传感器系统15。图像数据45(参见图lb)能够为单独的静止图像或者如 视频中的一系列图像。这些图像数据由专用的图像模拟_数字转换器20量化并且计算机 CPU 25处理该图像数据45并将其编码为数字多媒体文件40以存储在内部存储器30或可 移动存储器模块35中。内部存储器30还为捕获前缓冲的音频信号55a和捕获后缓冲的音 频信号55c以及为照相机设置和用户偏好60提供足够的存储空间。另外,数字照相机设备 10含有麦克风65,麦克风65记录场景的声音或者记录语音以用于其它目的。麦克风65所 生成的电信号由专用的音频模拟-数字转换器70数字化。数字音频信号175被存储在内 部存储器30中作为捕获前缓冲的音频信号55a和捕获后缓冲的音频信号55c。
图lb示出了含有数字多媒体文件40的可移动存储器模块35 (例如SD存储卡或 存储棒)的图。文件含有先前提到的图像数据45以及相伴的音频剪辑50。
在图2a所示的优选实施例的共用情况内能够更好地理解图la中所描述的各种部 件的操作,其中图2a描述了代表性摄影环境。参照图2a,带有数字照相机设备10的摄影师 90与环境85中的对象100进行言语交互。环境85被定义为其中目标对数字照相机设备10 是可见的或可听到的空间。摄影师90和对象100的各自言语95和105能够是对话的一部 分,或者能够是由对象100或摄影师90如以讲述或注解的方式单向地产生。摄影场景130 被定义为数字照相机设备10的光学视场。在环境85中能够存在由其它场景相关目标110 所产生的其它场景相关环境声音115。在图2a的情况下,场景相关目标110是在摄影场景 130内的音乐家。来自被示为飞机的非场景相关目标120的非场景相关环境声音125对麦 克风65是可听到的并且因此是数字照相机设备10感测的环境85的一部分,然而它们不是 摄影场景130的一部分。图2a还示出了总声音135,其被定义为入射到麦克风65上的环境 85内的所有声源的总和。 图2b是涉及捕获图2a所示的摄影场景130的静止图像的事件序列的流程图。参 照图2b,数字照相机设备10开机或唤醒步骤140示出了通过打开电源来激活数字照相机设 备10或者以其它方式从休眠或待机模式中唤醒。这个步骤很重要,因为在音频信号缓冲步 骤145中数字照相机设备10立即开始将麦克风65产生的数字音频信号175(参见图3a) 存储为捕获前缓冲的音频信号55a。音频信号缓冲步骤145允许摄影师90在图像捕获事件 150之前进行与摄影场景130或环境85中的对象100或其它属性的进行对话或者描述所 述对象100或其它属性。同时,还可能存在麦克风65感测的其它非言语声音,诸如先前讨 论的场景相关环境声音115或其它非场景相关环境声音125,其能够给随后的图像捕获事 件150添加额外的情境。重要的是注意,在音频信号缓冲步骤145中麦克风165和音频模 拟_数字转换器70记录环境85中存在的总声音135。在图像捕获事件150中,摄影师90 按下捕获按钮75(参见图la),这就启动捕获摄影场景130的图像数据45。在继续的音频 信号缓冲步骤155中数字照相机设备10继续记录来自环境85的总声音135达照相机设置 和用户偏好60中指定的额外时间段。 在这一点上,图2b的流程图更详细地示出了在音频信号缓冲步骤145到继续的音 频信号缓冲步骤155期间所发生的情况。参照图3a,示出了由麦克风65拾取的作为数字音 频信号175表示的总声音135、以及相关联的时间线180。如先前所陈述的,在音频信号缓 冲步骤145中,总声音135被连续地存储为捕获前缓冲的音频信号55a。捕获前缓冲的音频 信号55a存储N秒的音频信息,如时间线180上由时间线180上的"t = -N"时间标记185 所示。"t = -N"时间标记185指明捕获前缓冲的音频信号55a的时间上的起点。这个捕获 前缓冲的音频信号55a以"活动窗口"的方式进行连续更新,其中在时间线180上最老的样 本在"t = -N"时间标记185处溢出缓冲器的末端而当前的音频样本填充在"t。 = 0"时间 标记190a处的缓冲器的前端。"t。 = 0"时间标记190a代表数字照相机设备10打开并正 在收听环境85中存在的总声音135时的实时当前时刻。捕获前缓冲的音频信号55a能够 被认为是在从"t = -N"时间标记185跨越到"t。 = 0"时间标记190a的FIFO(先进先出) 样本向量中不断更新的声音的活动窗口。 回头参照图2b,图像捕获事件150 (即,摄影师90按下捕获按钮75)与捕获前缓冲 的音频信号55a的填入(population)的完成相一致。在"t。 = 0"时间标记190a处发生 的图像捕获事件150的时候,继续的音频信号缓冲步骤155示出了数字音频信号175继续填充捕获后音频数据缓冲器55c达额外的M秒,如时间线180上的"t = +M"时间标记195 所示。在静止图像捕获的情况下,理想化的是图像捕获事件150(参见图3a)捕获时间上的 无穷小时刻,然而图像捕获事件实际上跨越了快门的持续时间或传感器的积分时间。例如, 数字照相机设备10的曝光时间可以在照相机设置和用户偏好60中被设置为1/20秒。在 一秒的这个分数期间的音频以无缝的方式被保存以使数字音频信号175从"t = -N"时间 标记185跨越到"t = +1"时间标记195。在音频剪辑形成步骤157中捕获前缓冲的音频信 号55a和捕获后缓冲的音频信号55c被组合以形成音频剪辑50(参见图3a)。
图3b示出了特定于视频捕获情况的音频波形的图,其中总声音135(参见图2a) 被记录同时数字照相机设备10的照相机镜头及传感器系统15(参见图la)将图像数据 45(参见图lb)记录为视频帧。图像数据45被捕获同时数字音频信号175继续被记录和存 储为视频流55b'的音频部分达图像捕获事件150的持续时间;例如达额外的T秒,如由从 "t。 = 0"时间标记190a到完成图像捕获事件150后的 =+T"时间标记190b的时间跨 度所示。视频捕获前缓冲的音频信号55a'、视频流55b'的音频部分以及视频捕获后缓冲的 音频信号55c'被合并以形成与图像捕获事件150相关联的音频剪辑50。
回头参照图2b,在视频捕获的情况下,音频剪辑形成步骤157组合视频捕获前缓 冲的音频信号55a'、视频流55b'的音频部分以及捕获后缓冲的音频信号55c'(参见图3b)。 音频剪辑存储步骤160将音频剪辑50存储为数字多媒体文件40的一部分。在语义分析步 骤165中,音频剪辑50通过语义分析过程80(参见图la)经历进一步的分析。最后,增强 的用户体验步骤170示出音频剪辑50能够被用于增强的用户体验。例如,音频剪辑50能 够在查看图像数据时进行简单的回放。另外,作为语义分析步骤165的结果的从音频剪辑 50中搜集的信息构成新的元数据205(参见图4)并且能够例如被用来增强基于语义的媒体 搜索和检索。 图4是用于语义分析步骤165(参见图2b)的音频数据分析的更详细的框图。语 义分析过程80在本发明的优选实施例中是语音到文本操作200,语义分析过程80将出现 在音频剪辑50中的言辞转换成新的元数据205。能够进行其它分析,例如检查音频剪辑50 以帮助对捕获位置和条件的语义理解,检测目标或人物的出现或身份。在优选实施例中,新 的元数据205采取一列识别的关键字的形式,或者其能够是一列短语或语音串。新的元数 据205通过将元数据写到文件操作210而与数字多媒体文件40相关联。
回头参照图3a和3b,捕获前缓冲的音频信号55a(视频捕获前缓冲的音频信号 55a')和捕获后缓冲的音频信号55c(视频捕获后缓冲的音频信号55c')的持续时间具有 默认值并且在照相机设置和用户偏好60中(参见图la)是用户可调节的,所述照相机设置 和用户偏好60被存储在内部存储器30中。例如,捕获前缓冲的音频信号55a默认持续时 间能够在照相机设置和用户偏好60中被预置为N = 10秒,而捕获后缓冲的音频信号55c 默认持续时间能够在照相机设置和用户偏好60中被预置为M = 5秒。缓冲器的持续时间 是任意的并且在需要更多或更少时间的情况下是用户可调节的。 如果在捕获后缓冲的音频信号55c仍在用音频样本填入自身的过程中启动另一 捕获事件150(这将是处于突发模式捕获的情况),则能够支持内部存储器30中的多个缓冲 器(参见图la)。 获得等效音频剪辑50的另一方法将是把全部数字音频信号175(参见图3a、3b)存储在数字照相机设备10的内部存储器30中,假设内部存储器30的存储容量足够的话。 在用户希望捕获图像数据45(参见图lb)的那个时候,用户按下捕获按钮75(参见图la) 以启动在"t。 = O"时间标记190a处发生的捕获事件150(参见图3a、3b)。在捕获事件150 的初始"t。 = 0"时间标记190a处,位于在"t。 = 0"时间标记之前N秒的"t = -N"时间 标记185处的时移指针定义音频剪辑50的开始,一旦捕获后缓冲的音频信号55c完成,所 述音频剪辑50将包括从"t = -N"时间标记185到"t = +M"时间标记195的音频样本。
除了具有预置的时间长度来捕获在图像捕获事件之前和之后的音频之外,还可能 要慎重的是在'切断数字音频信号'之前实时地分析数字音频信号175以确定音频的连续 性。例如,发生在数字照相机设备10的计算机CPU 25内的连续音频分析过程17(参见图 la)能够实时地分析数字音频信号175(参见图3a、3b)并且确定适当的位置以开始和结束 音频剪辑。例如,如果数字音频信号175包括口头独白,则通过自动调节"t = -N"时间标 记185将保存更长或更短的捕获前缓冲的音频信号55a,或者通过自动调节"t = +M"时间 标记195将保存更长或更短的捕获后缓冲的音频信号55c,以便维持数字音频信号175的连 续性。基于音频连续性或响度阈值找出数字音频信号175中的适合(convenient)中断允 许系统适当地剪辑数字音频信号175,而'固定'时间可能在字中间切断数字音频信号175。 换句话说,人们可能期望如果数字音频信号175下降到阈值之下预定时间量则终止数字音 频信号175捕获,因而为声音不重要时的那些情况节省文件空间。相反,可能存在太多的噪 声以致声音对语义或重复使用等而言是无用的。音频分析过程17将采用针对音频可用性 的阈值并抛弃任何响亮的、非可辨别的或连续的噪声。部件列表10数字照相机设备15照相机镜头及传感器系统17音频分析过程20图像模拟-数字转换器25计算机CPU30内部存储器35可移动存储器模块40数字多媒体文件45图像数据50音频剪辑55a捕获前缓冲的音频信号55a'视频捕获前缓冲的音频信号55b'视频流的音频部分55c捕获后缓冲的音频信号55c'视频捕获后缓冲的音频信号60照相机设置和用户偏好65麦克风70音频模拟-数字转换器75捕获按钮
80语义分析过程 85环境 90摄影师 95摄影师的言语/声音 100对象 105对象的言语/声音 110场景相关目标 115场景相关环境声音 120非场景相关目标 125非场景相关环境声音 130摄影场景 135总声音 140设备开机或唤醒步骤 145音频信号缓冲步骤 150图像捕获事件(静止或视频) 155继续的音频信号缓冲步骤 157音频剪辑形成步骤 160音频剪辑存储步骤 165语义分析步骤 170增强的用户体验步骤 175数字音频信号 180时间线 185t二-N时间标记 190a t0 = 0时间标记 190b tl = T时间标记 195t = +M时间标记 200语音到文本操作 205新的元数据 210将元数据写到文件操作
8
权利要求
一种在图像捕获期间记录音频元数据的方法,包括a)提供用于捕获静止或视频数字化的场景图像和记录音频信号的图像捕获设备;b)当该设备处于开机模式时将所述音频信号连续地记录在缓冲器中;以及c)由所述图像捕获设备启动静止图像或视频图像的捕获,并且将在静止图像或视频图像的捕获终止之前、或期间和之后的时间内产生的音频信号存储为元数据。
2. 权利要求1的方法,还包括在图像捕获设备中提供至少一个麦克风以及将该麦克风 捕获的音频信号数字化以使得所记录的元数据音频信号被数字化。
3. 权利要求l的方法,其中音频信息被暂时存储在活动窗口存储缓冲器中。
4. 权利要求1的方法,还包括包含在视频图像捕获期间捕获的音频信号以及存储在存 储器中的音频信号和在视频图像的捕获终止之后的预定时间期间产生的音频信号。
5. 权利要求l的方法,还包括为音频缓冲器提供默认持续时间。
6. 权利要求l的方法,还包括根据用户偏好调节要设置的音频缓冲器的持续时间。
7. 权利要求6的方法,还提供一种基于对音频信号的分析来确定捕获前音频缓冲器的 持续时间和捕获后音频缓冲器的持续时间的自动模式。
8. 权利要求l的方法,其中音频信号被整体地存储在存储器中,并且存储器地址对待 与图像数据相关联的音频元数据的开始和结尾进行标记。
9. 权利要求7的方法,还包括包含调节待与图像数据相关联的音频元数据的开始和结尾的存储器地址。
10. 权利要求2的方法 音频元数据的图像文件。
11. 权利要求4的方法
12. 权利要求4的方法 义理解。
13. 权利要求6的方法
14. 权利要求6的方法
15. 权利要求6的方法
16. 权利要求6的方法
17. 权利要求6的方法
18. 权利要求6的方法 件的元数据。
19. 权利要求1的方法
20. 权利要求1的方法
21. 权利要求1的方法 间是可调节的。
22. 权利要求20的方法,还包括使用音频剪辑来提供对音频信息的语义理解,从而用 于媒体搜索/检索。
23. 权利要求l的方法,还包括给突发捕获模式提供多个音频缓冲器以用于突发捕获 序列中的每个静止图像。,还包括提供与捕获的图像相关联的具有数字化图像和数字化,还包括提供用于存储图像文件的可移动存储卡。 ,还包括分析音频元数据以提供对捕获的静止或视频图像的语,还包括提供音频元数据的书面文本。,还包括提供对出现在音频元数据中的环境声音的描述。,还包括提供音频元数据中的说话者的身份。,其中对音频元数据的分析发生在捕获设备内。,其中对音频元数据的分析发生在计算设备而不是捕获设备上。,还包括用从所述分析中获取的附加元数据来更新现有图像文,还包括在图像捕获之前存储音频信息。,还包括组合所存储的音频以形成音频剪辑。,其中在静止图像或视频图像的捕获终止之前、期间和之后的时
全文摘要
一种在图像捕获期间记录音频元数据的方法包括提供用于捕获静止或视频数字化的场景图像和记录音频信号的图像捕获设备;当该设备处于开机模式时将所述音频信号连续地记录在缓冲器中;以及由所述图像捕获设备启动静止图像或视频图像的捕获,并且将在静止图像或视频图像的捕获终止之前、期间和之后的时间内产生的音频信号存储为元数据。
文档编号H04N101/00GK101772949SQ200880102117
公开日2010年7月7日 申请日期2008年7月17日 优先权日2007年8月7日
发明者C·W·洪辛格, J·V·内尔逊, K·A·雅各比, T·J·默里 申请人:伊斯曼柯达公司