一种基于局部频谱图像描述子的鲁棒音频识别方法
【专利摘要】本发明属基于内容的音乐检索【技术领域】,涉及一种基于局部频谱图像描述子的鲁棒音频识别方法,本发明方法中,将一维音频信号转化为二维听觉图像,提取图像特征作为音频指纹,使其对时间缩放和变调等主要的音频失真类型具有鲁棒性;其包括指纹提取步骤和指纹匹配步骤)两部分。本发明不同于现有技术的单纯基于频谱特征或节奏特征的方法,而是将一维音频信号转换为二维的图像信号,基于计算机视觉技术提取强鲁棒性的局部图像特征作为音频指纹,同时将时间缩放攻击和变调等失真行为视作对相应图像的伸缩和平移处理。本发明从全新思路提供了一种新的强鲁棒性音频指纹,从而实现在各种信号失真以及时-频伸缩的情况下,仍能准确地进行音频识别。
【专利说明】一种基于局部频谱图像描述子的鲁棒音频识别方法
【技术领域】
[0001]本发明属于基于内容的音乐检索【技术领域】,涉及一种基于局部频谱图像描述子的鲁棒音频识别方法,具体涉及一种基于计算机视觉技术的音频指纹提取和匹配方法。
【背景技术】
[0002]音频指纹是指能够代表一段音乐重要音频特征的紧致数字签名,其主要目的是建立一种有效的机制来比较两个音频数据感知听觉质量的相似程度,使人们可以仅仅通过一个没有任何文本标记的音频片段,便可以得到和该音频相关的元数据。这里不是直接比较通常很大的音频数据本身,而是比较其相应通常较小的数字指纹。典型的音频指纹方法一般遵循以下步骤:首先计算原始音频的指纹并将其与相应的元数据一同存入数据库中;当给定未知音频片段时,从该片段中提取指纹并将之与数据库中存储的指纹进行比对。如果在比对过程中发现匹配,则未知音频片段被确认,而相应的元数据(比如歌曲名称、词曲作者、歌词等)则被返回。
[0003]音频指纹主要有以下三点好处:首先,因为指纹本身数据量较小,因此可以节省很多的计算和内存要求;其次,指纹来源于音频数据中听觉最为重要的部分,往往保留了音频在听觉感知上的一些不变特性,因此能够在音频遭受攻击和破坏,但感知特性又变化较小时,依然可以进行有效比对;最后,保持指纹的数据库(指纹库)往往远小于媒体数据库,因此可以进行高效搜索。
[0004]目前音频指纹的研究已有很大发展,商业应用前景也非常明朗,大致有如下几类:第一,指纹用于音频的识别,如乐曲的识别和索引。当用户希望了解所听到的某未知乐曲片断的名字及其相关信息时,可以用手机收集5?10s的声音片断并向服务器传送,就会接收到关于该乐曲的完整信息反馈;第二,音频指纹可以用来对音频的内容进行控制和跟踪,例如通过音频指纹音乐电台可以确定自己是否拥有某个音频的播放权;版权所有者可以监视电台是否已支付版权费,并进行播放统计;广告商则可以监视电台是否按协议播放自己的广告;第三,音频识别可以用于增值服务。在音频指纹的帮助下,不同用户将得到自己感兴趣的元信息,例如,普通用户可能对一般信息如歌词、歌曲名称、词曲作者、专辑年份、演唱者等感兴趣;音乐家可能想知道乐器如何演奏以及节奏、旋律、和声;而录音师可能对录音过程感兴趣。元信息可以按照不同目的组织存储,使用指纹技术进行正确的检索来得到用户感兴趣的信息。
[0005]当前,与本发明相关的已提出的主要音频指纹方法有:
[0006]文献[I]是著名的Philips音频指纹系统,作者将一个音频信号分割成0.37秒长、98%重叠的帧,从每帧的33个非重叠频带部分提取出32比特的子指纹,由于相邻子指纹之间具有很大的相似性并且随时间缓慢变化,因此对信号处理失真非常鲁棒,并且可以识别在时域上缩放96%到104%的音频文件,但是该系统对变调失真的抵抗能力较差。
[0007]文献[2]对上述方法提出了两个直观的改进方案:(I)在数据库中增加原始音频文件的各种变调版本;(2)对每个查询片段进行各种变调处理后再到数据库里进行识别。前一种方法增加了对存储空间的消耗,后一种方法则增加了计算量。
[0008]文献[3]提出的音频指纹方法着重于抵抗音频的线性速度变化,其主要思路是提取频谱特征的局部最大值作为边界对音频信号进行非固定分段,该方法能够识别缩放因子介于859^115%之间的音频信号,然而这个系统对于诸如噪声和压缩等信号失真的抵抗性较差。
[0009]传统的音频识别方法多使用频谱特征,与此不同,文献[4]提出了一种新颖的方法,提取一组时间相关的特征用于捕获音乐信号的速度、节奏和小节特性,通过把速度估计值量化分入各个速度类中,提取一种称之为循环节拍谱(Cyclic Beat Spectrum, CBS)的有效特征,从而使查询片段在缩放因子为799^126%之间时仍能正确地识别出原始歌曲。
[0010]与本发明相关的参考资料有:
[0011][I]J.Haitsma and T.Kalker.A highly robust audio fingerprinting system.1n International Symposium on Music Information Retrieval, pp.107 - 115, 2002.[0012][2]S.Baluja and M.Covel1.Waveprint: efficient wavelet-based audiofingerprinting.Pattern Recognition, 41(11):3467 - 3480,2008.[0013][3]R.Bardeli and F.Kurth.Robust identification of time-scaled audi0.1nAES 25th International Conference on Metadata for Audio,2004.[0014][4]F.Kurthj T.Gehrmannj and M.Miiller.The cyclic beat spectrum: temporelated audio features for time—scale invariant audio identification.1nInternational Symposium on Music Information Retrieval, pp.35-40, 2006.
【发明内容】
[0015]本发明的目的 在于从全新思路设计一种新的强鲁棒性音频指纹,从而实现在各种信号失真以及时-频伸缩的情况下,仍能准确地进行音频识别。本发明提供了一种基于局部频谱图像描述子的鲁棒音频识别方法,具体涉及一种基于计算机视觉技术的音频指纹提取和匹配方法。
[0016]本发明不同于现有技术的单纯基于频谱特征或节奏特征的方法,而是将一维音频信号转换为二维的图像信号,基于计算机视觉技术提取强鲁棒性的局部图像特征作为音频指纹,同时将时间缩放攻击和变调等失真行为视作对相应图像的伸缩和平移处理。
[0017]具体而言,本发明提供了一种基于计算机视觉技术的音频指纹方法,其特征在于,将一维音频信号转化为二维听觉图像,提取图像特征作为音频指纹,使其对时间缩放和变调等主要的音频失真类型具有鲁棒性;其包括指纹提取步骤(1),(2)和指纹匹配步骤(3)两部分:
[0018]步骤1,使用短时傅里叶变换(STFT)将I维音频信号转换为2维时-频表示;
[0019]鉴于时间缩放攻击(TimeScale Modification, TSM)和变调(Pitch Shifting)是音频失真中最难以抵抗的两种类型,两者对音频信号的作用可以等价视为对该音频对应的对数语谱图进行伸缩和平移处理(如图1所示),因此,对语谱图伸缩和平移具有良好鲁棒性的图像特征,也是对原音频信号的TSM和变调失真具有良好鲁棒性的音频特征;
[0020]本发明中,
[0021](I)使用长度为185.76ms、重叠率为75%的汉宁窗对音频信号进行时域上的重叠分段;本发明的实施例中,注意窗的时长和重叠率的选取:由于长时窗比短时窗在反映时域信息时更有效,故而选用时长大于50ms的长时窗;而由于原长信号和用于检索的短信号之间的不同步,故而需要一定的重叠性;
[0022](2)利用短时傅里叶变换得到时-频平面语谱图,再依照公式(I)将其量化成对数空间上的 64 个子频带
【权利要求】
1.一种基于局部频谱图像描述子的鲁棒音频识别方法,其特征在于,将一维音频信号转化为二维听觉图像,提取图像特征作为音频指纹,使其对时间缩放和变调主要的音频失真类型具有鲁棒性;其包括指纹提取步骤(1),(2)和指纹匹配步骤(3): 步骤1,使用短时傅里叶变换(STFT)将I维音频信号转换为2维时-频表示; 其中, (1)使用长度为185.76ms、重叠率为75%的汉宁窗对音频信号进行时域上的重叠分段; (2)利用短时傅里叶变换得到时-频平面语谱图,再依照公式(I)将其量化成对数空间上的64个子频带,
2.按权利要求1所述的方法,其特征在于,所述的基于LSH的最近邻检索的中两个阶段为,索引阶段和检索阶段,其中,在索引阶段,数据库中的所有数据点被映射到L个哈希表中,每一个哈希表对应一个随机选取的哈希函数;在检索阶段,给定一个检索数据点q,所述的方法对L个哈希表进行迭代;对每一个哈希表,所述方法遍历和q处于同一桶中的所有数据;最 终返回的最近邻结果是L个哈希表中和q距离最近的数据点。
【文档编号】G06F17/30GK103729368SQ201210389035
【公开日】2014年4月16日 申请日期:2012年10月13日 优先权日:2012年10月13日
【发明者】李伟, 朱碧磊, 董旭炯 申请人:复旦大学