用于保持多通道音频中的语音可听度的方法和设备的利记博彩app

文档序号：2823982阅读：284来源：国知局

专利名称：用于保持多通道音频中的语音可听度的方法和设备的利记博彩app
技术领域：
本发明一般涉及音频信号处理，尤其涉及提高环绕娱乐音频中的会话和叙述的清晰度。
背景技术：
除非在此另外指出，本部分中描述的手段对于本申请中的权利要求来说不是现有技术，并且不认为由于包含在该部分中而成为现有技术。带有多个同步音频通道(环绕声)的现代娱乐音频向听众提供具有极大娱乐价值的身临其境的逼真的声音环境。在这种环境中，诸如会话、音乐的许多声音成分以及效果同时存在并争夺收听者的注意。对于一些听众，尤其是那些听觉能力减弱或认知处理较慢的人，在节目的存在较大声的竞争性声音成分的部分中难以理解会话和叙述。如果在那些段落中竞争性声音的水平降低，则将对这些收听者有益。音乐和效果能够盖过会话的认识不是新的认识，已经提出了用于改善这种情况的若干种方法。但是，如接下来所概述的，所提出的方法要么与当前广播实践不兼容，在整个娱乐体验上施加不必要的高额费用，要么兼而有之。产生针对电影和电视的环绕音频通常遵守的规则是将大部分会话和叙述仅放入一个通道(中央通道，也称为语音通道)。音乐、环境声以及声音效果通常被混合在语音通道和所有其余的通道中(例如，左[L]、右[R]、左环绕[Is]以及右环绕[rs]，也称为非语音通道)。结果，语音通道承载包含在音频节目中的大部分语音和相当大量的非语音音频，而非语音通道主要承载非语音音频，但也可承载少量的语音。一种帮助感知这些常规混合中的会话和叙述的简单手段是相对于语音通道的水平固定地将全部非语音通道的水平降低例如6dB。该手段简单而有效，并且当前在使用(例如，环绕解码器中的SRS[声音恢复系统]会话清晰度或经修改的缩混等式)。但是，其具有至少一种缺点固定的衰减非语音通道可能将对语音接收没有干扰的安静的环境声的水平降低到不再能被听到的程度。通过衰减非干扰性环境声，改变了节目的美感平衡，而对于语音的理解没有任何附带的好处。Vaudrey和Saunders在一系列专利(美国专利No. 7，266，501、美国专利 No. 6，772，127、美国专利No. 6，912，501以及美国专利No. 6，650，755)中描述了可替选方案。如所理解的，他们的手段包括修改内容制作和分配。根据这种设置，消费者接收两路分离的音频信号。这些信号中的第一信号包括“主要内容”音频。在许多情况下，该信号以语音为主，但是如果内容制作者希望的话，也可以包含其它信号类型。第二信号包括“次要内容”音频，该音频由其余全部的声音成分构成。用户通过手动调节每路信号的水平或通过自动保持用户选择的功率比来控制这两路信号的相对水平。虽然这种设置能够限制对非干扰性环境声的不必要的衰减，但是由于其与已建立的制作和分配方法不兼容而阻碍了其广泛应用。Bennett在美国申请公布No. 20070027682中提出了用于管理语音和非语音音频的相对水平的另一种方法实例。
背景技术：
的所有示例均具有以下限制未提供用于将会话增强对于内容制作者希望的收听体验的影响最小化的任何装置。因此，本发明的目的在于提供一种装置，其限制常规地混合的多通道娱乐节目中非语音音频通道的水平，使得语音保持易于理解，同时也保持非语音音频分量的可听度。因此，需要用于保持语音可听度的改进的方式。本发明通过提供改进多通道音频信号中的语音可听度的装置和方法来解决这些问题和其它问题。

发明内容
本发明的实施例改善语音的可听度。在一个实施例中，本发明包括一种提高多通道音频信号中的语音的可听度的方法。该方法包括对多通道音频信号的第一特征和第二特征进行比较以产生衰减因子。第一特征对应于多通道音频信号的包含语音和非语音音频的第一通道，第二特征对应于多通道音频信号的主要包含非语音音频的第二通道。该方法还包括根据语音似然值调节衰减因子以产生经调节的衰减因子。该方法还包括使用经调节的衰减因子对第二通道进行衰减。本发明的一个实施例是一种用于改进多通道音频信号中的语音的可听度的方法，包括对多通道音频信号的第一特征和第二特征进行比较以产生衰减因子，其中第一特征对应于多通道音频信号的包含语音音频和非语音音频的第一通道，其中第一特征对应于和第一通道中的信号强度有关的第一测量，其中第二特征对应于多通道音频信号的主要包含非语音音频的第二通道，并且其中第二特征对应于和第二通道中的信号强度有关的第二测量，其中对第一特征和第二特征进行比较包括确定第一测量和第二测量之间的差异，以及基于该差异和最小差异来计算衰减因子；根据语音似然值调节衰减因子以产生经调节的衰减因子；以及使用经调节的衰减因子对第二通道进行衰减。在根据本发明的一个实施例的用于改进多通道音频信号中的语音的可听度的方法中，多通道音频信号包括第三通道，该第三通道主要包含非语音音频，该方法还包括对第一特征和第三特征进行比较以产生附加衰减因子，其中第三特征对应于第三通道；根据语音似然值来调节附加衰减因子以产生经调节的附加衰减因子；以及使用经调节的衰减因子对第三通道进行衰减。在根据本发明的一个实施例的用于改进多通道音频信号中的语音的可听度的方法中，第一测量是第一通道中的信号的第一功率水平，第二测量是第二通道中的信号的第二功率水平，并且该差异是第一功率水平和第二功率水平之间的差。在根据本发明的一个实施例的用于改进多通道音频信号中的语音的可听度的方法中，第一测量是第一通道中的信号的第一功率，第二测量是第二通道中的信号的第二功率，并且该差异是第一功率和第二功率之间的比率。在根据本发明的一个实施例的用于改进多通道音频信号中的语音的可听度的方法中，第一特征对应于第一功率谱，并且第二特征对应于第二功率谱，其中第二功率谱具有多个频带，对第一特征和第二特征进行比较包括基于第一功率谱和第二功率谱执行可懂度预测以产生预测的可懂度；基于第二功率谱执行响度计算以产生计算的响度；对分别应用于第二功率谱的每个频带的多个增益进行调节，直到预测的可懂度满足可懂度标准并且计算的响度满足响度标准为止；以及一旦预测的可懂度满足可懂度标准并且计算的响度满足响度标准，使用经调节的多个增益作为分别用于每个频带的衰减因子。本发明的另一个实施例是一种设备，包括用于改进多通道音频信号中的语音的可听度的电路，该设备包括比较电路，其被配置为对多通道音频信号的第一特征和第二特征进行比较以产生衰减因子，其中第一特征对应于多通道音频信号的包含语音音频和非语音音频的第一通道，其中第一特征对应于和第一通道中的信号强度有关的第一测量，其中第二特征对应于多通道音频信号的主要包含非语音音频的第二通道，并且其中第二特征对应于和第二通道中的信号强度有关的第二测量，其中比较电路被配置为确定第一测量和第二测量之间的差异，以及基于该差异和最小差异来计算衰减因子；乘法器，其被配置为根据语音似然值调节衰减因子以产生经调节的衰减因子；以及放大器，其被配置为使用经调节的衰减因子对第二通道进行衰减。本发明的再一个实施例是包含在有形记录介质中用于改进多通道音频信号中的语音的可听度的计算机程序，该计算机程序控制装置执行处理，该处理包括对多通道音频信号的第一特征和第二特征进行比较以产生衰减因子，其中第一特征对应于多通道音频信号的包含语音音频和非语音音频的第一通道，其中第一特征对应于和第一通道中的信号强度有关的第一测量，其中第二特征对应于多通道音频信号的主要包含非语音音频的第二通道，并且其中第二特征对应于和第二通道中的信号强度有关的第二测量，其中对第一特征和第二特征进行比较包括确定第一测量和第二测量之间的差异，以及基于该差异和最小差异来计算衰减因子；根据语音似然值调节衰减因子以产生经调节的衰减因子；以及使用经调节的衰减因子对第二通道进行衰减。本发明的又一个实施例是一种用于改进多通道音频信号中的语音可听度的设备，包括用于对多通道音频信号的第一特征和第二特征进行比较以产生衰减因子的装置，其中第一特征对应于多通道音频信号的包含语音音频和非语音音频的第一通道，其中第一特征对应于和第一通道中的信号强度有关的第一测量，其中第二特征对应于多通道音频信号的主要包含非语音音频的第二通道，并且其中第二特征对应于和第二通道中的信号强度有关的第二测量，其中该装置包括用于确定第一测量和第二测量之间的差异的装置，以及用于基于该差异和最小差异来计算衰减因子的装置；用于根据语音似然值调节衰减因子以产生经调节的衰减因子的装置；以及用于使用经调节的衰减因子对第二通道进行衰减的装置。本发明的第一方面基于以下观察典型娱乐节目的语音通道在大部分的节目期间承载非语音信号。因此，根据本发明的该第一方面，可通过以下方式来控制非语音音频对语音音频的遮蔽(a)确定将非语音通道中的信号功率和语音通道中的信号功率的比率限制为不超过预定阈值所需要的非语音通道中的信号的衰减；(b)通过与语音通道中的信号是语音的似然性单调相关的因子来对衰减进行缩放；以及(C)应用经缩放的衰减。本发明的第二方面基于以下观察语音信号的功率和遮蔽信号的功率间的比率为语音可懂度的较差的预测因子。因此，根据本发明的该第二方面，通过利用基于心理声学的可懂度预测模型来预测在存在非语音信号的情况下语音信号的可懂度来计算保持预定的可懂度水平所需要的非语音通道中的信号的衰减。

本发明的第三方面基于以下观察如果允许衰减随不同频率而变化，则(a)能够利用多种衰减模式实现给定的可懂度水平；以及(b)不同的衰减模式能够产生非语音音频的不同水平的响度或显著度。因此，根据本发明的该第三方面，通过以下方式来控制非语音音频对语音音频的遮蔽找到衰减模式，其在达到预测的语音可懂度的预定水平的约束下使非语音音频的响度或一些其它显著度测量最大化。本发明的实施例可以作为方法或过程执行。这些方法可以通过作为硬件或软件或其结合的电子电路来实现。用于实现该过程的电路可以是专用电路(仅执行特定任务)或通用电路(其被编程以执行一个或更多个特定任务)。以下详细描述和附图提供对本发明的特性和优点的更好地理解。

图1图解了根据本发明的一个实施例的信号处理器；图2图解了根据本发明的另一个实施例的信号处理器；图3图解了根据本发明的再一个实施例的信号处理器；图4A-4B是图解图1-3的实施例的其它变型的框图。
具体实施例方式这里描述用于保持语音可听度的技术。在以下描述中，为了说明的目的，阐述了多个示例和具体细节以便于提供对本发明的透彻的理解。但是，对于本领域技术人员来说明显的是，由权利要求限定的本发明可以单独或与以下描述的其它特征结合地包括这些实例中的一些或全部特征，并且还可以包括这里所描述的特征和概念的变型和等同物。以下对各种方法和过程进行描述。以一定顺序对其进行描述主要是为了便于陈述。需要理解的是，如根据各种实现方式所希望的，可以按其它顺序或者并行执行具体步骤。当具体步骤需要位于另一步骤之前或之后时，在根据上下文来看不明显的情况下将明确指出。图1图解了本发明的第一方面的原理。现在参照图1，接收到由语音通道(101)和两个非语音通道(102和103)构成的多通道信号。通过一组功率估计器(104、105和106) 来测量这些通道中的每个通道的信号功率，并以对数标度[dB]来表示。这些功率估计器可以包含平滑机构，如漏积分器，使得所测量的功率水平反映在句子或整个段落期间的平均功率水平。(通过加法器107和108)从每个非语音通道的功率水平中减去语音通道中的信号的功率水平，以测量两个信号类型之间的功率水平差。比较电路109针对每个非语音通道确定该非语音通道需要被衰减的dB数，以使其功率水平保持在语音通道的信号的功率水平之下至少edB(符号“ θ ”表示变量，其还可以被称为书写符号“theta”)。根据一个实施例，其一种实现方式是将阈值θ (由电路110存储)与功率水平差相加(该中间结果被称为余量)并将结果限制为等于或小于零(通过限制器111和112)。结果是以dB表示的增益(或负衰减)，该增益需要被施加于非语音通道以保持其功率水平在语音通道的功率水平之下9dB。合适的θ值是15dB。在其它实施例中可以按需调节θ的值。由于以对数标度(dB)表示的测量和以线性标度表示的相同测量之间存在唯一的关系，所以可以建立与图1等效的电路，其中功率、增益和阈值均以线性标度表示。在这种实现方式中，所有水平差均由线性测量的比率来代替。可替选的实现方式可以利用与信号强度相关的测量(诸如信号的绝对值)来代替功率测量。

本发明的第一方面的一个显著特征是对增益进行缩放，通过与语音通道中的信号实际上是语音的似然性单调相关的值如此导出该益进。仍然参照图1，接收控制信号 (113)，并将该控制信号(113)与增益相乘(通过乘法器114和115)。然后，经缩放的增益被应用到相应的非语音通道(通过放大器116和117)以产生经修改的信号L’和R’ (118和 119)。控制信号(113)通常是语音通道中的信号是语音的似然性的自动得出的测量。可以使用自动确定信号是语音信号的似然性的各种方法。根据一个实施例，语音似然性处理器 130根据C通道101中的信息产生语音似然值ρ (113)。Robinson和Vinton在“Automated Speech/Other Discriminationfor Loudness Monitoring”(音频工程协会，会议 118 的预印本编号6437，2005年5月)中描述了这种机制的一个示例。可替选地，控制信号(113) 例如可以通过内容创建者来手动建立并与音频信号一起传送给最终用户。本领域工作人员将容易想到如何将该设置扩展到任意数量的输入通道。图2图解了本发明的第二方面的原理。现在参照图2，接收到由语音通道(101)和两个非语音通道(102和103)构成的多通道信号。通过一组功率估计器(201、202和203) 来测量这些通道中的每个通道的信号功率。与其在图1中的对应部件不同的是，这些功率估计器测量信号功率在频率上的分布，产生功率谱而不是单独的数。该功率谱的谱分辨率理想地匹配可懂度预测模型(205和206，还未讨论)的谱分辨率。该功率谱被馈送入比较电路204。该块的目的是确定要应用到每个非语音通道以保证该非语音通道中的信号不将语音通道中的信号的可懂度减小成低于预定的标准的衰减。这种功能性通过以下方式来实现采用根据语音信号201和非语音信号(202和203)的功率谱来预测语音可懂度的可懂度预测电路(205和206)。可懂度预测电路205和206可以根据设计选择和权衡来实现合适的可懂度预测模型。示例是如ANSI S3. 5-1997 ("Methods for Calculation of the Speech Intelligibility Index”)中指定的语音可懂度指数以及Muesch和Buus的语音识别灵敏度模型(“Usingstatistical decision theory to predict speech intelligibility. I. Modelstructure，，Journal of the Acoustical Society of America, 2001, Vol 109，p2896_2909)。清楚的是，当语音通道中的信号不是语音时，可懂度预测模型的输出没有意义。尽管如此，在下文中，可懂度预测模型的输出被称为所预测的语音可懂度。通过利用与信号是语音的似然性相关的参数(113，还未讨论)来对从比较电路204输出的增益值进行缩放而在随后的处理中说明察觉的错误。可懂度预测模型的共同之处在于它们预测增强的或不变的语音可懂度作为降低非语音信号水平的结果。继续图2的处理流程，比较电路207和208将所预测的可懂度与标准值进行比较。如果非语音信号的水平低以使得所预测的可懂度超过标准，则被初始化为OdB的增益参数从电路209和210取回并被提供给电路211和212作为比较电路204的输出。如果不满足该标准，则增益参数被降低固定量并且重复可懂度预测。用于降低增益的一个合适的步长为ldB。继续如刚刚所述的迭代，直到预测的可懂度满足或超过标准值为止。语音通道中的信号当然可以是这样的即使在没有非语音通道中的信号的情况下仍达不到标准可懂度。这种情况的示例是很低水平的语音信号或具有严格限制的带宽的语音信号。如果是这样，可以达到的一点是，对应用于非语音通道的增益的任何进一步的减小不影响预测的语音可懂度并且从不满足该标准。在这种条件下，由(205，206)、(207,208)和 (209,210)形成的循环无限地继续，另外的逻辑(未示出)可以用于中断该循环。这种逻辑的一种特别简单的示例是对迭代的数量进行计数，并且当超过预定的迭代数时退出循环。继续图2的处理流程，控制信号ρ (113)被接收，并与增益相乘(通过乘法器114 和115)。控制信号(113)通常是语音通道中的信号是语音的似然性的自动得出的测量。用于自动确定信号是语音信号的似然性的方法本身是已知的，并且在与图1相关的上下文中讨论了该方法(见语音似然性处理器130)。然后，经缩放的增益被应用到其相应的非语音通道(通过放大器116和117)以产生经修改的信号R’和L’(118和119)。图3图解了本发明的第三方面的原理。现在参照图3，接收到由语音通道(101) 和两个非语音通道(102和103)构成的多通道信号。这三路信号中的每路被划分成其谱分量(通过滤波器组301、302和303)。可以利用时域N通道滤波器组来实现频谱分析。根据一个实施例，滤波器组将频率范围分割成1/3倍频带或类似于假设在人的内耳中产生的滤波。使用粗线来图解现在信号由N个子信号构成的情况。可以认为图3的过程是侧枝过程。沿着信号路径，利用一组N个增益值中的一个成员来对形成非语音通道的N个子信号中的每个进行缩放(通过放大器116和117)。稍后将对这些增益值的得出进行描述。接下来，经缩放的子信号被重新结合成单个音频信号。这可以通过简单求和(通过加法电路 313和314)来完成。可替选地，可以使用与分解滤波器组匹配的合成滤波器组。该过程产生经修改的非语音信号R’和L’ (118和119)。现在对图3的过程中的侧枝路径进行描述，每个滤波器组的输出可用于相应的N 个功率估计器(304、305和306)的组。所产生的功率谱作为优化电路(307和308)的输入，优化电路(307和308)具有N维增益向量作为输出。该优化采用可懂度预测电路(309 和310)和响度计算电路(311和312)来寻找增益向量，该增益向量使非语音通道的响度最大化，同时保持预定水平的所预测的语音信号可懂度。已经结合图2对用于预测可懂度的合适模型进行了讨论。响度计算电路311和312可以根据设计选择和权衡来实现合适的响度预测模型。合适的模型的示例是美国国家标准ANSI S3. 4-2007 "Procedure for the Computation of Loudness ofSteady Sounds，，禾口德国标准 DIN 45631 "Berechnung des Lautstarkepegels und der Lautheit aus dem Gerauschspektrum，，。依赖于可用的计算资源以及所施加的约束，优化电路(307，308)的形式和复杂性可以有很大变化。根据一个实施例，使用N个自由参数的迭代、多维约束优化。每个参数代表应用于非语音通道的频带之一的增益。诸如以下的N维搜索空间中的最陡梯度法的标准技术可以用于寻找最大值。在另一个实施例中，一种在计算上要求较低的手段将增益-频率函数约束为一小组可能的增益-频率函数(如一组不同的谱梯度或货架(Shelf)滤波器)的成员。利用这种额外约束，优化问题可以简化为少量的一维优化。在又一个实施例中，在很小的一组可能的增益函数中进行穷举搜索。在需要恒定计算负荷和搜索速度的实时应用中，尤其可能需要后一种手段。本领域技术人员容易认识到可以施加于根据本发明另外的实施例的优化的另外的约束。一个示例是将经修改的非语音通道的响度限制成不大于修改之前的响度。另一个示例是对相邻频带之间的增益差施加限制，以便限制重建的滤波器组(313，314)的时间混叠(temporal aliasing)的潜在可能或者降低有害音品修改的可能性。希望的约束取决于滤波器组的技术实现以及可懂度改进和音品修改之间所选择的权衡。为了说明的清楚性，这些约束在图3中被略去。继续图3的流程，控制信号p(113)被接收，并与增益函数相乘(通过乘法器114和 115)。控制信号(113)通常是语音通道中的信号是语音的似然性的自动得出的测量。已经结合图1对用于自动计算信号是语音的似然性的合适的方法(见语音似然性处理器130)。然后，经缩放的增益函数被应用到其相应的非语音通道(通过放大器116和117)，如先前所描述的。图4A和图4B是图解图1_3中所示的方面的变型的框图。另外，本领域技术人员将认识到用于结合图1到图3中描述的本发明的单元的若干方式。图4A示出了图1的设置还可以应用于L、C和R的一个或更多个子频带。具体来说，信号L、C和R中的每个可以通过滤波器组(441、442和443)，产生以η个子频带为一组的三个组IL1, L2, ... , LJ、IC1, C2, ... , CJ和{R1; R2, ... , Rj。匹配的子频带被传递到图1所示的电路125的η个实例，并且经处理的子信号被重新结合(通过加法电路451和 452)。可以针对每个子频带选择独立的阈值θη。一种较好的选择是这样的设置，θη与相应频域中承载的语音信号的平均数量成比例；即，频谱的两端处的频带被赋予比对应于主要语音频率的频带更低的阈值。本发明的实现方式提供了计算复杂性和性能之间的很好的权衡。图4Β示出了另一种变型。例如，为了减小计算负担，具有五个通道(C，L，R，Is和 rs)的典型的环绕声信号可以通过根据图3所示的电路325处理L和R信号以及根据图1 所示的电路125处理Is和rs信号(其通常没有L和R信号强)而被增强。在以上描述中，使用了术语“语音”(或者语音音频或语音通道或语音信号)和“非语音”(或者非语音音频或非语音通道或非语音信号)。技术人员将认识到，这些术语更多地用于彼此区分，而较少用于通道内容的绝对描述。例如，在电影的餐厅场景中，语音通道可以主要包含一个桌子处的会话，非语音通道可以包含其它桌子处的会话(因此，当外行使用该术语时均包含“语音”)。然而本发明的某些实施例意欲衰减其它桌子处的会话。实现方式本发明可以通过硬件或软件或者硬件和软件的结合(例如，可编程逻辑阵列)来实现。除非另外指明，所包括的作为本发明的部分的算法并不是固有地与任何具体的计算机或其它设备相关。具体来说，可以与根据这里的教导而编写的程序一起使用各种通用机器，或者，可能更加方便的是，构建更加专用的设备(例如，集成电路)来执行所需的方法步骤。因此，本发明可以在一个或多个在一个或多个可编程计算机系统上执行的计算机程序中实现，其中，每个可编程计算机系统包括至少一个处理器、至少一个数据存储系统(包括易失性和非易失性存储器和/或存储元件)、至少一个输入装置或端口、以及至少一个输出装置或端口。程序代码被应用于输入数据以执行这里所描述的功能并产生输出信息。输出信息以已知的方式被应用于一个或更多个输出器件。每个这种程序可以通过任何希望的计算机语言(包括机器语言、汇编语言、或高级过程语言、逻辑语言、或面向对象的编程语言)来实现，以便和计算机系统进行通信。在任何情况下，语言可以是编译后的语言或解释语言。每个这种计算机程序优选地存储在或被下载到通用或专用可编程计算机可读的存储介质或装置(例如，固态存储器或介质，或者磁介质或光介质)上，用于在存储介质或装置被计算机系统读取以执行这里描述的过程时对计算机进行配置和操作。本发明的系统还可以被认为是实现为利用计算机程序来配置的计算机可读的存储介质，其中，如此配置的存储介质使得计算机系统以特定的预定方式来操作，以便执行这里所描述的功能。以上描述示出了本发明的多种实施例以及如何实现本发明的各方面的示例。以上示例和实施例不应被认为是仅有的实施例，其被提出用以说明由以下权利要求限定的本发明的灵活性和优点。基于以上公开和以下权利要求，其它设置、实施例、实现方式和等同物对于本领域技术人员来说是明显的，并且可以被采用而不脱离由权利要求限定的本发明的精神和范围。
权利要求
1.一种用于改进多通道音频信号中的语音的可听度的方法，包括对所述多通道音频信号的第一特征和第二特征进行比较以产生衰减因子，其中所述第一特征对应于所述多通道音频信号的包含语音音频和非语音音频的第一通道，其中所述第一特征对应于所述第一通道中的信号的第一功率谱，其中所述第二特征对应于所述多通道音频信号的主要包含非语音音频的第二通道，并且其中所述第二特征对应于所述第二通道中的信号的第二功率谱，其中对所述第一特征和所述第二特征进行比较包括基于所述第一功率谱和所述第二功率谱执行可懂度预测以产生预测的可懂度；对应用于所述第二功率谱的增益进行调节，直到所述预测的可懂度满足标准为止；以及一旦所述预测的可懂度满足所述标准，使用经调节的所述增益作为所述衰减因子；根据语音似然值调节所述衰减因子以产生经调节的衰减因子；以及使用所述经调节的衰减因子对所述第二通道进行衰减。
2.根据权利要求1所述的方法，还包括处理所述多通道音频信号以产生所述第一特征和所述第二特征。
3.根据权利要求1所述的方法，还包括处理所述第一通道以产生所述语音似然值。
4.根据权利要求1所述的方法，其中所述第二通道是多个第二通道之一，其中所述第二特征是多个第二特征之一，其中所述衰减因子是多个衰减因子之一，并且其中所述经调节的衰减因子是多个经调节的衰减因子之一，所述方法还包括对所述第一特征和所述多个第二特征进行比较以产生所述多个衰减因子；根据所述语音似然值来调节所述多个衰减因子以产生所述多个经调节的衰减因子；以及使用所述多个经调节的衰减因子对所述多个第二通道进行衰减。
5.根据权利要求1所述的方法，其中所述多通道音频信号包括第三通道，所述第三通道主要包含非语音音频，所述方法还包括对所述第一特征和第三特征进行比较以产生附加衰减因子，其中所述第三特征对应于所述第三通道；根据所述语音似然值来调节所述附加衰减因子以产生经调节的附加衰减因子；以及使用所述经调节的衰减因子对所述第三通道进行衰减。
6.根据权利要求1所述的方法，其中所述第二功率谱具有多个频带，其中对所述第一特征和所述第二特征进行比较还包括基于所述第二功率谱执行响度计算以产生计算的响度；其中所述对增益进行调节的步骤还包括对分别应用于所述第二功率谱的每个频带的多个增益进行调节，直到所述预测的可懂度满足可懂度标准并且所述计算的响度满足响度标准为止；并且其中所述使用所述增益的步骤包括一旦所述预测的可懂度满足所述可懂度标准并且所述计算的响度满足所述响度标准，使用经调节的所述多个增益作为分别用于每个频带的所述衰减因子。
7.一种设备，包括用于改进多通道音频信号中的语音的可听度的电路，所述设备包括比较电路，其被配置为对所述多通道音频信号的第一特征和第二特征进行比较以产生衰减因子，其中所述第一特征对应于所述多通道音频信号的包含语音音频和非语音音频的第一通道，其中所述第一特征对应于所述第一通道中的信号的第一功率谱，其中所述第二特征对应于所述多通道音频信号的主要包含非语音音频的第二通道，并且其中所述第二特征对应于所述第二通道中的信号的第二功率谱，其中所述比较电路包括可懂度预测电路，其被配置为基于所述第一功率谱和所述第二功率谱执行可懂度预测以产生预测的可懂度；增益调节电路，其被配置为对应用于所述第二功率谱的增益进行调节，直到所述预测的可懂度满足标准为止；以及增益选择电路，其被配置为一旦所述预测的可懂度满足所述标准，选择经调节的所述增益作为所述衰减因子；乘法器，其被配置为根据语音似然值调节所述衰减因子以产生经调节的衰减因子；以及放大器，其被配置为使用所述经调节的衰减因子对所述第二通道进行衰减。
8.根据权利要求7所述的设备，其中所述第二功率谱具有多个频带，其中所述比较电路还包括响度计算电路，其被配置为基于所述第二功率谱执行响度计算以产生计算的响度；以及优化电路，其被配置为对分别应用于所述第二功率谱的每个频带的多个增益进行调节，直到所述预测的可懂度满足可懂度标准并且所述计算的响度满足响度标准为止，以及一旦所述预测的可懂度满足所述可懂度标准并且所述计算的响度满足所述响度标准，使用经调节的所述多个增益作为分别用于每个频带的所述衰减因子。
9.根据权利要求7所述的设备，还包括第一功率谱密度计算器，其被配置为计算所述第一通道的所述第一功率谱；以及第二功率谱密度计算器，其被配置为计算所述第二通道的所述第二功率谱。
10.根据权利要求7所述的设备，还包括第一滤波器组，其被配置为将所述第一通道划分成第一组多个谱分量；第一功率估计器组，其被配置为根据所述第一组多个谱分量计算所述第一功率谱；第二滤波器组，其被配置为将所述第二通道划分成第二组多个谱分量；以及第二功率估计器组，其被配置为根据所述第二组多个谱分量计算所述第二功率谱。
11.根据权利要求7所述的设备，还包括语音确定处理器，其被配置为对所述第一通道进行处理以产生所述语音似然值。
12.包含在有形记录介质中用于改进多通道音频信号中的语音的可听度的计算机程序，所述计算机程序控制装置执行处理，所述处理包括对所述多通道音频信号的第一特征和第二特征进行比较以产生衰减因子，其中所述第一特征对应于所述多通道音频信号的包含语音音频和非语音音频的第一通道，其中所述第一特征对应于所述第一通道中的信号的第一功率谱，其中所述第二特征对应于所述多通道音频信号的主要包含非语音音频的第二通道，并且其中所述第二特征对应于所述第二通道中的信号的第二功率谱，其中对所述第一特征和所述第二特征进行比较包括基于所述第一功率谱和所述第二功率谱执行可懂度预测以产生预测的可懂度；对应用于所述第二功率谱的增益进行调节，直到所述预测的可懂度满足标准为止；以及一旦所述预测的可懂度满足所述标准，使用经调节的所述增益作为所述衰减因子；根据语音似然值调节衰减因子以产生经调节的衰减因子；以及使用所述经调节的衰减因子对所述第二通道进行衰减。
13.一种用于改进多通道音频信号中的语音可听度的设备，包括用于对所述多通道音频信号的第一特征和第二特征进行比较以产生衰减因子的装置，其中所述第一特征对应于所述多通道音频信号的包含语音音频和非语音音频的第一通道，其中所述第一特征对应于所述第一通道中的信号的第一功率谱，其中所述第二特征对应于所述多通道音频信号的主要包含非语音音频的第二通道，并且其中所述第二特征对应于所述第二通道中的信号的第二功率谱，其中所述用于比较的装置包括用于基于所述第一功率谱和所述第二功率谱执行可懂度预测以产生预测的可懂度的装置；用于对应用于所述第二功率谱的增益进行调节直到所述预测的可懂度满足标准的装置；以及用于一旦所述预测的可懂度满足所述标准便使用经调节的所述增益作为所述衰减因子的装置；用于根据语音似然值调节所述衰减因子以产生经调节的衰减因子的装置；以及用于使用所述经调节的衰减因子对所述第二通道进行衰减的装置。
14.根据权利要求13所述的设备，其中所述第二功率谱具有多个频带，其中所述用于比较的装置还包括用于基于所述第二功率谱执行响度计算以产生计算的响度的装置；其中，所述用于调节增益的装置对应于用于对分别应用于所述第二功率谱的每个频带的多个增益进行调节直到所述预测的可懂度满足可懂度标准并且所述计算的响度满足响度标准的装置；并且所述用于使用所述增益的装置对应于用于一旦所述预测的可懂度满足所述可懂度标准并且所述计算的响度满足所述响度标准便使用经调节的所述多个增益作为分别用于每个频带的所述衰减因子的装置。
全文摘要
在一个实施例中，本发明包括一种用于改进多通道音频信号中的语音的可听度的方法。该方法包括对多通道音频信号的第一特征和第二特征进行比较以产生衰减因子。第一特征对应于多通道音频信号的包含语音音频和非语音音频的第一通道，第二特征对应于多通道音频信号的主要包含非语音音频的第二通道。该方法还包括根据语音似然值调节衰减因子以产生经调节的衰减因子。该方法还包括使用经调节的衰减因子对第二通道进行衰减。
文档编号G10L21/02GK102137326SQ20101058779
公开日2011年7月27日申请日期2009年4月17日优先权日2008年4月18日
发明者汉内斯·米施申请人:杜比实验室特许公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：汉内斯·米施
技术所有人：杜比实验室特许公司
我是此专利的发明人

上一篇：语音识别故事墙的利记博彩app
上一篇：在语音识别后处理过程中使用音调来改进识别精度的利记博彩app