专利名称:用于语音通信的带宽扩展的方法及系统的利记博彩app
技术领域:
本发明通常涉及扩展语音带宽,并且更具体地,涉及将窄带语音 信号扩展为宽带语音信号。
背景技术:
近年来,便携式电子设备的使用迅猛增长。特别是蜂窝电话已经 相当受公众欢迎。蜂窝电话的主要用途是用于语音通信。蜂窝电话通 过压縮语音并通过通信网络发送语音信号来对语音信号进行操作。压 缩降低了表示语音信号及语音带宽所需的数据量。例如,蜂窝电话上
的语音带宽通常是限制在300Hz到3.4kHz之间的频带,然而,自然说话 的语音主要存在于20Hz到10KHz的带宽内。语音频带限制过程是涉及 在蜂窝通信系统中有效发射及接收数字信号中的必要步骤。
幸运的是,即使压縮语音不包括原始数据的所有频率分量,压缩 语音也充分地保留了原始的语音特性及可懂度。特别地,语音压缩移 除了语音的低频率区域(即,300Hz以下)以及语音的高频率区域(即 3.4KHz以上到10KHz)。尽管语音压縮产生了用于无线通信令人满意 的语音信号,但是已经测试并应用了若干语音处理技术,试图恢复损 失的低频及高频语音分量,以生成较高质量信号。然而,到目前为止, 还没有开发出有效地重建被移除频率分量的技术。此外,现有的模拟 电话不实现任何压缩。因此,它们仍然遭受由几十年之久的传输标准 引起的相似的带宽限制。
发明内容
本发明涉及一种用于语音通信带宽扩展的方法。该方法可以包括 如下步骤接收未知的语音信号;识别接收到的未知语音信号的语音
带宽;以及考虑接收到的语音信号的谱含量,来建立支持区域。该方 法还可以包括以下步骤从多个映射数据库中选择映射数据库组合。 每个映射数据库可以与用于扩展语音带宽的预定带宽扩展范围相关 联。
作为实例,识别语音带宽可以包括执行谱分析,以根据信号的 谱能量来确定未知语音信号的语音信号带宽。此外,建立支持区域可 以包括如下步骤将请求发送到隐含对象(underlying object),以返 回到该对象能够支持的采样频率列表;根据返回的采样频率,识别谱 界限;以及确定谱界限内的谱带,用于将语音带宽扩展到位于语音带 宽之外的区域。建立支持区域可以进一步包括以下步骤以对应于至 少一个返回的采样频率的采样频率,重新釆样语音信号。
在一个设置中,选择映射数据库组合的步骤可以是顺序的操作。 该选择步骤可以进一步包括应用映射数据库的一系列组合,以共同 地将语音带宽扩展到对应于所选择带宽扩展范围的增加部分的范围。 作为实例,可以存在范围从大约0到大约8KHz的第一映射数据库、从大 约8KHz到大约16KHz的第二映射数据库、以及从大约16KHz到大约 22KHz的第三映射数据库。这三个映射数据库可以是高斯混合模型 (Gaussian Mixture Model)。
该方法还可以包括如下步骤从语音信号中获取表示谱包络的窄 带反射系数集合;以及,使用映射数据库,将窄带反射系数集合扩展 到宽带反射系数集合,用来生成宽带谱包络。此外,可以通过将高斯 完全协方差矩阵压缩为方差的对角向量,来将反射系数集合转换为倒 谱系数集合,用来降低存储器存储。
在另一设置中,该方法可以进一步包括如下步骤使用宽带反射 系数,从语音信号中提取窄带激励信号;以及,使用调制及滤波,将 窄带激励信号扩展为宽带激励信号。该方法可以进一步包括如下步骤.-将宽带激励信号与宽带谱包络组合,以生成合成的宽带语音信号;从支持区域中的合成宽带语音信号中提取补充宽带语音信号;以及,将原始语音信号添加到补充合成宽带语音信号中,以生成宽带语音信号。 本发明还涉及一种将窄带反射系数集合扩展为宽带反射系数集合以用于语音带宽扩展的方法。该方法可以包括如下步骤生成低带激 励;生成高带激励;以及,将窄带激励添加到低带激励及高带激励, 以创建半带激励。该方法还可以包括以下步骤从半带激励中生成宽 带激励。生成低带激励及高带激励的步骤可以包括以下步骤使用余 弦乘法来调制低带激励及高带激励;以及,滤波低带激励及高带激励。
本发明还涉及一种机器可读存储器。机器可读存储器可以在其上 存储计算机程序,该计算机程序具有通过便携式计算设备执行的多个 代码部分。代码部分可以使便携式计算设备来执行如下步骤接收未 知的语音信号;识别接收到的未知语音信号的语音带宽;以及,考虑 接收到语音信号的谱含量,来建立支持区域。该代码部分可以进一步 使便携式计算设备来执行以下步骤从多个映射数据库中选择映射数 据库组合。与之前一样,每个映射数据库可以与用于扩展语音带宽的 预定带宽扩展范围相关联。代码部分还可以使便携式计算设备来执行 上述其它方法步骤中的任何一个。
本发明还涉及一种用于人工地扩展语音带宽的系统。该系统可以 包括评估部分、以协同方式耦合到评估部分的数据库选择器、以及 以协同方式地耦合到评估部分和数据库选择器的带宽扩展单元。评估 部分可以接收未知语音信号并且可以确定未知语音信号的语音带宽的 允许限度。数据库选择器可以根据语音带宽的允许限度来选择映射数 据库组合。此外,带宽扩展单元可以将未知语音信号的语音带宽扩展 到语音带宽的允许限度。带宽扩展单元可以通过使用由数据库选择器 所选择的映射数据库组合来完成该扩展。该系统还可以包括用于执行 上述方法步骤中任何一个的合适的电路及软件。
在所附的权利要求中,具体地陈述了被认为是新颖的本发明的特 征。通过参考以下描述并结合附图,可以最好地理解本发明及其进一 步的目标和优势,在若干附图中,相同的附图标记表示相同的元件, 其中
图l图示说明了根据本发明设置的实施例用于人工地扩展语音带 宽的系统;
图2更加详细地图示说明了根据本发明设置的实施例的图1的一些
组件;
图3图示说明了根据本发明设置的实施例的多路径激励级的实例; 图4图示说明了根据本发明设置的实施例用于语音带宽扩展的方 法的一部分;
图5图示说明了根据本发明设置的实施例用于语音带宽扩展的方 法的另一部分;
图6图示说明了根据本发明设置的实施例与扩展语音信号带宽相 关联的若干曲线图;以及
图7图示说明了根据本发明设置的实施例用于将窄带系数集合转 换为宽带系数集合的系统。
具体实施例方式
尽管说明书以限定了被认为是新颖的本发明特征的权利要求作为 结束,但是应了解,从结合以下描述及附图的角度考虑,本发明将更 易于理解,其中延续使用相同的附图标记。
按照需要,在此公开本发明的详细实施例;然而,应了解,所公 开的实施例仅仅是本发明的示例,其可以采用多种形式来实施。因此, 在此公开的具体结构及功能细节将不被解释为限制性的,而仅仅作为 权利要求的基础以及用于指导本领域技术人员在基本上任何合适的详 细结构中不同地使用本发明的代表性基础。此外,在此使用的术语及
短语不意图是限制性的,而是意图提供本发明的可理解的描述。
在此使用的术语"一"或"一个"被限定为一个或多于一个。在 此使用的术语"多个"被限定为两个或多于两个。在此使用的术语"其 他"被限定为至少是第二或更多。在此使用的术语"包括"和/或"具 有"被限定为包括(即,开放式语言)。在此使用的术语"耦合"被 限定为连接,尽管不必要是直接地以及不必要机械地连接。在此使用 的术语"程序"、"软件应用程序"等被限定为用于在计算机系统上 执行而设计的指令序列。程序、计算机程序或者软件应用程序可以包 括子例程、函数、过程、对象方法、对象实现、可执行应用程序、小
应用程序(applet)、小服务程序(serlet)、源代码、目标代码、共享 库/动态加载库、和/或为用于在计算机系统上执行而设计的其它指令序 列。
语音带宽扩展的目标是将压缩语音的质量恢复到匹配于原始语音 的主观质量水平的水平。本发明涉及一种用于改善通信系统中语音质 量的语音带宽扩展方法及系统。该方法可以包括如下步骤接收未知 语音信号;从接收到的未知语音信号的谱含量中识别语音带宽;以及
考虑接收到的语音信号的谱含量来建立支持区域。该方法还可以包括
以下步骤从多个映射数据库中选择映射数据库的组合,在该多个映
射数据库中,每个映射数据库可以与预定的带宽扩展范围相关联,用 于将语音带宽扩展到支持区域。通过这些步骤以及将在下面描述的其 它过程,可以扩展未知语音信号的带宽。
参考图l,示出了用于人工扩展语音带宽的系统100的实例。在一
个设置中,系统100可以包括评估部分110、以可协同方式耦合到评
估部分110的数据库选择器120、以及带宽扩展单元130。带宽扩展单元 130以可协同方式耦合到评估部分110和数据库选择器120。在一个实施 例中,评估部分IIO、数据库选择器120和带宽扩展单元130可以是类似 于蜂窝电话的移动通信单元140的一部分。在这种情况下,移动通信单
元140可以包括接收机150和/或发射机160,用于接收和/或发射语音或
数据信号。
评估部分110可以接收未知语音信号105,并且可以确定未知语音 信号105的语音带宽的允许限度。该未知语音信号105,考虑随后在其 上执行的处理,也可以被简单地称作语音信号105或者重新采样的语音 信号105。语音带宽的允许限度可以对应于支持区域。作为实例,数据 库选择器120可以根据语音带宽的允许限度,选择映射数据库组合(在 此没有示出)。此外,带宽扩展单元130可以将未知语音信号105的语 音带宽扩展到语音带宽的允许限度。例如,带宽扩展单元BO可以使用 由数据库选择器120所选择的映射数据库组合,来扩展未知语音信号 105的语音带宽。
参考图2,示出了评估部分IIO、数据库选择器120和带宽扩展单元 130的更加详细的方框图。在一个设置中,评估部分110可以包括分 析模块202、查询模块204以及采样模块206。分析模块202可以耦合到 査询模块204,其可以耦合到采样模块206。此外,采样模块206可以耦 合到分析模块202。
简单地说,分析模块202能够识别接收到的未知语音信号105的语 音带宽。查询模块204能够识别与系统100相关联的所支持的采样速率 列表,其中每个所支持的采样速率可以揭示语音带宽可以被扩展到的 限度。作为实例,所支持的采样速率可以与移动单元140相关联。采样 模块206可以以查询模块204所识别的采样速率,来重新采样未知语音 信号105,这可以产生重新采样的语音信号105。因此,评估部分110可 以有效地1)分析未知语音信号105,以确定语音带宽;2)识别系统100 能够支持的采样速率;3)确定语音带宽的允许限度;以及,4)以识别到 的采样速率之一来重新釆样语音信号105。
在一个设置中,数据库选择器120可以包括多个映射数据库210、
212和214,其中每个映射数据库210、 212和214可以与预定的带宽扩展 范围相关联,用于扩展语音带宽。数据库选择器120可以选择映射数据 库210、 212和214,以选择性地将语音信号105的带宽扩展到系统所支 持的带宽。特别地,映射数据库210、 212和214可以根据所支持的系统 采样频率,提供用于扩展语音带宽的增加的能力。将在下面更详细地 说明这一过程。
在一个设置中,带宽扩展单元130可以包括包络处理器220、激 励处理器240、以及混合处理器260。包络处理器220可以可通信方式耦 合到评估部分110及数据库选择器120。激励处理器240可以可通信方式 耦合到评估部分110及包络处理器220。此外,混合处理器260可以可通 信方式耦合到评估部分IIO、包络处理器220及激励处理器240。
简单地说,包络处理器220可以从语音信号105中确定窄带包络并, 且随后确定宽带谱包络。作为实例并且不作为限制,包络处理器220可 以提供表示宽带谱包络的宽带系数集合。使用由包络处理器220所提供 的宽带谱包络(例如,宽带系数集合),激励处理器240可以从语音信 号105中确定窄带激励信号,以随后创建宽带激励信号。混合处理器260 可以从宽带激励信号及宽带谱包络中创建补充宽带信号,其随后可以 与语音信号105组合在一起,以创建宽带语音信号。
作为实例,包络处理器220可以包括特征提取器222、窄带转换 器223、包络估计器224、以及宽带转换器225。特征提取器222可以可 通信方式耦合到采样模块206,用于接收重新采样的语音信号105,以 及用于获取表示重新采样语音信号105窄带谱包络的线性预测分析 (LPC)系数的集合。此外,窄带转换器223可以可通信方式耦合到特征 提取器222,且可以将LPC系数集合转换为窄带反射系数集合。
包络估计器224可以可通信方式耦合到窄带转换器223,并且可以 接收表示窄带谱包络的窄带反射系数集合。使用映射数据库210、 212及214,包络估计器224与数据库选择器120相结合,可以将窄带反射系 数集合扩展为宽带反射系数集合,其可以使得包络估计器224 (及数据 库选择器120)能够从窄带谱包络中估计宽带谱包络。以可通信方式耦 合到包络估计器224的宽带转换器225,可以将宽带反射系数转换为宽 带LPC系数集合。
激励处理器240可以包括宽带分析部分242、以及多路径激励级 244, 二者均可以可通信方式互相耦合。宽带分析部分242可以耦合到 采样模块206,用于接收重新采样的语音信号105。 一旦进行接收,宽 带分析部分242可以使用由包络估计器224所产生的宽带谱包络,从重 新采样的语音信号105中提取窄带激励信号。如将在后面讨论的,其他 方案将使用窄带谱包络来从重新釆样的语音信号105中提取窄带激励 信号。多路径激励级244可以从由宽带分析部分242所提取的窄带激励 信号中,生成宽带激励信号。
混合处理器260可以包括宽带合成部分262、带阻滤波器264、以 及加法器266。宽带合成部分262可以将由激励处理器240所提供的宽带 激励信号与由包络处理器220所提供的宽带包络组合在一起,以生成合 成的宽带语音信号。带阻滤波器264可以抑制在已经由语音信号105所 占用的频率区域内的合成宽带语音信号的谱含量。结果,带阻滤波器 264可以提供补充的宽带语音信号,其包括在语音信号允许限度内的频 率信息。加法器266可以将从带阻滤波器264接收到的补充宽带信号与 来自釆样模块206的语音信号组合起来,以创建宽带语音信号。
尽管图1和图2表示了实现实践本发明方法的系统及组件(硬件和 软件)的实例,但是应了解,本发明不受其所限。该方法可以在使用 包括软件及硬件的任何合适组件组合的任何合适的语音处理系统中实 践。
参考图3,示出了多路径激励级244的更加详细方框图的实例。然 而,应了解,多路径激励级244的该具体表示仅仅是这种组件的一个实 例。本领域的技术人员应了解,可以在本发明中采用其它合适的布局。
在一个设置中,多路径激励级244可以包括低带激励级310、高 带激励级320、及通带激励级330,其组合能够处理从宽带分析部分242 (参见图2)接收到的窄带激励信号。
低带激励级310可以包括调制器312及低通滤波器314。高带激励级 320可以包括调制器322及带通滤波器324。通带激励级330可以传递未 经处理的窄带激励信号。低带激励级310、高带激励级320及通带激励 级330的一个用途是人工地将激励信号扩展到通过査询模块204所识别 的频率范围。
多路径激励级244还可以包括加法器340,用来将低带、高带及 通带激励信号求和为复合(composite)半带激励信号。多路径激励级 244还可以具有调制器350,用于人工地将半带激励扩展为宽带激励, 其可以被认为是全带或宽带激励。如早先所提到的,通过多路径激励 级244所生成的宽带激励信号可以与宽带包络组合在一起,以生成合成
的宽带语音信号。
参考图4至图5,将使用方法400来说明扩展语音带宽的实例。尽管 将使用图1至图3来帮助描述方法400,但是应了解,可以使用任何合适 组件在任何其它合适的设备或系统中实现方法400。此外,本发明不限 于方法400中所列出步骤的顺序。此外,方法400可以包含比图4至图5 中示出的步骤更多或更少个步骤。
在步骤410,方法400可以开始。在步骤412,可以接收未知语音信 号。在该上下文中的术语"未知"可以指的是,接收到的语音信号的 采样速率或带宽是未知的。在步骤414,可以识别接收到的未知语音信 号的语音带宽。作为实例,在步骤416,可以在未知语音信号上执行谱
分析,以根据谱能量来确定语音信号带宽。
例如,参考图2,分析模块202可以依照步骤412和414来接收未知 语音信号105,并且可以确定未知语音带宽。本领域的技术人员应了解, 存在很多不同的方式来确定语音信号的带宽,并且本发明不限于任何 特定的技术。参考图6,示出了未知语音信号的频率响应620的实例。 图2的分析模块202可以生成频率响应620,并且可以根据谱能量的分布 来识别语音带宽。例如,频率响应620的语音带宽625可以占用大约 300Hz和大约3.4KHz之间的区域,尽管在本发明中可以容易地使用其它 合适的值来代替。该语音带宽可以表示语音信号105的后压縮带宽(即, 窄带语音信号)。
在此,语音信号105可以具有8KHz的采样频率,这意味着考虑奈 奎斯特(Nyquist)定理,从4KHz到8KHz将不存在谱含量。尽管不受奈 奎斯特定理所限制,但是对于语音信号105,可能不存在从0Hz到300Hz 或者从3.4KHz到4KHz的谱含量,这在很多无线通信系统中是常见的。
回过来参考图4和图5的方法400,在步骤418,可以考虑语音带宽
来建立支持区域。作为实例,支持区域可以描述这样的话音的频率区 域,即,其中可能不存在谱含量以及其中可以应用语音带宽扩展。步
骤420-426描述了可以如何建立支持区域的一个实例。具体地,在步骤 420,可以将请求发送到隐含对象,以列出该对象能够支持的采样频率。 如在上面所确定的,由于采样速率揭示了语音带宽可以扩展到的限度, 所以可能需要采样频率的知识。如步骤422所示,可以识别基于所支持 的采样速率的谱界限。谱界限可以限定系统能够将谱含量添加到语音 信号上的频率边界。
在步骤424,可以确定谱界限内用于将语音带宽扩展到驻留在语音 信号语音带宽之外区域的谱带。在步骤426,可以按照对应于至少一个 返回采样频率的选定采样速率,来对语音信号重新采样。该过程可以
制定用于在窄带语音信号内扩展谱含量的频率范围。
例如,参考图2和图6,查询模块204可以将请求发送到隐含对象,
以列出所支持的采样频率。隐含对象可以是物理设备或软件接口,其 提供执行信号处理的能力并且可以了解它能够支持的采样速率。例如,
音频播放设备可以提供许多采样速率,例如用于语音的8KHz、用于MP3 的22.5KHz、以及用于压縮盘的44.1KHz。如在现有技术中已知的,随 后可以使用奈奎斯特准则,从采样频率中确定系统带宽。因此,8KHz 的采样频率可以提供采样频率一半的语音带宽,是4KHz。
给定未知语音信号105的语音带宽以及可用系统带宽的知识,评估 部分110可以确定语音信号105中缺失谱含量的区域。特别地,依照方 法400的步骤422,评估部分110可以限定频率边界的谱界限,其中可以 将谱含量添加到语音信号105上。例如,通过界限723及627来对语音信 号105频率响应625的谱界限进行划界。在该实例中,这对应于0到300Hz (界限623)的较低谱界限以及3.4KHz到8KHz (界限627)的较高谱 界限。
依照步骤424,评估单元110还可以确定识别到的谱界限内的谱带,
用于根据系统带宽来确定语音带宽的范围。在一个设置中,谱带可以 限定支持区域636。支持区域636描述了可将谱含量添加到语音带宽上 的频率区域,对于该语音带宽当前存在很少或不存在语音频率含量。 因此,支持区域636固有地描述了语音带宽的允许限度。
例如,分析模块202可以执行未知语音信号105的谱分析,这可以 揭示语音带宽是在300Hz禾B3.4KHz之间,如在语音带宽625中观察到 的。如在现有技术中已知的,奈奎斯特定理规定,与未知语音信号相 关联的采样速率必须至少是信号带宽的两倍,在我们的实例中是8KHz 的采样速率。对于隐含对象(underlying object)的查询可以揭示出 8KHz、 16KHz、 22KHz和44 KHz的采样速率是得到支持的。作为实例,
在8KHz的采样速率,不是所有的上部支持区域(4KHz到8KHz)是可 用的(虽然可能存在下部支持区域(OHz到300Hz)以及上部支持区域 的一部分(3.4KHz到4KHz))。
然而,如果查询模块204识别到16KHz的所支持的较高采样频率, 那么上部支持区域是可能的。16KHz的系统所支持的采样速率暗示了所 允许的上部支持区域637的至少一部分是4KHz,或者用于16KHz采样频 率的信号带宽减去语音带宽的上部窄带界限(8KHz减去4Khz)。在该 实例中,以16KHz对语音信号采样可以考虑到在4KHz和8KHz之间的上 部支持区域637处添加上部谱含量。这个添加的上部谱含量可以补充下 部谱含量,该补充下部谱含量可以被添加到0到300Hz之间的下部支持 区域633,以及添加到从3.4KHz到4KHz的上部支持区域637中。
在该实例中,支持区域636可以包括上部支持区域637、以及下 部支持区域633。然而,本领域的技术人员应了解,本发明不限于这个 实例。特别地,支持区域636可以不包括上部和下部支持区域。此外, 支持区域636不是必要地必须覆盖识别到的谱界限的全部范围。
如在早先所提到的,采样模块206可以重新采样语音信号105。评 估部分110可以选择对应于识别到的、系统所支持的采样速率的重新采 样速率。在一个设置中,评估部分110可以提供自动或手动选择。在手 动选择配置中,使用系统100的用户可以通过例如图形用户接口或任何 其它合适接口来选择他或她选择的采样速率。例如,用户可能需要高 质量的话音并且可能选出最高可用采样速率。可替换地,在自动选择 配置中,诸如无线通信运营商的系统提供商可能控制采样速率。例如, 系统提供商可能希望根据服务质量措施或成本结构来限制采样速率, 其中系统提供商可以向需要较高质量话音的用户收取较高的服务费 用。
通过采样模块206进行的重新采样实际上建立了可用的系统带宽,
并且为带宽扩展制定了语音信号105。重新采样有效地考虑到将语音带 宽扩展到支持区域636中。总体来说,如果系统所支持的采样频率高于 未知语音采样频率,那么由未知语音所占用的信号带宽可以被认为是 窄带的。如果可以在任何区域内将窄带信号扩展到所支持的系统带宽, 那么信号将被认为是宽带信号。窄带信号与宽带信号之间频率含量差 异可以是支持区域。然而,应了解,本发明绝不限于关于窄带或宽带 信号或者支持区域的上述任何实例。
回过来参考图4,在步骤428,可以从多个映射数据库中选择映射 数据库组合,其中每个映射数据库可以与用于扩展语音带宽的预定带 宽扩展范围相关联。考虑到支持区域,可以考虑这种选择。如早先所 说明的,支持区域可以反映语音带宽可以扩展到的允许限度。可以选 择映射数据库组合,来共同地将谱含量添加到支持区域。
可以这样创建映射数据库第一映射数据库可以提供第一范围,
第二映射数据库可以提供开始于第一范围结束处的第二范围,以及第 三映射数据库可以提供开始于第二范围结束处的第三范围。照这样,
在步骤430,可以顺次地将数据库组合起来,以共同扩展语音带宽,从 而提供支持区域内的谱含量。
例如,参考图2和图6以及如早先所说明的,谱分析可以揭示出, 在8KHz的采样频率时,信号的语音带宽在500到3.4Khz之间(参见语音 带宽625) 。 4KHz和8KHz之间的频率是由于奈奎斯特采样定理而不可 以存在语音的频率。因此,考虑8KHZ的采样频率,语音带宽可以只被 扩展到0Hz到300Hz的下部频率以及3.4KHz到4KHz的上部频率的一部 分。例如,如果以16KHz的较高速率对语音信号105重新采样,那么可 以将语音带宽从4KHz扩展到8KHz。在我们的实例中,阴影线区域639 表示根据16KHz的采样速率、由于奈奎斯特采样定理而不可以存在语音 的区域(8KHz到16KHz)。
可以选择映射数据库210、 212和214中的一个或多个,来填充下部 支持区域633及上部支持区域637。例如,第一映射数据库可以考虑到 将带宽扩展到达到8KHz,这对于在16KHz采样的语音可以是足够的。 作为另一实例,对于22KHz的采样速率,可以将映射数据库210及映射 数据库212组合在一起,以实现达到llKHz的语音频带扩展,这可以帮 助填充阴影线区域639的一部分。也就是说,可以选择映射数据库210, 来帮助提供从0Hz到300Hz以及从3.4KHz到8KHz的谱含量,而映射数据 库212可以帮助填充用于22KHz采样频率的从8KHz到llKHz的范围。考 虑22KHz的较高采样速率,阴影线区域639的一部分当前可以是支持区 域636的一部分。如我们可以观察到的,映射数据库组合的选择可以是 顺序的操作,尽管本发明不是必须地限于这种设置。
在一个设置中,第一映射数据库210可以与从大约0Hz到大约8KHz 的预定带宽扩展范围相关联,以及第二映射数据库212可以与从大约 8KHz到大约16KHz的预定带宽扩展范围相关联。此外,第三映射数据 库214可以与从大约16KHz到大约22KHz的预定带宽扩展范围相关联。
当然,本领域的技术人员应了解,本发明不限于这些映射数据库 210、 212及214。本发明可以包括与任何合适频率相关联的任何合适数 量的映射数据库。此外,本发明不限于基于线性扩展的频率扩展范围 的映射数据库。例如,映射数据库可以全部支持相同的频率范围,但 是提供跨越共用频率范围的不同程度的放大或抑制。
回过来参考图4,方法400可以通过步骤432继续到图5 。在步骤 434,可以在支持区域内应用带宽扩展。步骤436-456提供了可以如何执 行该过程的实例。
在步骤436,可以从语音信号中创建宽带谱包络。特别地,可以通 过估计来确定宽带谱包络,可以通过特征提取获取该窄带谱包络。例 如,在步骤438,可以从语音信号中获取表示窄带谱包络的窄带反射系
数集合。在步骤440,可以使用映射数据库,将窄带反射系数集合扩展 到宽带反射系数集合。
作为实例,参考图2,特征提取器222可以接收重新采样的语音信 号105,并且可以执行窄带线性预测分析(LPC)。依照公知的LPC原 理,特征提取器222可以从重新采样的语音信号105中提取包络。由于 重新采样的语音信号105是窄带的,所以包络通常也是窄带的。可以通 过LPC系数集合来表示窄带包络,该LPC系数集合描述窄带语音包络的 全极点模型近似。
特征提取器222可以生成LPC系数集合,表示为A(z)。窄带转换器 223可以将LPC系数集合转换为反射系数集合。由于反射系数可以更适 合于实现数字滤波器,所以它们在本发明方法中可能是有用的。同样, 反射系数与LPC系数相比,对于噪声来说更加鲁棒。然而,本领域的技 术人员应了解,本发明不受此限制,因此变换可能不是必要的并且可 以采用其它的系数表述。在任何情况下,窄带反射系数集合可以近似 地表示谱包络,虽然以不同的数学形式。
此外,可以将反射系数转换为倒谱(cepstral)系数集合,其对数 值噪声也是鲁棒的。反射系数在统计上彼此相关,这意味着共有信息 被包含在反射系数集合的独立系数中。相反地,倒谱系数在统计上彼 此无关,并且在系数之间具有最少的共有信息。这种无关性对于存储 器存储用途来说是重要的属性,并且可以与下面对映射数据库210、 212 及214的讨论有关。因此,可以训练映射数据库210、 212及214,来支 持反射系数或者倒谱系数。
包络估计器224可以执行从窄带谱包络中估计宽带谱包络的广泛 任务。包络估计器224可以从窄带转换器223接收窄带反射系数集合作 为输入,包络估计器224可以将该窄带反射系数集合提供给数据库选择 器120。数据库选择器120可以将窄带反射系数集合转换为宽带反射系数集合。因此,包络估计器224通过数据库选择器120,可以使用所选
择的映射数据库210、 212及214,根据窄带反射系数的非线性变换,来 从窄带包络中估计宽带谱包络。
例如,数据库选择器120可以接收由窄带转换器223所生成的窄带 反射系数集合作为输入。通过统计建模,数据库选择器120可以将窄带 反射系数集合转换为宽带反射系数集合。包络估计器224可以随后将宽 带反射系数传递给宽带转换器225,其可以将它们转换为宽带LPC系数 集合。该LPC系数可以表示为B(z),其可以表示对宽带谱包络的全极点 近似。
如早先所提到的,数据库选择器120可以从评估部分110接收所选 择的采样速率信息。评估部分110可以根据系统所支持的采样速率,来 识别支持区域。所选择的釆样速率可以确定通过数据库选择器120选择 了哪个映射数据库210、 212及214。作为实例,映射数据库210、 212及 214可以是高斯混合模型。然而,必须注意的是,映射数据库210、 212 及214不限于该具体的配置。例如,本领域的技术人员应了解,存在不 同的方式来实现映射函数,例如向量量化或隐马尔可夫模型(Hidden Markov Models)。
在统计建模应用中,GMM可以是有用的,在该统计建模应用中, 必须从大量数据中提取表示通用特性或趋势的信息。诸如GMM的映射 函数在统计地洞察大的数据量中是有用的,并用于应用统计信息。 GMM在现有技术中是已知,不过简短的描述对于说明将GMM应用于将
窄带系数集合转换为宽带系数集合的方式来说将是有用的。
参考图2和图7,可以通过数据库选择器120,将由特征提取器222 所提供的窄带系数集合作为输入702提交给GMM700。例如,GMM 700 可以表示映射数据库210、 212及214中的一个。在图7的例示中,可以 存在表示为Xi至Xw的十四个输入系数,以及表示为X—est!至X—estw的
十四个相应输出系数,不过GMM 700可以接收任何合适数量的系数作 为输入,并输出任何合适数量的系数。数据库选择器120可以判定GMM 700的哪一个组合被用于映射反射系数的集合。GMM 700的输出将是宽 带系数集合704,其表示宽带谱包络。给定所提交的窄带系数集合, GMM 700可以统计地确定最佳表示宽带包络特性的宽带系数集合。
如在现有技术中已知的,GMM试图确定被称作映射的最优变换, 其可以被应用到输入信号,以依照由GMM提供的统计信息将其转换为 输出信号。请注意,GMM可以根据现有技术中已知的被称作训练的学 习过程,提供统计建模能力。总体来说,最初为GMM离线呈现输入及 输出训练数据,以学习与输入到输出数据变换相关联的统计信息。 GMM可以采用期望最大化(EM)算法来学习输入及输出系数集合之间
的映射。
参考图7, GMM 700可以支持128个高斯706的集合,其中通过描述 单一高斯706统计信息的参数ii、 E、 w的集合来表示每个高斯。单一高 斯706可以表示可以通过下面的等式来描述的概率函数
(2")緒E I l 2 j 其中,x可以是长度为14xl的反射系数向量,/i是长度的平均反射 系数向量,E是十四个反射系数的大小为14xl4的协方差矩阵,以及D 可以是高斯706的维度,其等于向量x的长度,是14。
每个高斯706可以捕获整个统计信息的一部分,该统计信息包含在 窄带及宽带反射系数之间被训练的映射中。例如,维度D-2的单一高斯 706的概率分布可以被视为钟形曲线(bell-curve) 740。高斯706可以是 描述在相关联高斯706内观察到输入反射系数的概率的概率分布函数。 每个高斯706可以为输入中的每个反射系数提供概率值,表示为高斯 706的似然性测量(likelihood measure)。简而言之,将每个输入的系 数集合与每个高斯706进行比较,并且每个高斯706可以提供统计映射 信息708的某部分。
来自每个高斯706的概率信息可以被加权701,并被加在一起712, 以例示窄带到宽带的映射。在此上下文中的术语"加权"可以意味着, 由每个高斯706提供的概率信息乘以权重值。均值向量M以及协方差矩 阵E表示与每个高斯706相关联的统计信息。
GMM 700可以支持任何数量的高斯706,不过当从大的训练数据集 合中获取充分的统计信息时,包括128个高斯的GMM 700可以为反射系 数集合提供足够的映射能力。还应注意的是,可以将反射系数集合转 换为倒谱系数集合,其可与GMM映射一起使用。由于该转换可以将高 斯完全协方差矩阵压縮为方差的对角向量,所以可以降低GMM 700所 需的存储器量。
例如,该转换可以包括线性数学变换,该线性数学变换可以将统 计上相关的反射系数集合转换为统计上无关的倒谱系数集合。统计上 相关的系数集合通常需要完全协方差矩阵750。完全矩阵指的是,矩阵 中的所有项被用在GMM 700中。统计上无关的系数集合通常只需要协 方差矩阵760的对角向量。对角向量指的是,只有协方差矩阵的对角项 被用在GMM 700中。该过程可以降低需要存储在GMM 700中的协方差 值的数量。例如,可以将大小为NxN的协方差矩阵降低为大小为Nxl 的向量,这可以将GMM 700的存储器存储需要降低因数N。
可以将输入702的十四个反射系数的每一个呈现给128个高斯706 的每一个。每个高斯706,例如第128个高斯,可以以其均值^744和其 协方差E750为特征,均值/^44和其协方差r750—起可以描述高斯概率 函数740的形状。GMM 700可以是根据输入信号的特性混合在一起的 128个高斯的组。可以使用权重w710集合及加法操作412,将128个高斯 706混合在一起。可以在EM算法的训练期间确定权重w710。对于14维 的特征向量(即,14个反射系数),用于似然函数的混合操作712可以
这是均值向量为p及协方差矩阵为Zi的M-128个高斯706的加权
线性组合。可以将混合权重限制为21^=1。密度模型的参数可以是 ;i-(Wi, jii,2i〉,其中i- 1,.…M。
一旦找到p(x),可以如下确定对宽带反射系数集合的估计
上述等式揭示了采用等式表达的GMM 700的映射属性,并且将作 为输入到GMM 700的窄带反射系数集合关系到表示宽带反射系数集合 的输出704上。可以由GMM 700来确定项p(x) (^是第i个高斯706的第i 个均值向量),以及x(例如,X,到X")表示输入的窄带反射系数集合。 此外,x—est (例如X—estJIjX—est14)反映了为窄带反射系数的输入集合 所评估的估计的宽带反射系数集合。依照图4的步骤440,可以通过包 络估计器224及图2的数据库选择器120来实现上述GMM映射的数学操 作。
回过来参考图5,在步骤442,可以从宽带谱包络及语音信号中创 建宽带谱激励。在步骤444至448中表示了该过程的实例。在步骤444, 可以使用宽带反射系数集合或窄带LPC系数集合来,从语音信号中提取 窄带谱激励,如在步骤440中所提供的。在步骤446,可以将窄带激励 信号扩展为宽带激励信号。在步骤448A-448F中示出了如何执行这种过 程的实例。
具体地,在步骤448A,可以生成低带激励,以及在步骤448B,可 以生成高带激励。例如,在可选步骤448C,可以使用余弦乘法来调制低带激励和高带激励。在可选步骤448D,可以滤波低带激励和高带激
励。在步骤448E,可以将窄带激励(或通带激励)添加到低带激励和 高带激励,以创建半带激励。在步骤448F,可以从半带激励中生成宽 带激励。
例如,参考图2,宽带分析部分242可以通过采用反射系数集合 逆滤波重新采样的语音信号105来生成窄带激励。逆滤波可能需要由 包络估计器224提供的宽带系数集合,或者可替换地,它可以使用在 特征提取器222处生成的窄带LPC系数。可以在宽带分析部分242内 使用窄带或宽带系数集合,用于生成窄带激励。由于重新采样的语音 信号105本身是窄带信号,所以采用上述两种系数集合中的任何一种 对重新采样的语音信号105进行逆滤波可以生成窄带激励信号。
可以通过多路径激励级244来传递窄带激励,以创建宽带激励。 多路径激励级244的用途是在支持区域636内创建人工激励信号(参 见图6)。可以通过复制并变动重新采样的窄带激励信号来生成补充激 励,这在某种意义上可以被认为是人工的。
现在参考图2、图3和图6,多路径激励级244可以接收来自宽带 分析部分242的窄带激励。窄带激励可以通过可以在接收到的窄带激 励上构建或可以扩展接收到的窄带激励的各种路径来发散。例如,窄 带激励可以通过低带激励级310、高带激励级320、以及通带激励级330。
低带激励级310的调制器312可以将窄带激励调制到例如出现在 下部频支持区域633 (例如,OHz到300Hz)中的区域。高带激励级320 的调制器322可以将窄带激励调制到出现在较高频率的上部支持区域 637的一部分(例如,3.4KHz至l」4KHz)中的区域。作为实例,可以使 用余弦乘法来将窄带激励信号调制到上述的支持区域633和637。
低带激励级310的低通滤波器314可以移除由于调制引起的伪信
号分量(aliased components)。相似地,高带激励级320的带通滤波器 324可以移除由调制产生的伪信号分量。通带激励级330可以允许窄带 激励传递未经处理的信号,其可以允许它保留在其初始带宽(例如, 300Hz到3.4KHz)内。
加法器340可以将低带、高带及通带激励相加在一起,以生成半 带激励,其根据我们的实例可以从0Hz扩展到4KHz。接下来,调制器 350例如使用余弦乘法,可以调制半带激励,从而创建全带或宽带激励。 将半带激励调制到宽带激励可以对应于从4KHz到8KHz的频率。在多 路径激励级244完成时,窄带激励信号可以被扩展到宽带激励信号。
应注意的是,低带调制器312、高带调制器322以及半带调制器 350不限于将数据只调制到支持区域636。例如,在支持区域636的边 界处,在变动中有一些重叠可能是必要的。通过该重叠,宽带激励信 号的频率响应可以是非常平坦的,这是现有技术中已知的期望特性。
回过来参考图5的方法400,在步骤450,可以通过将创建的宽带 谱包络与创建的宽带激励及语音信号组合在一起,来生成宽带语音信 号。步骤452-456提供了如何完成该过程的实例。特别地,如步骤452 所示,由步骤436提供的宽带包络可以与由步骤442提供的宽带激励 组合在一起,以生成合成的宽带语音信号。合成的宽带语音信号可以 包含支持区域内的谱含量,并且还可以包括原始的未知语音信号。
在步骤454,可以从支持区域中的合成宽带语音信号中提取补充 的宽带语音信号。如果原始的未知语音信号与补充宽带语音信号组合 在一起,那么可以移除表示原始未知语音带宽的相同频率区域的合成 宽带语音信号的谱含量。由于复制语音信号的原始谱含量不是必要的, 所以可以执行该步骤。在步骤456,可以将补充宽带语音信号添加到语 音信号,以生成宽带语音信号。方法400可以在步骤458结束。
作为实例并且参考图2和图6,混合处理器260可以将补充宽带 语音信号与重新采样的语音信号105混合,以生成宽带语音信号。可
以从合成宽带语音信号中提取补充宽带语音信号。例如,宽带合成部 分262可以使用由宽带转换器225所提供的宽带LPC系数作为合成滤 波系数。宽带合成部分262还可以接收由多路径激励级244所提供的 宽带激励信号作为输入。宽带合成部分262可以通过采用宽带LPC滤 波系数对宽带激励信号进行滤波,来生成合成的宽带语音信号。产生 的语音信号是合成的宽带语音信号。在我们的实例中,合成宽带语音 信号可以从0Hz扩展到8KHz。
如之前所提到的,可以从合成宽带语音信号中选择性地移除谱含 量,以生成补充宽带语音信号。可以通过通过带阻滤波器264传递合 成宽带语音信号,来生成补充的宽带语音信号。带阻滤波器264可以 抑制支持取636内部或外部的谱含量。
具体地,原始的未知语音信号已经提供了语音带宽625内(例如, 从300Hz到3.4KHz)的谱含量。由于合成的宽带语音信号还包含对应 于包含在语音带宽625内的谱含量的谱含量,所以带阻滤波器264可 以抑制合成宽带语音信号中的、与重新采样的语音信号105的谱含量 重叠的谱含量。因此,未知语音信号可以只需要其自己带宽之外(例 如,0-300Hz以及3.4KHz到8KHz)的补充谱含量。加法器266可以 将重新采样的语音信号105添加到补充宽带语音信号,以生成宽带语 音信号。
在适当时,可以使用硬件、软件或硬件与软件的组合来实现本发 明。任何类型的计算机系统或者适用于执行在此所述方法的其它装置 是合适的。硬件与软件的典型组合可以是带有计算机程序的移动通信 设备,在程序被加载并执行时,可以控制移动通信设备,以便它执行 在此所述的方法。也可以在计算机程序产品中嵌入本发明的一部分, 计算机程序产品包括支持实现在此所述方法的所有特征,并且当将其被加载到计算机系统中时,能够执行这些方法。
尽管已经说明并描述了本发明的优选实施例,但是本发明不受此 限制是显而易见的。在不背离由所附权利要求所限定的本发明主旨及 范围的情况下,对本领域的技术人员来说,将出现许多修改、改变、 变化、替代以及等价物。
权利要求
1.一种用于语音通信带宽扩展的方法,包括接收未知语音信号;识别所述接收到的未知语音信号的语音带宽;考虑所述接收到的语音信号的谱含量,来建立支持区域;以及从多个映射数据库中选择映射数据库组合,每个映射数据库与用于扩展所述语音带宽的预定带宽扩展范围相关联。
2. 根据权利要求l所述的方法,其中,建立支持区域包括 将请求发送到隐含对象,以返回所述对象能够支持的采样频率列表;根据所述返回的采样频率,识别谱界限;以及 确定所述谱界限内的谱带,用于将所述语音带宽扩展到位于所述 语音带宽之外的区域。
3. 根据权利要求l所述的方法,其中,选择映射数据库组合是顺 序的操作,并且进一步包括应用映射数据库的一系列组合,以共同 地将所述语音带宽扩展到对应于所选择的带宽扩展范围的增加部分的 范围。
4. 根据权利要求l所述的方法,进一步包括从所述语音信号中获取表示所述谱包络的窄带反射系数集合;以及使用所述映射数据库,将所述窄带反射系数集合扩展为宽带反射 系数集合,用于生成宽带谱包络。
5. 根据权利要求l所述的方法,进一步包括-使用宽带反射信号集合或窄带线性预测分析系数集合,从所述语 音信号中提取窄带激励信号;以及 使用调制及滤波,将所述窄带激励信号扩展到宽带激励信号。
6. 根据权利要求l所述的方法,进一步包括将宽带激励信号与宽带谱包络组合起来,以生成合成的宽带语音 信号;从所述支持区域中的所述合成宽带语音信号中,提取补充宽带语 音信号;以及将所述语音信号添加到所述补充合成宽带语音信号,以生成宽带 语音信号。
7. —种用于人工扩展语音带宽的系统,包括-评估部分,该评估部分接收未知语音信号,并确定所述未知语音信号的语音带宽的允许限度;以协同方式耦合到所述评估部分的数据库选择器,其中,所述数 据库选择器根据所述语音带宽的允许限度选择映射数据库组合;以及以协同方式耦合到所述评估部分及所述数据库选择器的带宽扩展 单元,其中,所述带宽扩展单元使用由所述数据库选择器选择的映射 数据库组合,将所述未知语音信号的所述语音带宽扩展到所述语音带 宽的允许限度。
8. 根据权利要求7所述的系统,其中,所述评估部分包括-分析模块,该分析模块识别与所述未知语音信号相关联的语音带宽;以协同方式耦合到所述分析模块的查询模块,其中,所述查询模 块识别所支持的采样速率,其中,所述所支持的采样速率揭示出所述语音带宽可以被扩展到的限度;以及以协同方式耦合到所述分析模块及所述査询模块的采样模块,其 中,所述采样模块以由所述査询模块识别到的所述所支持的采样速率 之一来重新采样所述未知语音信号,其中所述重新釆样制定了用于带 宽扩展的所述语音信号。
9. 根据权利要求7所述的系统,其中,所述带宽扩展单元包括 以协同方式耦合到所述评估部分及所述数据库选择器的包络处理器,其中,所述包络处理器从所述语音信号中确定窄带谱包络,并且 随后提供表示宽带谱包络的宽带系数集合;以协同方式耦合到所述评估部分以及所述包络处理器的激励处理 器,其中,所述激励处理器使用宽带反射系数集合或窄带线性预测分 析系数集合,从所述语音信号中确定窄带激励信号,并随后创建宽带 激励信号;以及以协同方式耦合到所述评估部分、所述包络处理器及所述激励处 理器的混合处理器,其中,所述混合处理器将所述语音信号与所述宽 带激励信号及所述宽带谱包络组合在一起,用于创建宽带语音信号。
10. 根据权利要求9所述的系统,其中,所述包络处理器包括特征提取器,该特征提取器获取表示所述语音信号谱包络的线性预测分析系数集合;以可通信方式耦合到所述特征提取器的窄带转换器,其中,所述 窄带转换器将所述线性预测分析系数集合转换为窄带反射系数集合;以可通信方式耦合到所述窄带转换器的估计器,其中,所述估计 器与所述数据库选择器相结合,使用所述映射数据库,将所述窄带反 射系数集合扩展到宽带反射系数集合;以及以可通信方式耦合到所述估计器的宽带转换器,其中,所述宽带 转换器将所述宽带反射系数转换为宽带线性预测分析系数集合。
全文摘要
本发明涉及一种语音带宽扩展的方法(400)及系统(100),用于改善通信系统中的语音质量。所述方法可以包括如下步骤接收(412)未知语音信号(105);识别(414)接收到的未知语音信号的语音带宽(625);以及,考虑接收到的语音信号的谱包络,来建立(418)支持区域(636)。所述方法可以进一步包括以下步骤从多个映射数据库中选择(428)映射数据库(210、212、214)组合。每个映射数据库可以与用于扩展语音带宽的预定带宽扩展范围相关联。
文档编号H04Q7/20GK101208972SQ200680023361
公开日2008年6月25日 申请日期2006年6月27日 优先权日2005年6月30日
发明者伊斯梅·乌伊萨尔, 哈沙·M·萨廷德拉, 约翰·G·哈里斯, 马克·A·布瓦洛 申请人:摩托罗拉公司