基于mmse语音概率存在的准确正向snr估计的利记博彩app
【专利说明】基于MMSE语音概率存在的准确正向SNR估计
[0001] 对相关申请的交叉引用 本申请涉及下面的申请:由Guillaume Lamy发明的、与本申请相同日期提交的、并且 由代理人案卷号2013P03105US 标识的"Externally Estimated SNR Based Modifiers For Internal MMSE Calculations" ;以及由 Guillaume Lamy 和 Jianming Song 发明的、与本 申请相同日期提交的、并且由代理人案卷号2013P03107US标识的"Speech Probability Presence Modifier Improving Log-MMSE Based Noise Suppression Performance "。
【背景技术】
[0002] 许多方法和设备已被开发用来从信息承载信号抑制或移除噪声。公知的噪声抑制 方法使用噪声估计值,该噪声估计值使用对最小均方差或"丽SE"的计算来获得。丽SE在 著作中被描述。例如参见 Alan V. Oppenheim 和 George C. Verghese,"Estimation With Minimum Mean Square Error,,' MIT Open Courseware, http://ocw. mit. edu, 2010 年春天 最后修改,其内容通过引用以其整体被合并于此。
[0003] 虽然Log-MMSE是已建立的噪声抑制方法,但是随着时间已对其做出 了改进。一个改进是使用语音概率存在或"SPP"作为Iog-MMSE估计器的指数 #,其也称为基于最优对数谱幅度的估计器或"0LSA"方法,其使得MMSE算法有效地达到其 最大允许的衰减量。
[0004] Log-MMSE噪声估计的OLSA修改遭受两个已知的问题。一个问题是在低信噪比情 形中它增加所谓的音乐噪声。另一个且更显著的问题是在有噪声状况中它还过度抑制弱语 音。基于丽SE的噪声估计减小或避免存在于现有技术中的已知问题,对基于丽SE的噪声 估计值确定的OLSE修改将是对现有技术的改进。
【附图说明】
[0005] 图1是表示清洁语音信号的单个波形的绘图; 图2是背景声学噪声信号的绘图; 图3是表示有噪声语音信号(即,诸如图1中所示的那个的清洁语音信号和诸如图2中 所示的那个的背景声学噪声信号)的绘图; 图4描绘了图3中所示的有噪声语音信号的样本; 图5A描绘了数据样本的第一帧,其在优选实施例中包括有噪声语音信号的十个相继 样本; 图5B描绘了数据样本的第二帧,其包括图5A中示出的第一十个之后发生的十个样 本; 图6A和6B描绘了多个频率分量带或范围的相对幅度,其分别表示频域中的第一和第 二帧; 图7是被配置为具有增强MMSE确定器的无线通信装置的框图; 图8A是增强丽SE确定器的框图; 图8B是丽SE确定器的优选实施方式的框图; 图9是增强丽SE确定器的操作的流程图/框图描绘; 图IOA和图IOB分别示出了流程图的第一和第二部分,该流程图描绘用于扭曲或修改 语音存在概率(SPP)并且使扭曲的SPP去噪的方法的步骤; 图11描绘四条S形曲线;以及 图12描绘用于确定信噪比的方法的步骤。
【具体实施方式】
[0006] 在这里,噪声被认为是通信系统中不需要的、非信息承载信号。白噪声或随机噪声 是随机能量,其具有一致的能量分布。其最通常由电子运动生成,诸如通过半导体、电阻器 或导体的电流。散粒噪声是非随机噪声的一种类型,其可以在电流突然流动穿过结或连接 时生成。声学噪声是不需要的或不希望的声音。在机动车辆中,声学噪声包括但不限于风 噪声、轮胎噪声、引擎噪声和道路噪声。
[0007] 声学噪声容易由必须与通信装备一起使用的麦克风检测到。声学噪声因此被"添 加"到由麦克风检测到的信息承载语音信号。
[0008] 因此,抑制声学噪声要求选择性地衰减被确定为或被认为是不需要或不希望的、 非信息承载信号的音频信号。不幸的是,许多声学噪声是不连续的并且可能难以抑制。
[0009] 如这里使用的,术语"频带受限"指代如下信号:其功率谱密度在特定的、预先确定 的频率上为零或被"切断"。对于包括蜂窝和有线两者的大多数电信系统,该预先确定的频 率是8千赫兹(8KHz )。
[0010] 图1是单个、清洁、频带受限音频信号100 (诸如话音或语音)的短时段的描绘,该 信号100随时间t变化。为了清晰和简化的目的,仅示出了对应于一个信号的一个波形。如 本领域普通技术人员知道的,音频信号100在以毫秒度量的短时间段上是稍微"突发"的。 信号100因此固有地包括短时间段102,在其期间音频信号消失。
[0011] 图1中描绘的信号100在幅度上随时间变化。因此,包括沉默或安静时段102的 信号100被本领域普通技术人员称为是时域中的信号。
[0012] 图2描绘了几百毫秒的声学噪声信号200。不同于图1中所示的音频信号100,噪 声信号200被描绘成在图2中描绘的至少几百毫秒上基本上恒定。然而,噪声信号200可 以在长时间段上是恒定的,如在噪声信号来自风噪声、道路噪声等的情况中将发生的那样。
[0013] 如公知的那样,在机动车辆中,语音和噪声通常是共存的,也即是说,当语音信号 100和声学噪声信号200同时由相同麦克风检测到时,如在人们正在使用车辆中的麦克风 同时车辆正在驾驶员的窗户打开情况下以相对较高的速度向前移动的情况中发生的噪声 200和语音100,麦克风将把语音和噪声添加到一起。
[0014] 图3是当图2中所示的噪声信号200被添加到语音时图1的语音信号100的简化 描绘,如在麦克风转化语音信号100和声学背景噪声200两者时发生的。如图3中所示的, 产生的信号300是"有噪声的"、频带受限的音频信号300,其是清洁的、频带受限的音频信 号102 (诸如图1中所示的那个)和声学噪声信号104 (诸如图2中所示的那个)的组合。 噪声信号200可以被看出已被"添加"到清洁语音信号100。还要注意,在图3中,相对安静 时间段102或语音沉默时间段102被"填充"有背景噪声200。在图3中,由参考数字302 标识的时间段示出图2中所示的背景噪声信号占据图1中所示信号的另外安静时段102的 地点。
[0015] 由包括蜂窝系统的大多数电信系统提供的话音或音频通信实际上通过传输和接 收表示时变或模拟信号(诸如图1和2中所示的那些)的数字数据来提供。把模拟信号转换 为数字形式的过程是公知的,并且要求以如下速率采样频带受限信号:该速率是频带受限 信号中存在的最高频率的至少两倍或双倍。一旦取得了模拟信号的样本,该样本就被转换 为表示样本的数字值或"字"。表示模拟信号的样本的数字值被传输到一目的地,在该目的 地数字值被用于重新创建原始样本从其取得的模拟信号的样本。重新创建的样本然后被用 于在目的地重新创建原始模拟信号。
[0016] 图4描绘图3中所示的有噪声的、频带受限的音频信号300的样本400。有噪声信 号300的一些样本404将仅是被麦克风"添加"的声学噪声200的样本。其它样本403将 表示信息承载音频信号100和噪声200。
[0017] 不管样本400表示清洁信号100和噪声200还是仅表示噪声200,所有样本400都 被转换为二进制值以用于传输到目的地。然而,如下面阐述的,如果归因于噪声200的有噪 声信号300的各分量被抑制,则包括有噪声信号300的至少一些噪声200可以被抑制或移 除。因此,希望识别或确定有噪声信号的样本实际上表示或至少可能表示信号100还是噪 声 200。
[0018] 术语"快速傅里叶变换(FFT)"指代数字信号处理领域中普通技术人员公知的过 程,通过该过程,时域信号(包括数字信号)可以被转换到频域。换句话说,FFT提供如下方 法:通过该方法,时域信号被使用许多不同频率的个体信号的集合以数学方式表示,当这些 个体信号