一种声纹识别方法和装置的制造方法

文档序号:10727062阅读:467来源:国知局
一种声纹识别方法和装置的制造方法
【专利摘要】本发明实施例公开了一种声纹识别方法和装置,其中所述方法包括:获取验证用户朗读第一字符串所产生的验证语音信息;对所述验证语音信息进行语音识别得到所述验证语音信息中包含的分别与所述第一字符串中的多个字符对应的语音片段;提取各个字符对应的语音片段的声纹特征;根据所述各个字符对应的语音片段的声纹特征,结合预设的相应字符对应的通用背景模型训练得到验证语音信息中各个字符对应的特征向量;计算验证语音信息中各个字符对应的特征向量与预设的注册语音信息中相应字符对应的特征向量的相似度分数,若所述相似度分数达到预设验证门限,则将所述验证用户确定为所述注册语音信息对应的注册用户。采用本发明,可有效提高声纹识别准确率。
【专利说明】
一种声纹识别方法和装置
技术领域
[0001] 本发明涉及声音识别技术领域,尤其涉及一种声纹识别方法和装置。
【背景技术】
[0002] 声纹识别作为一种生物信息识别的方法,包括用户注册和用户身份识别两个阶 段。注册阶段将语音通过一系列处理映射为用户模型。在识别阶段对于一段身份未知的语 音,与模型进行相似度的匹配,进而对未知语音的身份与注册语音的身份是否一致进行判 断。现有的声纹建模方法通常是从文本无关的层面进行建模以实现对说话人身份特征的描 述,但是文本无关的建模方式在用户朗读不同内容时,识别准确率较低,难以满足要求。

【发明内容】

[0003] 有鉴于此,本发明实施例提供一种声纹识别方法和装置,可有效提高声纹识别准 确率。
[0004] 为了解决上述技术问题,本发明实施例提供了一种声纹识别方法,所述方法包括:
[0005] 获取验证用户朗读第一字符串所产生的验证语音信息;
[0006] 对所述验证语音信息进行语音识别得到所述验证语音信息中包含的分别与所述 第一字符串中的多个字符对应的语音片段;
[0007] 提取各个字符对应的语音片段的声纹特征;
[0008] 根据所述各个字符对应的语音片段的声纹特征,结合预设的相应字符对应的通用 背景模型训练得到验证语音信息中各个字符对应的特征向量;
[0009] 计算验证语音信息中各个字符对应的特征向量与预设的注册语音信息中相应字 符对应的特征向量的相似度分数,若所述相似度分数达到预设验证门限,则将所述验证用 户确定为所述注册语音信息对应的注册用户。
[0010] 相应地,本发明实施例还提供了一种声纹识别装置,所述装置包括:
[0011] 语音获取模块,用于获取验证用户朗读第一字符串所产生的验证语音信息;
[0012] 语音片段识别模块,用于对所述验证语音信息进行语音识别得到所述验证语音信 息中包含的分别与所述第一字符串中的多个字符对应的语音片段;
[0013] 声纹特征提取模块,用于提取验证语音信息中各个字符对应的语音片段的声纹特 征;
[0014] 特征模型训练模块,用于根据所述各个字符对应的语音片段的声纹特征,结合预 设的相应字符对应的通用背景模型训练得到验证语音信息中各个字符对应的特征向量;
[0015] 相似度判断模块,用于计算验证语音信息中各个字符对应的特征向量与预设的注 册语音信息中相应字符对应的特征向量的相似度分数;
[0016] 用户识别模块,用于若所述相似度分数达到预设验证门限,则将所述验证用户确 定为所述注册语音信息对应的注册用户。
[0017] 本实施例通过获取验证用户的验证语音信息中各个字符对应的语音片段的声纹 特征,结合预设的相应字符的UBM训练得到验证语音信息中各个字符对应的特征向量,并通 过将验证语音信息中各个字符对应的特征向量与注册语音信息中相应字符的特征向量进 行相似度比较,从而确定验证用户的的用户身份,该方式用以比较的用户特征向量与具体 字符对应,充分考虑到用户朗读不同字符时的声纹特征,从而可有效提高声纹识别准确率。
【附图说明】
[0018] 为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现 有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本 发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以 根据这些附图获得其他的附图。
[0019] 图1是本发明实施例中的声纹识别方法的阶段概述示意图;
[0020] 图2是本发明实施例中的一种声纹识别方法的流程示意图;
[0021] 图3是本发明实施例中从语音信息中识别得到多个字符对应的语音片段的原理示 意图;
[0022] 图4是本发明实施例中从语音信息中获取各个字符对应的特征向量的原理示意 图;
[0023] 图5是本发明实施例中注册用户的声纹注册流程示意图;
[0024] 图6是本发明另一实施例中的声纹识别方法的流程示意图;
[0025] 图7是本发明实施例中的一种声纹识别装置的结构示意图;
[0026] 图8是本发明实施例中的语音片段识别模块的结构示意图。
【具体实施方式】
[0027] 下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完 整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于 本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他 实施例,都属于本发明保护的范围。
[0028] 本发明实施例提供了一种声纹识别方法及装置。该声纹识别方法及装置可应用于 所有需要识别未知用户身份的场景或设备中。用于进行声纹识别的字符串中的字符可以是 阿拉伯数字、英文字母或其他语言字符等。为了简化描述,本发明实施例中的字符以阿拉伯 数字为例进行举例说明。
[0029] 本发明实施例中的声纹识别方法可以分为两个阶段,如图1所示:
[0030] 1)注册用户的声纹注册阶段
[0031] 在声纹注册阶段,注册用户可以朗读一个注册字符串(即后文出现的第二字符 串),声纹识别装置采集该注册用户在朗读该注册字符串时的注册语音信息,然后对注册语 音信息进行声音识别得到所述注册语音信息中包含的分别与所述注册字符串中的多个字 符对应的语音片段,进而对各个字符对应的语音片段进行声纹特征提取和声纹模型训练, 包括根据所述各个字符对应的语音片段的声纹特征,结合预设的相应字符对应的通用背景 模型(Universal Background Model,UBM,即GMM-UBM)训练得到注册语音信息中各个字符 对应的特征向量,然后声纹识别装置可以分别为不同的注册用户将其在声纹注册阶段朗读 的注册语音信息中的多个字符对应的特征向量保存在声纹识别装置的模型库中。
[0032]比如,注册字符串是数字字符串0185851,包含了四种数字"0"、"Γ、"5"、"8",则声 纹识别装置根据注册语音信息中各个字符对应的语音片段进行声纹特征提取和声纹模型 训练,得到"〇"、"Γ、"5"、"8"对应的语音片段的声纹特征,进而结合预设的相应字符对应的 UBM训练得到注册语音信息中各个字符对应的特征向量,包括与数字"0"对应的特征向量、 与数字"Γ对应的特征向量、与数字"5"对应的特征向量以及与数字"8"对应的特征向量。 [0033] 2)验证用户的身份识别阶段
[0034]在身份识别阶段,验证用户即未知身份的用户朗读一个验证字符串(即后文出现 的第一字符串,所述第二字符串与所述第一字符串拥有至少一个相同的字符),声纹识别装 置采集该验证用户在朗读该验证字符串时的验证语音信息,然后对验证语音信息进行声音 识别得到所述验证语音信息中包含的分别与所述验证字符串中的多个字符对应的语音片 段,进而对各个字符对应的语音片段进行声纹特征提取和声纹模型训练,包括根据所述各 个字符对应的语音片段的声纹特征,结合预设的相应字符对应的UBM训练得到验证语音信 息中各个字符对应的特征向量,最后计算验证语音信息中各个字符对应的特征向量与预设 的注册语音信息中相应字符对应的特征向量的相似度分数,若所述相似度分数达到预设验 证门限,则将所述验证用户确定为所述注册语音信息对应的注册用户。
[0035]比如,验证字符串为数字字符串85851510,则声纹识别装置根据验证用户朗读时 产生的验证语音信息中各个字符对应的语音片段进行声纹特征提取和声纹模型训练,得到 "0"、"Γ、"5"、"8"对应的GMM,进而结合预设的相应字符对应的UBM可以计算得到验证用户 的验证语音信息的特征向量,包括与数字"0"对应的特征向量、与数字"Γ对应的特征向量、 与数字"5"对应的特征向量以及与数字"8"对应的特征向量,进而分别计算验证语音信息中 的"0"、"Γ、"5"、"8"对应的特征向量分别与注册语音信息中的"0"、"Γ、"5"、"8"对应的特 征向量之间的相似度分数,若所述相似度分数达到预设验证门限,则将所述验证用户确定 为所述注册语音信息对应的注册用户。
[0036] 需要指出的是,上述注册用户的声纹注册阶段和验证用户的身份识别阶段可以在 同一设备或装置中实现,也可以分别在不同的设备或装置中实现,例如注册用户的声纹注 册阶段在第一设备中实施,进而第一设备将注册语音信息中的多个字符对应的特征向量发 送给第二设备,从而可以在第二设备中实施验证用户的身份识别阶段。
[0037] 下面通过具体实施例分别对上述两个过程进行详细阐述。
[0038] 图2是本发明实施例中的一种声纹识别方法的流程示意图,如图所示本实施例中 的声纹识别方法流程可以包括:
[0039] S201,获取验证用户朗读第一字符串所产生的验证语音信息。
[0040]所述验证用户即未知身份的用户,需要通过声纹识别装置验证其用户身份。所述 第一字符串是用于验证用户进行身份验证的字符串,可以是随机生成的,也可以是预设固 定的一个字符串,例如与预先生成的注册语音信息对应的第二字符串至少部分相同的一个 字符串。具体的,所述字符串可以包含m个字符,其中有η个互不相同的字符,m,n均为正整 数,且m^n。
[0041 ]比如,第一字符串是"12358948",共8个字符,包括了7种互不相同的字符"Γ、"2"、 ??β?? "4,,"5,,"8,,"9,,
[0042]在可选实施例中,声纹识别装置可以生成并显示所述第一字符串,让验证用户根 据显示的所述第一字符串进行朗读。
[0043] S202,对所述验证语音信息进行语音识别得到所述验证语音信息中包含的分别与 所述第一字符串中的多个字符对应的语音片段。
[0044] 如图3所示,声纹识别装置可以通过语音识别以及声音强度过滤,将所述验证语音 信息划分得到多个字符对应的语音片段,可选的还可以将无效语音片段剔除掉,不参与后 续的处理过程。
[0045] S203,提取各个字符对应的语音片段的声纹特征。
[0046]具体的,声纹识别装置可以提取各个字符对应的语音片段中的MF C C (M e 1 Frequency Cepstrum Coefficient,梅尔倒谱系数)或 PLP(Perceptual Linear Predictive,感知线性预测系数),作为各个字符所对应的语音片段的声纹特征。
[0047] S204,根据所述各个字符对应的语音片段的声纹特征,结合预设的相应字符对应 的通用背景模型训练得到验证语音信息中各个字符对应的特征向量;
[0048]本发明实施例中的所述通用背景模型UBM,是一种将大量说话人的特定数字的语 音段混合训练而成的混合高斯模型,表征对应数字的语音在特征空间中的分布,又由于训 练数据来源于大量的说话人,因此它不表征某一类具体的说话人,具有身份无关的特性,可 看作是一种通用背景模型。示意性的,可以采用说话人数大于1000人、时长超过20小时的语 音样本,并且各个字符的出现频率相对均衡,训练得到UBMWBM的数学表达式为:
[0049] P(x) = Ei=i---caiN(x|yi, Σ?)............式(1)
[0050] 其中,Ρ (X)代表UBM的概率分布,C代表UBM中共有C个高斯模块,进行加和,ai代表 第i个高斯模块的权重,w代表第i个高斯模块的均值,Σ:代表第i个高斯模块的方差,N(x) 代表高斯分布,X代表输入的样本,样本也即声纹特征。
[0051] 声纹识别装置可以将验证语音信息中各个字符对应的语音片段的声纹特征作为 训练样本数据,采用最大后验概率算法(Maximum A Posteriori,MAP)对预设的相应字符对 应的通用背景模型的参数进行调整,即在将验证语音信息中各个字符对应的语音片段的声 纹特征作为输入样本代入式(1)后,通过不断调整预设的相应字符对应的通用背景模型的 参数,使得后验概率P(x)最大,从而可以根据使得后验概率P(x)最大的参数确定验证语音 信息中相应字符对应的特征向量。
[0052]由于大量的实验和论文验证了 UBM模型中每个高斯模块的均值可以用于区分说话 人的身份信息,我们定义UBM模型的均值超向量为:
[0054] 从而,声纹识别装置可以将验证语音信息中各个字符对应的语音片段的声纹特征 作为训练样本数据,采用最大后验概率算法(Maximum A Posteriori,MAP)对预设的相应字 符对应的通用背景模型的均值超向量进行调整,即在将验证语音信息中各个字符对应的语 音片段的声纹特征作为输入样本代入式(1)后,通过不断调整均值超向量,使得后验概率P (X)最大,从而可以将使得后验概率P(x)最大的均值超向量作为验证语音信息中相应字符 对应的特征向量。
[0055] 在另一可选实施例中,为了降低超向量的高维度带来的收敛速度慢的问题,我们 通过基于概率的主成分分析方法(PPCA,probabilistic principal component analysis) 将均值超向量的变化范围限制在一个子空间中,声纹识别装置可以将验证语音信息中各个 字符对应的语音片段的声纹特征作为训练样本数据,采用最大后验概率算法对预设的相应 字符对应的通用背景模型的均值超向量进行调整,并结合预设的超向量子空间矩阵从而得 到验证语音信息中各个字符对应的特征向量。具体实现中,可以采用下式对预设的相应字 符对应的通用背景模型的均值超向量进行调整,使得调整后的相应字符对应的通用背景模 型的后验概率最大:
[0056] Μ = πι+Τω,其中Μ代表调整后的某个字符的通用背景模型的均值超向量,m代表调 整前的相应字符的通用背景模型的均值超向量,T为预设的超向量子空间矩阵,ω即为验证 语音信息中相应字符对应的特征向量,即在将验证语音信息中各个字符对应的语音片段的 声纹特征作为输入样本代入式(1)后,通过不断调整ω可以实现调整式(1)中的均值超向 量,使得后验概率P(x)最大,从而可以将使得后验概率P(x)最大的ω作为验证语音信息中 相应字符对应的特征向量。所述超向量子空间矩阵Τ为根据所述高斯混合模型的均值超向 量中各个维度向量之间的相关性确定得到的。
[0057] S205,计算验证语音信息中各个字符对应的特征向量与预设的注册语音信息中相 应字符对应的特征向量的相似度分数,若所述相似度分数达到预设验证门限,则将所述验 证用户确定为所述注册语音信息对应的注册用户。
[0058] 具体的,声纹识别装置在可以在声纹注册阶段获取到注册用户的注册语音信息, 并通过与本实施例相类似的声纹特征提取和声纹模型训练,可以得到注册语音信息中各个 字符的语音片段对应的特征向量。所述注册语音信息,可以是声纹识别装置获取注册用户 朗读第二字符串所产生的注册语音信息,所述第二字符串与所述第一字符串拥有至少一个 相同的字符,即所述注册语音信息对应的第二字符串与所述第一字符串至少部分相同。进 而在可选实施例中,声纹识别装置还可以从外部获取所述注册语音信息中相应字符对应的 特征向量,即注册用户通过其他设备录入了注册语音信息后,其他设备或者服务器通过声 纹特征提取和声纹模型训练得到注册语音信息中各个字符的语音片段对应的特征向量,声 纹识别装置通过从其他设备或者服务器获取到所述注册语音信息中相应字符对应的特征 向量,从而在验证用户的身份识别阶段用以与验证语音信息中各个字符对应的特征向量进 行比较。
[0059] 具体实现中,所述相似度分数是声纹识别装置将验证语音信息中各个字符对应的 特征向量与预设的注册语音信息中相应字符对应的特征向量进行比较后,衡量相同字符的 两个特征向量之间的相似程度的分值。在可选实施例中,可以计算验证语音信息中各个字 符对应的特征向量与预设的注册语音信息中相应字符对应的特征向量之间的余弦距离值 作为所述相似度分数,即通过下式计算某个字符分别在验证语音信息中对应的特征向量和 注册语音信息中的特征向量之间的相似度分数:
[0061]其中,下标i表示第i个验证语音信息和注册语音信息中共有的字符,c^Uar)表 示该字符在验证语音信息中对应的特征向量,表示该字符在注册语音信息中对 应的特征向量。若验证语音信息和注册语音信息中包含多个相同的字符,则可以根据上式 计算得到的各个字符的相似度分数取均值,若各个字符的相似度分数均值达到对应的预设 验证门限,则将所述验证用户确定为所述注册语音信息对应的注册用户。若存在多位注册 用户,例如图1所示的注册用户A、B以及C,可以根据验证用户某个字符的特征向量与各个注 册用户的相应字符的特征向量的相似度,当某个注册用户的相应字符的特征向量与验证语 音的该字符的特征向量的相似度分数最高且相似度达到预设验证门限,则将该注册用户作 为验证用户的身份识别结果。
[0062]在可选实施例中,若所述验证语音信息中存在同一字符出现不止一次,例如出现 如图2所示的验证语音信息中0、1、5以及8分别都出现了2次,那么可以按照两次字符0对应 的语音片段处理得到的特征向量分别与预设的注册语音信息中字符〇的特征向量的相似度 分数的平均值,作为本次验证语音信息中字符〇的特征向量与预设的注册语音信息中字符〇 的特征向量的相似度分数,以此类推。
[0063]需要指出的是,衡量两个特征向量之间的相似度的方式还有很多,以上仅是本发 明提供的一种实施方式,本领域技术人员在本发明公开的方案的基础上可以无需创造性劳 动地获得更多的计算验证语音信息和注册语音信息中共有的字符的特征向量的相似度分 数的方式,本发明无需穷举。
[0064]从而,本实施例通过获取验证用户的验证语音信息中各个字符对应的语音片段的 声纹特征,结合预设的相应字符的UBM训练得到验证语音信息中各个字符对应的特征向量, 并通过将验证语音信息中各个字符对应的特征向量与注册语音信息中相应字符的特征向 量进行相似度比较,从而确定验证用户的的用户身份,该方式用以比较的用户特征向量与 具体字符对应,充分考虑到用户朗读不同字符时的声纹特征,从而可有效提高声纹识别准 确率。
[0065]图5是本发明实施例中注册用户的声纹注册流程示意图,如图所示本实施例中的 声纹注册流程可以包括:
[0066] S501,获取注册用户朗读第二字符串所产生的注册语音信息,所述第二字符串与 所述第一字符串拥有至少一个相同的字符。
[0067] 所述注册用户即确定合法身份的用户,所述第二字符串是用于采集注册用户声纹 特征向量的字符串,可以是随机生成的,也可以是预设固定的一个字符串。具体的,所述第 二字符串也可以包含m个字符,其中有η个互不相同的字符,m,n均为正整数,且m彡η。
[0068] 在可选实施例中,声纹识别装置可以生成并显示所述第二字符串,让注册用户根 据显示的所述第二字符串进行朗读。
[0069] S502,对所述注册语音信息进行语音识别得到所述注册语音信息中包含的分别与 所述第二字符串中的多个字符对应的语音片段;
[0070] 声纹识别装置可以通过语音识别以及声音强度过滤,将所述验证语音信息划分得 到多个字符对应的语音片段,可选的还可以将无效语音片段剔除掉,不参与后续的处理过 程。
[0071] S503,提取注册语音信息中各个字符对应的语音片段的声纹特征。
[0072] 具体的,声纹识别装置可以提取各个字符对应的语音片段中的M F C C (M e 1 Frequency Cepstrum Coefficient,梅尔倒谱系数)或 PLP(Perceptual Linear Predictive,感知线性预测系数),作为各个字符所对应的语音片段的声纹特征。
[0073] S504,根据注册语音信息中各个字符对应的语音片段的声纹特征,结合预设的相 应字符对应的通用背景模型训练得到注册语音信息中各个字符对应的特征向量。
[0074] UBM的表达式可以参考前文实施例。声纹注册流程的该步骤与声纹识别流程的 S204类似,声纹识别装置可以将注册语音信息中各个字符对应的语音片段的声纹特征作为 训练样本数据,采用最大后验概率算法(Maximum A Posteriori,MAP)对预设的相应字符对 应的通用背景模型的参数进行调整,即在将注册语音信息中各个字符对应的语音片段的声 纹特征作为输入样本代入式(1)后,通过不断调整预设的相应字符对应的通用背景模型的 参数,使得后验概率P(x)最大,从而可以根据使得后验概率P(x)最大的参数确定注册语音 信息中相应字符对应的特征向量。
[0075] 而由于UBM模型中每个高斯模块的均值可以用于区分说话人的身份信息,声纹识 别装置可以将注册语音信息中各个字符对应的语音片段的声纹特征作为训练样本数据,采 用最大后验概率算法(Maximum A Posteriori,MAP)对预设的相应字符对应的通用背景模 型的均值超向量进行调整,即在将注册语音信息中各个字符对应的语音片段的声纹特征作 为输入样本代入式(1)后,通过不断调整均值超向量,使得后验概率P(x)最大,从而可以将 使得后验概率P(x)最大的均值超向量作为注册语音信息中相应字符对应的特征向量。
[0076] 在另一可选实施例中,可以采用下式对预设的相应字符对应的通用背景模型的均 值超向量进行调整,使得调整后的相应字符对应的通用背景模型的后验概率最大:
[0077] Μ = πι+Τω,其中Μ代表调整后的某个字符的通用背景模型的均值超向量,m代表调 整前的相应字符的通用背景模型的均值超向量,T为预设的超向量子空间矩阵,ω即为注册 语音信息中相应字符对应的特征向量,即在将注册语音信息中各个字符对应的语音片段的 声纹特征作为输入样本代入式(1)后,通过不断调整ω可以实现调整式(1)中的均值超向 量,使得后验概率P(x)最大,从而可以将使得后验概率P(x)最大的ω作为注册语音信息中 相应字符对应的特征向量。
[0078] 图6是本发明另一实施例中的声纹识别方法的流程示意图,如图所示本实施例中 的声纹识别方法可以包括以下流程:
[0079] S601,随机生成第一字符串并进行显示。
[0080] S602,获取验证用户朗读第一字符串所产生的验证语音信息。
[0081 ] S603,识别所述验证语音信息中的有效语音片段和无效语音片段。
[0082] 具体的,可以根据声音强度对验证语音进行划分,将声音强度较小的语音片段视 为无效语音片段(例如包括静音段和脉冲噪声)。
[0083] S604,对所述有效语音片段进行语音识别得到分别与所述第一字符串中的多个字 符对应的语音片段。
[0084] 可以通过语音识别,得到分别与所述第一字符串中的多个字符对应的语音片段。
[0085] S605,确定所述验证语音信息中的多个字符的语音片段的排序与所述第一字符串 中的相应字符的排序一致。
[0086] 为了有效避免注册用户的语音信息被盗录或非法拷贝后用以进行声纹识别,可以 每次随机生成不同的第一字符串,并在本步骤判断验证语音信息中的多个字符的语音片段 的排序是否与第一字符串中的相应字符的排序一致,若不一致,则可以判断声纹识别失败, 若与第一字符串中的相应字符的排序一致,则执行后续流程。
[0087] S606,提取各个字符对应的语音片段的声纹特征。
[0088]具体的,声纹识别装置可以提取各个字符对应的语音片段中的MF C C (M e 1 Frequency Cepstrum Coefficient,梅尔倒谱系数)或 PLP(Perceptual Linear Predictive,感知线性预测系数),作为各个字符所对应的语音片段的声纹特征。
[0089] S607,将验证语音信息中各个字符对应的语音片段的声纹特征作为训练样本数 据,采用最大后验概率算法对预设的相应字符对应的通用背景模型的均值超向量进行调 整,从而估计得到验证语音信息中各个字符对应的特征向量。
[0090] 由于大量的实验和论文验证了 UBM模型中每个高斯模块的均值可以用于区分说话 人的身份信息,声纹识别装置可以将验证语音信息中各个字符对应的语音片段的声纹特征 作为训练样本数据,采用最大后验概率算法(Maximum A Posteriori,MAP)对预设的相应字 符对应的通用背景模型的均值超向量进行调整,即在将验证语音信息中各个字符对应的语 音片段的声纹特征作为输入样本代入式(1)后,通过不断调整均值超向量,使得后验概率P (X)最大,从而可以将使得后验概率P(x)最大的均值超向量作为验证语音信息中相应字符 对应的特征向量。
[0091] 在另一可选实施例中,为了降低超向量的高维度带来的收敛速度慢的问题,声纹 识别装置可以采用下式对预设的相应字符对应的通用背景模型的均值超向量进行调整,使 得调整后的相应字符对应的通用背景模型的后验概率最大:
[0092] Μ = πι+Τω,其中Μ代表调整后的某个字符的通用背景模型的均值超向量,m代表调 整前的相应字符的通用背景模型的均值超向量,T为预设的超向量子空间矩阵,ω即为验证 语音信息中相应字符对应的特征向量,即在将验证语音信息中各个字符对应的语音片段的 声纹特征作为输入样本代入式(1)后,通过不断调整ω可以实现调整式(1)中的均值超向 量,使得后验概率P(x)最大,从而可以将使得后验概率P(x)最大的ω作为验证语音信息中 相应字符对应的特征向量。
[0093] S608,计算验证语音信息中各个字符对应的特征向量与预设的注册语音信息中相 应字符对应的特征向量的相似度分数,若相似度分数达到预设验证门限,则将验证用户确 定为注册语音信息对应的注册用户。
[0094] 本实施例中,声纹识别装置可以计算验证语音信息中各个字符对应的特征向量与 预设的注册语音信息中相应字符对应的特征向量之间的余弦距离值作为所述相似度分数, 即通过下式计算某个字符分别在验证语音信息中对应的特征向量和注册语音信息中的特 征向量之间的相似度分数:
[0096] 其中,下标i表示第i个验证语音信息和注册语音信息中共有的字符,cojtar)表 示该字符在验证语音信息中对应的特征向量,表示该字符在注册语音信息中对 应的特征向量。若验证语音信息和注册语音信息中包含多个相同的字符,则可以根据上式 计算得到的各个字符的相似度分数取均值,若各个字符的相似度分数均值达到对应的预设 验证门限,则将所述验证用户确定为所述注册语音信息对应的注册用户。若存在多位注册 用户,例如图1所示的注册用户A、B以及C,可以根据验证用户某个字符的特征向量与各个注 册用户的相应字符的特征向量的相似度,当某个注册用户的相应字符的特征向量与验证语 音的该字符的特征向量的相似度分数最高且相似度达到预设验证门限,则将该注册用户作 为验证用户的身份识别结果。
[0097] 从而,本实施例通过将验证语音信息中各个字符对应的特征向量与注册语音信息 中相应字符的特征向量进行相似度比较,并且结合了语音片段的时序判断,可以进一步确 保验证用户的的用户身份的准确性。
[0098] 图7是本发明实施例中的一种声纹识别装置的结构示意图,如图所示本实施例中 的声纹识别装置可以包括:
[0099]语音获取模块710,用于获取验证用户朗读第一字符串所产生的验证语音信息。
[0100] 所述验证用户即未知身份的用户,需要通过声纹识别装置验证其用户身份。所述 第一字符串是用于验证用户进行身份验证的字符串,可以是随机生成的,也可以是预设固 定的一个字符串,例如与预先生成的注册语音信息对应的第二字符串至少部分相同的一个 字符串。具体的,所述字符串可以包含m个字符,其中有η个互不相同的字符,m,n均为正整 数,且m^n。
[0101] 比如,第一字符串是"12358948",共8个字符,包括了7种互不相同的字符"Γ、"2"、 ??β?? "4,,"5,,"8,,"9,,
[0102] 语音片段识别模块720,用于对所述验证语音信息进行语音识别得到所述验证语 音信息中包含的分别与所述第一字符串中的多个字符对应的语音片段。
[0103] 如图3所示,语音片段识别模块720可以通过语音识别以及声音强度过滤,将所述 验证语音信息划分得到多个字符对应的语音片段,可选的还可以将无效语音片段剔除掉, 不参与后续的处理过程。
[0104] 在可选实施例中,所述语音片段识别模块如图8所示进一步可以包括:
[0105]有效片段识别单元721,用于识别所述验证语音信息中的有效语音片段和无效语 首片段。
[0106] 具体的,有效片段识别单元721可以根据声音强度对验证语音进行划分,将声音强 度较小的语音片段视为无效语音片段(例如包括静音段和脉冲噪声)。
[0107] 语音识别单元722,用于对所述有效语音片段进行语音识别得到分别与所述第一 字符串中的多个字符对应的语音片段。
[0108] 声纹特征提取模块730,用于提取验证语音信息中各个字符对应的语音片段的声 纹特征。
[0109] 具体的,声纹特征提取模块730可以提取各个字符对应的语音片段中的MFCC(Mel Frequency Cepstrum Coefficient,梅尔倒谱系数)或 PLP(Perceptual Linear Predictive,感知线性预测系数),作为各个字符所对应的语音片段的声纹特征。
[0110] 特征模型训练模块740,用于根据所述各个字符对应的语音片段的声纹特征,结合 预设的相应字符对应的通用背景模型训练得到验证语音信息中各个字符对应的特征向量。
[0111] 特征模型训练模块740可以将验证语音信息中各个字符对应的语音片段的声纹特 征作为训练样本数据,采用最大后验概率算法(Maximum A Posteriori,MAP)对预设的相应 字符对应的通用背景模型的参数进行调整,即在将验证语音信息中各个字符对应的语音片 段的声纹特征作为输入样本代入式(1)后,通过不断调整预设的相应字符对应的通用背景 模型的参数,使得后验概率P(x)最大,从而特征模型训练模块740可以根据使得后验概率P (X)最大的参数确定验证语音信息中相应字符对应的特征向量。
[0112] 由于大量的实验和论文验证了 UBM模型中每个高斯模块的均值可以用于区分说话 人的身份信息,我们定义UBM模型的均值超向量为:
[0114] 从而,特征模型训练模块740可以将验证语音信息中各个字符对应的语音片段的 声纹特征作为训练样本数据,采用最大后验概率算法(Maximum A Posteriori,MAP)对预设 的相应字符对应的通用背景模型的均值超向量进行调整,即在将验证语音信息中各个字符 对应的语音片段的声纹特征作为输入样本代入式(1)后,通过不断调整均值超向量,使得后 验概率P( x)最大,特征模型训练模块740可以将使得后验概率P(x)最大的均值超向量作为 验证语音信息中相应字符对应的特征向量。
[0115] 在另一可选实施例中,为了降低超向量的高维度带来的收敛速度慢的问题,我们 通过基于概率的主成分分析方法(PPCA,probabilistic principal component analysis) 将均值超向量的变化范围限制在一个子空间中,特征模型训练模块740可以将验证语音信 息中各个字符对应的语音片段的声纹特征作为训练样本数据,采用最大后验概率算法对预 设的相应字符对应的通用背景模型的均值超向量进行调整,并结合预设的超向量子空间矩 阵从而得到验证语音信息中各个字符对应的特征向量。具体实现中,特征模型训练模块740 可以采用下式对预设的相应字符对应的通用背景模型的均值超向量进行调整,使得调整后 的相应字符对应的通用背景模型的后验概率最大:
[0116] Μ = πι+Τω,其中Μ代表调整后的某个字符的通用背景模型的均值超向量,m代表调 整前的相应字符的通用背景模型的均值超向量,T为预设的超向量子空间矩阵,ω即为验证 语音信息中相应字符对应的特征向量,即在将验证语音信息中各个字符对应的语音片段的 声纹特征作为输入样本代入式(1)后,通过不断调整ω可以实现调整式(1)中的均值超向 量,使得后验概率P(x)最大,从而可以将使得后验概率P(x)最大的ω作为验证语音信息中 相应字符对应的特征向量。所述超向量子空间矩阵Τ为根据所述高斯混合模型的均值超向 量中各个维度向量之间的相关性确定得到的。
[0117] 相似度判断模块750,用于计算验证语音信息中各个字符对应的特征向量与预设 的注册语音信息中相应字符对应的特征向量的相似度分数。
[0118] 具体的,声纹识别装置在可以在声纹注册阶段获取到注册用户的注册语音信息, 并通过语音片段识别模块720、声纹特征提取模块730以及特征模型训练模块740,可以得到 注册语音信息中各个字符的语音片段对应的特征向量。所述注册语音信息,可以是声纹识 别装置获取注册用户朗读第二字符串所产生的注册语音信息,所述第二字符串与所述第一 字符串拥有至少一个相同的字符,即所述注册语音信息对应的第二字符串与所述第一字符 串至少部分相同。进而在可选实施例中,声纹识别装置还可以从外部获取所述注册语音信 息中相应字符对应的特征向量,即注册用户通过其他设备录入了注册语音信息后,其他设 备或者服务器通过声纹特征提取和声纹模型训练得到注册语音信息中各个字符的语音片 段对应的特征向量,声纹识别装置通过从其他设备或者服务器获取到所述注册语音信息中 相应字符对应的特征向量,从而在验证用户的身份识别阶段相似度判断模块750用以与验 证语音信息中各个字符对应的特征向量进行比较。
[0119] 具体实现中,所述相似度分数是声纹识别装置将验证语音信息中各个字符对应的 特征向量与预设的注册语音信息中相应字符对应的特征向量进行比较后,衡量相同字符的 两个特征向量之间的相似程度的分值。在可选实施例中,相似度判断模块750可以计算验证 语音信息中各个字符对应的特征向量与预设的注册语音信息中相应字符对应的特征向量 之间的余弦距离值作为所述相似度分数,即通过下式计算某个字符分别在验证语音信息中 对应的特征向量和注册语音信息中的特征向量之间的相似度分数:
[0121] 其中,下标i表示第i个验证语音信息和注册语音信息中共有的字符,c^Uar)表 示该字符在验证语音信息中对应的特征向量,表示该字符在注册语音信息中对 应的特征向量。在可选实施例中,若所述验证语音信息中存在同一字符出现不止一次,例如 出现如图2所示的验证语音信息中0、1、5以及8分别都出现了 2次,那么可以按照两次字符0 对应的语音片段处理得到的特征向量分别与预设的注册语音信息中字符0的特征向量的相 似度分数的平均值,作为本次验证语音信息中字符〇的特征向量与预设的注册语音信息中 字符〇的特征向量的相似度分数,以此类推。
[0122] 需要指出的是,衡量两个特征向量之间的相似度的方式还有很多,以上仅是本发 明提供的一种实施方式,本领域技术人员在本发明公开的方案的基础上可以无需创造性劳 动地获得更多的计算验证语音信息和注册语音信息中共有的字符的特征向量的相似度分 数的方式,本发明无需穷举。
[0123] 用户识别模块760,用于若所述相似度分数达到预设验证门限,则将所述验证用户 确定为所述注册语音信息对应的注册用户。
[0124] 若验证语音信息和注册语音信息中包含多个相同的字符,则用户识别模块760可 以根据相似度判断模块750计算得到的各个字符的相似度分数取均值,若各个字符的相似 度分数均值达到对应的预设验证门限,则将所述验证用户确定为所述注册语音信息对应的 注册用户。若存在多位注册用户,例如图1所示的注册用户A、B以及C,用户识别模块760可以 根据验证用户某个字符的特征向量与各个注册用户的相应字符的特征向量的相似度,当某 个注册用户的相应字符的特征向量与验证语音的该字符的特征向量的相似度分数最高且 相似度达到预设验证门限,则将该注册用户作为验证用户的身份识别结果。
[0125] 进而在可选实施例中,所述语音获取模块710,还用于获取注册用户朗读第二字符 串所产生的注册语音信息,所述第二字符串与所述第一字符串拥有至少一个相同的字符;
[0126] 所述语音片段识别模块720,还用于对所述注册语音信息进行语音识别得到所述 注册语音信息中包含的分别与所述第二字符串中的多个字符对应的语音片段;
[0127] 所述声纹特征提取模块730,还用于提取注册语音信息中各个字符对应的语音片 段的声纹特征;
[0128] 所述特征模型训练模块740,还用于根据所述注册语音信息中各个字符对应的语 音片段的声纹特征,结合预设的相应字符对应的通用背景模型训练得到注册语音信息中各 个字符对应的特征向量。
[0129] 在可选实施例中,声纹识别装置进一步还可以包括:
[0130]字符排序确定模块770,用于确定所述验证语音信息中的多个字符的语音片段的 排序与所述第一字符串中的相应字符的排序一致。
[0131] 为了有效避免注册用户的语音信息被盗录或非法拷贝后用以进行声纹识别,可以 每次随机生成不同的第一字符串,并在本步骤判断验证语音信息中的多个字符的语音片段 的排序是否与第一字符串中的相应字符的排序一致,若不一致,则可以判断声纹识别失败, 若与第一字符串中的相应字符的排序一致,则可以通知声纹特征提取模块730或特征模型 训练模块740执行针对该验证语音信息的特征提取和声纹训练。
[0132] 在可选实施例中,声纹识别装置进一步还可以包括:
[0133] 字符串显示模块700,用于随机生成所述第一字符串并进行显示。
[0134] 从而,本实施例通过获取验证用户的验证语音信息中各个字符对应的语音片段的 声纹特征,结合预设的相应字符的UBM训练得到验证语音信息中各个字符对应的特征向量, 并通过将验证语音信息中各个字符对应的特征向量与注册语音信息中相应字符的特征向 量进行相似度比较,从而确定验证用户的的用户身份,该方式用以比较的用户特征向量与 具体字符对应,充分考虑到用户朗读不同字符时的声纹特征,从而可有效提高声纹识别准 确率。
[0135] 在实际测试实例中,在1000人训练样本,29万次测试中(其中身份匹配的测试在1 万次左右,不匹配测试约在28万次),能够实现千分之一错误率下79.8%的召回率,等错概 率(EER,Equal Error Rate)为3.39%,相较于传统的文本无关建模方法,声纹识别性能提 升超过40%以上。
[0136] 本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以 通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质 中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁 碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(Random Access Memory,RAM)等。
[0137] 以上所揭露的仅为本发明较佳实施例而已,当然不能以此来限定本发明之权利范 围,因此依本发明权利要求所作的等同变化,仍属本发明所涵盖的范围。
【主权项】
1. 一种声纹识别方法,其特征在于,所述方法包括: 获取验证用户朗读第一字符串所产生的验证语音信息; 对所述验证语音信息进行语音识别得到所述验证语音信息中包含的分别与所述第一 字符串中的多个字符对应的语音片段; 提取各个字符对应的语音片段的声纹特征; 根据所述各个字符对应的语音片段的声纹特征,结合预设的相应字符对应的通用背景 模型训练得到验证语音信息中各个字符对应的特征向量; 计算验证语音信息中各个字符对应的特征向量与预设的注册语音信息中相应字符对 应的特征向量的相似度分数,若所述相似度分数达到预设验证门限,则将所述验证用户确 定为所述注册语音信息对应的注册用户。2. 如权利要求1所述的声纹识别方法,其特征在于,所述获取验证用户朗读第一字符串 所产生的验证语音信息之前还包括: 获取注册用户朗读第二字符串所产生的注册语音信息,所述第二字符串与所述第一字 符串拥有至少一个相同的字符; 对所述注册语音信息进行语音识别得到所述注册语音信息中包含的分别与所述第二 字符串中的多个字符对应的语音片段; 提取注册语音信息中各个字符对应的语音片段的声纹特征; 根据注册语音信息中各个字符对应的语音片段的声纹特征,结合预设的相应字符对应 的通用背景模型训练得到注册语音信息中各个字符对应的特征向量。3. 如权利要求1所述的声纹识别方法,其特征在于,所述根据所述各个字符对应的语音 片段的声纹特征,结合预设的相应字符对应的通用背景模型训练得到验证语音信息中各个 字符对应的特征向量包括: 将验证语音信息中各个字符对应的语音片段的声纹特征作为训练样本数据,采用最大 后验概率算法对预设的相应字符对应的通用背景模型的均值超向量进行调整,从而估计得 到验证语音信息中各个字符对应的特征向量。4. 如权利要求3所述的声纹识别方法,其特征在于,所述将验证语音信息中各个字符对 应的语音片段的声纹特征作为训练样本数据,采用最大后验概率算法对预设的相应字符对 应的通用背景模型的均值超向量进行调整,从而估计得到验证语音信息中各个字符对应的 特征向量包括: 将验证语音信息中各个字符对应的语音片段的声纹特征作为训练样本数据,采用最大 后验概率算法对预设的相应字符对应的通用背景模型的均值超向量进行调整,并结合预设 的超向量子空间矩阵从而得到验证语音信息中各个字符对应的特征向量。5. 如权利要求4所述的声纹识别方法,其特征在于,所述将验证语音信息中各个字符对 应的语音片段的声纹特征作为训练样本数据,采用最大后验概率算法对预设的相应字符对 应的通用背景模型的均值超向量进行调整,并结合预设的超向量子空间矩阵从而得到验证 语音信息中各个字符对应的特征向量包括: 将验证语音信息中各个字符对应的语音片段的声纹特征作为训练样本数据,采用下式 对预设的相应字符对应的通用背景模型的均值超向量进行调整,使得调整后的相应字符对 应的通用背景模型的后验概率最大: M = m+Tc〇,其中Μ代表调整后的某个字符的通用背景模型的均值超向量,m代表调整前 的相应字符的通用背景模型的均值超向量,T为预设的超向量子空间矩阵,ω即为验证语音 信息中相应字符对应的特征向量。6. 如权利要求4所述的声纹识别方法,其特征在于,所述超向量子空间矩阵为根据所述 通用背景模型中各个高斯模块的权重之间的相关性确定得到的。7. 如权利要求1所述的声纹识别方法,其特征在于,所述计算验证语音信息中各个字符 对应的特征向量与预设的注册语音信息中相应字符对应的特征向量的相似度分数包括: 计算验证语音信息中各个字符对应的特征向量与预设的注册语音信息中相应字符对 应的特征向量之间的余弦距离值作为所述相似度分数。8. 如权利要求1所述的声纹识别方法,其特征在于,所述对所述验证语音信息进行语音 识别得到所述验证语音信息中包含的分别与所述第一字符串中的多个字符对应的语音片 段包括: 识别所述验证语音信息中的有效语音片段和无效语音片段; 对所述有效语音片段进行语音识别得到分别与所述第一字符串中的多个字符对应的 语音片段。9. 如权利要求1所述的声纹识别方法,其特征在于,所述将所述验证用户确定为所述注 册语音信息对应的注册用户之前还包括: 确定所述验证语音信息中的多个字符的语音片段的排序与所述第一字符串中的相应 字符的排序一致。10. 如权利要求1-9中任一项所述的声纹识别方法,其特征在于,所述获取验证用户朗 读第一字符串所产生的验证语音信息之前还包括: 随机生成所述第一字符串并进行显示。11. 一种声纹识别装置,其特征在于,所述装置包括: 语音获取模块,用于获取验证用户朗读第一字符串所产生的验证语音信息; 语音片段识别模块,用于对所述验证语音信息进行语音识别得到所述验证语音信息中 包含的分别与所述第一字符串中的多个字符对应的语音片段; 声纹特征提取模块,用于提取验证语音信息中各个字符对应的语音片段的声纹特征; 特征模型训练模块,用于根据所述各个字符对应的语音片段的声纹特征,结合预设的 相应字符对应的通用背景模型训练得到验证语音信息中各个字符对应的特征向量; 相似度判断模块,用于计算验证语音信息中各个字符对应的特征向量与预设的注册语 音信息中相应字符对应的特征向量的相似度分数; 用户识别模块,用于若所述相似度分数达到预设验证门限,则将所述验证用户确定为 所述注册语音信息对应的注册用户。12. 如权利要求11所述的声纹识别装置,其特征在于, 所述语音获取模块,还用于获取注册用户朗读第二字符串所产生的注册语音信息,所 述第二字符串与所述第一字符串拥有至少一个相同的字符; 所述语音片段识别模块,还用于对所述注册语音信息进行语音识别得到所述注册语音 信息中包含的分别与所述第二字符串中的多个字符对应的语音片段; 所述声纹特征提取模块,还用于提取注册语音信息中各个字符对应的语音片段的声纹 特征; 所述特征模型训练模块,还用于根据所述注册语音信息中各个字符对应的语音片段的 声纹特征,结合预设的相应字符对应的通用背景模型训练得到注册语音信息中各个字符对 应的特征向量。13. 如权利要求11所述的声纹识别装置,其特征在于,所述特征向量计算模块用于: 将验证语音信息中各个字符对应的语音片段的声纹特征作为训练样本数据,采用最大 后验概率算法对预设的相应字符对应的通用背景模型的均值超向量进行调整,从而估计得 到验证语音信息中各个字符对应的特征向量。14. 如权利要求13所述的声纹识别装置,其特征在于,所述特征向量计算模块用于: 将验证语音信息中各个字符对应的语音片段的声纹特征作为训练样本数据,采用最大 后验概率算法对预设的相应字符对应的通用背景模型的均值超向量进行调整,并结合预设 的超向量子空间矩阵从而得到验证语音信息中各个字符对应的特征向量。15. 如权利要求14所述的声纹识别装置,其特征在于,所述特征向量计算模块具体用 于: 将验证语音信息中各个字符对应的语音片段的声纹特征作为训练样本数据,采用下式 对预设的相应字符对应的通用背景模型的均值超向量进行调整,使得调整后的相应字符对 应的通用背景模型的后验概率最大: M = m+Tc〇,其中Μ代表调整后的某个字符的通用背景模型的均值超向量,m代表调整前 的相应字符的通用背景模型的均值超向量,T为预设的超向量子空间矩阵,ω即为验证语音 信息中相应字符对应的特征向量。16. 如权利要求14所述的声纹识别装置,其特征在于,所述超向量子空间矩阵为根据所 述高斯混合模型的均值超向量中各个维度向量之间的相关性确定得到的。17. 如权利要求11所述的声纹识别装置,其特征在于,所述相似度判断模块用于: 计算验证语音信息中各个字符对应的特征向量与预设的注册语音信息中相应字符对 应的特征向量之间的余弦距离值作为所述相似度分数。18. 如权利要求11所述的声纹识别装置,其特征在于,所述语音片段识别模块包括: 有效片段识别单元,用于识别所述验证语音信息中的有效语音片段和无效语音片段; 语音识别单元,用于对所述有效语音片段进行语音识别得到分别与所述第一字符串中 的多个字符对应的语音片段。19. 如权利要求11所述的声纹识别装置,其特征在于,还包括: 字符排序确定模块,用于确定所述验证语音信息中的多个字符的语音片段的排序与所 述第一字符串中的相应字符的排序一致。20. 如权利要求11-19中任一项所述的声纹识别装置,其特征在于,还包括: 字符串显示模块,用于随机生成所述第一字符串并进行显示。
【文档编号】G10L17/04GK106098068SQ201610416650
【公开日】2016年11月9日
【申请日】2016年6月12日 公开号201610416650.3, CN 106098068 A, CN 106098068A, CN 201610416650, CN-A-106098068, CN106098068 A, CN106098068A, CN201610416650, CN201610416650.3
【发明人】李为, 钱柄桦, 金星明, 李科, 吴富章, 吴永坚, 黄飞跃
【申请人】腾讯科技(深圳)有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1