一种基于声效模式检测的语音识别方法

文档序号:10657696阅读:664来源:国知局
一种基于声效模式检测的语音识别方法
【专利摘要】本发明公开了一种基于声效模式检测的语音识别方法。该方法包括如下步骤:接收语音信号;检测所述语音信号的声效模式;从预置的声学模型集中选择所述声效模式对应的声学模型子集;根据所述声学模型子集对所述语音信号进行解码。
【专利说明】
-种基于声效模式检测的语音识别方法
技术领域
[0001] 本发明设及语音识别领域,特别设及一种基于声效模式检测的语音识别方法。
【背景技术】
[0002] 声音效果(Vocal Effort)简称声效,是正常人的一种发音变化的衡量,而运种发 音变化是人出于正常交流的需要,根据交流时双方距离的远近或背景噪声的高低自动调整 发音方式所产生的。通常将声效由低到高分为五个量级/模式:耳语、轻声、正常、大声、高 喊。在现实的环境中,人们不可能一直都在同一种声效水平下交流:在图书馆或者自习室里 需要通过耳语的方式交流;在吵杂的场合需要大声说话对方才能听见;而在增杂的工厂车 间可能就需要通过高喊的方式才能够交流。
[0003] 近年来语音识别技术已进入实用的阶段,并取得很好的效果。但是目前的语音识 别技术主要还是针对正常声音效果下的语音信号。而声效模式的改变使得语音信号的声学 特性发生了变化,因此正常声效模式的语音识别系统在识别其它四种声效模式(特别是耳 语模式)的语音信号时识别精度会有较大幅度的下降。

【发明内容】

[0004] 本发明的目的在于针对现有技术中的语音识别方法在识别其它四种声效模式的 语音信号时精度不高的缺陷,提出一种基于声效模式检测的语音识别方法,首先检测语音 信号所属的声效模式,然后根据检测结果选择相对应的声学模型集合来完成对该语音信号 的解码工作,从而提高了识别所有声效模式的语音信号时的精度。
[0005] 本发明公开了一种基于声效模式检测的语音识别方法,其具体包括W下步骤:
[0006] 步骤1、接收语音信号;
[0007] 步骤2、检测所述语音信号的声效模式;
[000引步骤3、从预置的声学模型集中选择所述声效模式对应的声学模型子集;
[0009] 步骤4、根据所述声学模型子集对所述语音信号进行解码。
[0010] 上述技术方案中,步骤4中预置的声学模型集共包含了5个声学模型子集,每个声 学模型子集分别对应一种声效模式,而每一个声学模型子集在训练时使用的是对应声效模 式的语料库,运样每个声学模型子集中的声学模型能很好地拟合其对应声效模式语音的声 学特性。因此,在识别时先检测出语音信号的声效模式,再利用对应的声学模型子集来进行 解码,就可W有效地提高识别的精度。
【附图说明】
[0011] 图1是根据本发明的一种基于声效模式检测的语音识别方法的流程图;
[0012] 图2是根据本发明的一个检测语音信号的声效模式的流程图。
【具体实施方式】
[0013] 为使本发明的目的、技术方案和优点更加清楚明白,W下结合具体实施例,并参照 附图,对本发明进一步详细说明。
[0014] 图1为根据本发明的一种基于声效模式检测的语音识别方法的流程图。其中,待识 别的语音信号为连续语音,对应一个语句。
[0015] 如图1所示,所述基于声效模式检测的语音识别方法包括如下步骤:
[0016] 步骤101:接收语音信号;
[0017] 步骤102:检测所述语音信号的声效模式;
[0018] 步骤103:从预置的声学模型集中选择所述声效模式对应的声学模型子集,其中预 置的声学模型集共包含5个声学模型子集,分别对应耳语、轻声、正常、大声、高喊运5种声效 模式,每一个声学模型子集在训练时使用的是对应声效模式的语料库;
[0019] 步骤104:根据所述声学模型子集对所述语音信号进行解码,解码时使用维特比算 法。
[0020] 其中,在步骤102中,检测所述语音信号的声效模式具体分为W下几个步骤,如图2 所示:
[0021] 步骤1021、提取语音信号的声强级、帖能量均值和频谱倾斜均值;
[0022] 步骤1022、根据声强级、帖能量均值和频谱倾斜均值判断语音信号的声效模式是 否为耳语,如果是耳语则执行步骤103,否则执行步骤1023;
[0023] 步骤1023、检测语音信号中的元音,生成元音集合;
[0024] 步骤1024、将元音集合分别与四种候选声效模式进行语谱匹配,生成每一个候选 声效模式的匹配值;其中,所述四种候选声效模式分别为轻声、正常、大声和高喊。
[0025] 例如:对于一句话"我和你一起去上课",在步骤1023中检测运句话对应的语音信 号中包含的元音,生成元音集合:{〇、e、i、i、i、u、ang、e},然后通过如下公式分别计算每一 个候选声效模式与该元音集合的匹配值:
[0026]
[0027]其中,VE表示一种候选声效模式,假如为高喊,则Mve表示高喊声效模式的匹配值, 乂361:表示元音集合{〇、6、;[、;[、;[、11、曰]1旨、6},¥表示所述元音集合¥361:中的某个元音,假如当 前V的值具体为元音集合Vset中的第一个元音'0',D(v,VE)表示反映元音'0'与高喊声效模式 之间语谱差异程度的元音谱距离。
[002引D(v,ve)的计算过程具体如下:
[0029] 提取元音' O '的谱特征序列。
[0030] 获取预置的高喊声效模式的元音模板集合,提取所述元音模板集合中每一个元音 模板的谱特征序列;其中,预置的高喊声效模式的元音模板集合包含了6个单元音模板:a、 o、e、i、u、ii和 13个复兀音模板:ai、ei、ao、ou、ia、ie、ua、uo、iie、iao、iou、uai、uei,而每一个 元音模板是指该元音在高喊声效模式下的标准发音单元,通过手工切分的方式获得。
[0031] 通过如下公式确定所述元音谱距离化v,VE> :
[0032]
[0033] 其中,Cv表示所述元音'〇'的谱特征序列求均值后形成的矢量,Cv(i)表示矢量Cv的 第i个分量,N表示矢量Cv包含的分量总数,P表示高喊声效模式VE的元音模板集合中的某一 个元音模板,Cf表示元音模板P的谱特征序列求均值后形成的矢量,cf W表示矢量cf的第 i个分量。
[0034] 在D(v,VE)的计算过程中,提取所述元音'0'的谱特征序列和提取所述元音模板集合 中每一个元音模板的谱特征序列的具体过程如下:
[0035] 对所述元音' O '或元音模板对应的语音信号加汉宁窗,其中窗长可W选用为6ms, 帖移可W选用1ms,得到语音帖序列。
[0036] 对所述语音帖序列中的每一个语音帖通过快速傅立叶变换得到该语音帖在时频 域上的能量分布。
[0037] 对于六个频带:〇~0.8k监、0.8~1.化HZ、1.2~2. OkHZ、2.0~3.5k监、3.5~ 5.Ok监、5.0~8.Ok监,所述语音帖序列中的每一个语音帖分别计算该语音帖在每一个频带 上的谱信息赌,将六个频带上的谱信息赌按照频带次序组合起来形成该语音帖的谱信息赌 矢量。其中,语音帖在每一个频带上的谱信息赌通过如下公式确定:
[00;3 引
[0039] 其中,i表示所述预置的多个频带中某一个频带的序号,Hi表示该语音帖在第i个 频带上的谱信息赌,M表示该语音帖时频域上的能量分布在第i个频带上包含的频率成分的 数量,X化)表示该语音帖时频域上的能量分布在第i个频带上的第k个频率成分,X(j)表示 该语音帖时频域上的能量分布在第i个频带上的第j个频率成分。
[0040] 所述语音帖序列中的每一个语音帖的谱信息赌矢量按照语音帖的顺序排列形成 谱信息赌矢量序列,该谱信息赌矢量序列即为谱特征序列。
[0041] 步骤1025、将匹配值最大的候选声效模式确定为语音信号的声效模式。
[0042] 上述方案中,每个声学模型子集中的声学模型能很好地拟合其对应声效模式下语 音的声学特性。因此,在识别时先检测出语音信号的声效模式,再选择用对应的声学模型子 集来进行解码,就可W有效地提高语音识别的精度。此外,在检测语音信号的声效模式过程 中,由于耳语的发音机理与其它几种声效模式有着较为明显的差异,所W可W根据语音信 号的声强级、帖能量均值和频谱倾斜均值运=种特征来判断当前语音信号是否为耳语。对 于其它四种发音方式相近的声效模式,通过将语音信号中的元音与各个声效模式的元音模 板集相匹配来检测语音信号的声效模式,使得声效模式检测的精度会更高,也就能够进一 步提高后续步骤中语音识别的精度。
[0043] W上所述的具体实施例,对本发明的目的、技术方案和有益效果进行了进一步详 细说明,所应理解的是,W上所述仅为本发明的具体实施例而已,并不用于限制本发明,凡 在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保 护范围之内。
【主权项】
1. 一种基于声效模式检测的语音识别方法,其特征在于,包括如下步骤: 步骤1、接收语音信号; 步骤2、检测所述语音信号的声效模式; 步骤3、从预置的声学模型集中选择所述声效模式对应的声学模型子集; 步骤4、根据所述声学模型子集对所述语音信号进行解码。2. 根据权利要求1所述的语音识别方法,其特征在于所述步骤2中检测所述语音信号的 声效模式的具体步骤如下: 步骤21、提取所述语音信号的声强级、帧能量均值和频谱倾斜均值; 步骤22、根据所述声强级、所述帧能量均值和所述频谱倾斜均值判断所述语音信号的 声效模式是否为耳语,如果是耳语则执行步骤3,否则执行步骤23; 步骤23、检测所述语音信号中的元音,生成元音集合; 步骤24、将所述元音集合分别与多个候选声效模式进行语谱匹配,生成每一个候选声 效模式的匹配值; 步骤25、将匹配值最大的候选声效模式确定为所述语音信号的声效模式。3. 根据权利要求2所述的语音识别方法,其特征在于,所述步骤24中每一个所述候选声 效模式的匹配值通过如下公式确定:其中,VE表示该候选声效模式,Mve表示该候选声效模式的匹配值,Vset表示所述元音集 合,V表示所述元音集合Vset中的某个元音,D(v, VE)表示反映元音V与该候选声效模式VE之间 语谱差异程度的元音谱距离。4. 根据权利要求3中所述的语音识别方法,其特征在于反映元音V与该候选声效模式VE 之间语谱差异程度的元音谱距离D(v, VE)的计算过程如下: 步骤41、提取所述元音V的谱特征序列; 步骤42、获取该候选声效模式VE预置的的元音模板集合,提取所述元音模板集合中每 一个元音模板的谱特征序列; 步骤43、通过如下公式确定所述元音谱距离D(v, ve):其中,Cv表示所迎兀百V η、」nr付tin斤yu 且厄tf」大垔,Cv、1;衣不天量Cv的第i个 分量,N表示矢量Cv包含的分量总数,p表示该候选声效模式VE的元音模板集合中的某一个 元音模板,表示元音模板p的谱特征序列求均值后形成的矢量,ef⑴表示矢量的第i 个分量。5. 根据权利要求4所述的语音识别方法,其特征在于步骤41和步骤42中的所述谱特征 序列中的谱特征为12维梅尔频率倒谱系数以及它们的一阶及二阶差分。6. 根据权利要求4述的语音识别方法,其特征在于步骤41中所述元音的的谱特征序列 和步骤42中所述每一个元音模板的谱特征序列的具体提取步骤为: 步骤61、对所述元音/元音模板对应的语音信号加汉宁窗,得到语音帧序列; 步骤62、对所述语音帧序列中的每一个语音帧通过快速傅立叶变换得到该语音帧的频 谱能量分布; 步骤63、获取预置的多个频带,对所述语音帧序列中的每一个语音帧分别计算该语音 帧在每一个频带上的谱信息熵,形成该语音帧的谱信息熵矢量; 步骤64、所述语音帧序列中的每一个语音帧的谱信息熵矢量经过顺序排列形成谱信息 熵矢量序列。7. 根据权利要求6述的语音识别方法,其特征在于步骤63中该语音帧在每一个频带上 的谱信息熵通过如下公式确定:其中,i表示所述预置的多个频带中某一个频带的序号,出表示所述该语音帧在第i个频 带上的谱信息熵,M表示所述该语音帧的频谱能量分布在第i个频带上包含的频率成分的数 量,X(k)表示所述该语音帧的频谱能量分布在第i个频带上的第k个频率成分,X(j)表示所 述该语音帧的频谱能量分布在第i个频带上的第j个频率成分。8. 根据权利要求6-7任一所述的语音识别方法,其特征在于步骤63中所述多个频带具 体为6个频带:0~0.8kHZ、0.8~1.5kHZ、1.2~2.0kHZ、2.0~3.5kHZ、3.5~5.0kHZ、5.0~ 8.OkHZ〇
【文档编号】G10L19/00GK106023986SQ201610299376
【公开日】2016年10月12日
【申请日】2016年5月5日
【发明人】晁浩, 智慧来, 刘志中, 鲁保云
【申请人】河南理工大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1