确,得到的语音单元序列与目标更加贴近,从而使得合成的语音更加自然,表现力更强。
[0146]3)另外,传统的基于HMM模型的语音合成系统,由于模型精度低,预选精度不够,搜索空间目标精度不足,导致我们需要针对不同的语音库调整不同的预选参数(例如相对熵的阈值)、搜索过程中所采用的权重等等;但是引入神经网络模型后,人为调参、干预部分将大大减少,系统的自动化更高。
[0147]在本发明所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。
[0148]所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
[0149]另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
[0150]上述以软件功能单元的形式实现的集成的单元,可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(processor)执行本发明各个实施例所述方法的部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-Only Memory,R0M)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
[0151]以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明保护的范围之内。
【主权项】
1.一种语音合成方法,其特征在于,该方法包括: 利用预先训练的第一模型,从语音库中针对待合成语音挑选候选语音单元构成备选空间; 利用预先训练的第二模型,从备选空间中选择语音单元用于拼接,使得选择的语音单元构成的序列的搜索代价最优; 所述第一模型和所述第二模型中至少一个为神经网络模型。2.根据权利要求1所述的方法,其特征在于,该方法还包括:预先基于文本训练样本和语音训练样本训练第一模型和第二模型,分别得到文本特征到声学参数的映射。3.根据权利要求2所述的方法,其特征在于,所述预先基于文本训练样本和语音训练样本训练第一模型和第二模型包括: 对各文本训练样本进行文本分析,提取各文本训练样本的文本特征;以及,对各语音训练样本进行声学分析,得到各语音训练样本的声学参数; 利用各文本训练样本的文本特征以及对应的声学参数,训练第一模型和第二模型,分别得到文本特征到声学参数的映射。4.根据权利要求1所述的方法,其特征在于,利用预先训练的第一模型,从语音库中针对待合成语音挑选候选语音单元构成备选空间包括: 对待合成文本进行文本分析,提取各基元的文本特征; 利用所述第一模型确定提取的各基元的文本特征对应的声学参数; 基于声学参数之间的相似度,分别针对所述各基元从语音库中挑选声学参数与对应基元的声学参数之间的相似度满足预设要求的N个候选语音单元构成备选空间,所述N为预设的正整数。5.根据权利要求2、3或4所述的方法,其特征在于,所述文本特征包括分词、注音、韵律、声韵母边界中的至少一种; 所述声学参数包括谱参数或基频参数中的至少一种。6.根据权利要求4所述的方法,其特征在于,在分别针对所述各基元从语音库中挑选声学参数与对应基元的声学参数之间的相似度满足预设要求的N个候选语音单元构成备选空间之前,还包括: 利用提取的所述各基元的文本特征从语音库中挑选各基元对应的候选语音单元; 利用所述第一模型分别确定候选语音单元的文本特征对应的声学参数。7.根据权利要求6所述的方法,其特征在于,所述利用提取的所述各基元的文本特征从语音库中挑选各基元对应的候选语音单元包括: 确定各基元的文本特征与该基元在语音库中对应的语音单元的文本特征之间的相似度; 基于相似度从语音库中挑选各基元对应的候选语音单元。8.根据权利要求4所述的方法,其特征在于,所述声学参数之间的相似度采用相对熵的方式体现。9.根据权利要求1所述的方法,其特征在于,所述搜索代价由目标代价和拼接代价确定,所述目标代价体现为从备选空间中选择的语音单元所构成的序列与待合成文本所对应声学参数序列之间的距离,所述拼接代价体现为从备选空间中选择的相邻两个语音单元的衔接平滑度。10.根据权利要求9所述的方法,其特征在于,所述目标代价通过选择的语音单元所构成序列的声学参数最大似然值确定,所述拼接代价通过所述相邻两个语音单元的声学参数之间的互相关关系确定;或者, 所述目标代价通过选择的语音单元的声学参数轨迹与待合成文本的声学参数轨迹之间的距离确定,所述拼接代价通过所述相邻两个语音单元的声学参数之间的相对熵确定。11.一种语音合成装置,其特征在于,该装置包括: 预选单元,用于利用训练的第一模型,从语音库中针对待合成语音挑选候选语音单元构成备选空间; 搜索单元,用于利用预先训练的第二模型,从备选空间中选择语音单元用于拼接,使得选择的语音单元构成的序列的搜索代价最优; 所述第一模型和所述第二模型中至少一个为神经网络模型。12.根据权利要求11所述的装置,其特征在于,该装置还包括: 训练单元,用于预先基于文本训练样本和语音训练样本训练第一模型和第二模型,分别得到文本特征到声学参数的映射。13.根据权利要求12所述的装置,其特征在于,所述训练单元,具体用于: 对各文本训练样本进行文本分析,提取各文本训练样本的文本特征;以及,对各语音训练样本进行声学分析,得到各语音训练样本的声学参数; 利用各文本训练样本的文本特征以及对应的声学参数,训练第一模型和第二模型,分别得到文本特征到声学参数的映射。14.根据权利要求11所述的装置,其特征在于,所述预选单元具体包括: 文本分析子单元,用于对待合成文本进行文本分析,提取各基元的文本特征; 参数确定子单元,用于利用所述第一模型确定提取的各基元的文本特征对应的声学参数; 语音预选子单元,用于基于声学参数之间的相似度,分别针对所述各基元从语音库中挑选声学参数与对应基元的声学参数之间的相似度满足预设要求的N个候选语音单元构成备选空间,所述N为预设的正整数。15.根据权利要求12、13或14所述的装置,其特征在于,所述文本特征包括分词、注音、韵律、声韵母边界中的至少一种; 所述声学参数包括谱参数或基频参数中的至少一种。16.根据权利要求14所述的装置,其特征在于,所述预选单元还包括: 候选挑选子单元,用于利用提取的所述各基元的文本特征从语音库中挑选各基元对应的候选语音单元; 所述参数确定子单元,还用于利用所述第一模型分别确定候选语音单元的文本特征对应的声学参数; 所述语音预选子单元在从语音库中挑选声候选语音单元时,具体从所述候选挑选子单元挑选出的候选语音单元中进一步挑选。17.根据权利要求16所述的装置,其特征在于,所述候选挑选子单元具体用于: 确定各基元的文本特征与该基元在语音库中对应的语音单元的文本特征之间的相似度; 基于相似度从语音库中挑选各基元对应的候选语音单元。18.根据权利要求14所述的装置,其特征在于,所述声学参数之间的相似度采用相对熵的方式体现。19.根据权利要求11所述的装置,其特征在于,所述搜索代价由目标代价和拼接代价确定,所述目标代价体现为从备选空间中选择的语音单元所构成的序列与待合成文本所对应声学参数序列之间的距离,所述拼接代价体现为从备选空间中选择的相邻两个语音单元的衔接平滑度。20.根据权利要求19所述的装置,其特征在于,所述目标代价通过选择的语音单元所构成序列的声学参数最大似然值确定,所述拼接代价通过所述相邻两个语音单元的声学参数之间的互相关关系确定;或者, 所述目标代价通过选择的语音单元的声学参数轨迹与待合成文本的声学参数轨迹之间的距离确定,所述拼接代价通过所述相邻两个语音单元的声学参数之间的相对熵确定。
【专利摘要】本发明提供了一种语音合成方法和装置,其中方法包括:利用预先训练的第一模型,从语音库中针对待合成语音挑选候选语音单元构成备选空间;利用预先训练的第二模型,从备选空间中选择语音单元用于拼接,使得选择的语音单元构成的序列的搜索代价最优;所述第一模型和所述第二模型中至少一个为神经网络模型。本发明能够提高最终合成的语音的自然度和表现力。
【IPC分类】G10L13/02, G10L13/10
【公开号】CN105654940
【申请号】
【发明人】盖于涛, 李秀林, 康永国
【申请人】百度在线网络技术(北京)有限公司
【公开日】2016年6月8日
【申请日】2016年1月26日