明实施例二提供的方法流程图,在本实施例中语音单元的预选和备选空间的搜索均采用神经网络模型,如图2中所示,该方法可以包括以下步骤:
[0097]在201中,预先基于文本训练样本和语音训练样本训练神经网络模型,得到文本特征到声学参数的映射。
[0098]具体的训练方式参见实施例一中步骤101中的描述。
[0099]在202中,对待合成文本进行文本分析,提取各基元的文本特征。
[0100]本步骤同实施例一中步骤102。
[0101]在203中,利用神经网络模型确定提取的各基元的文本特征对应的声学参数。
[0102]由于神经网络模型是文本特征到声学参数的映射,因此将提取的文本特征输入神经网络模型,就可以得到声学参数。
[0103]在204中,利用提取的各基元的文本特征从语音库中挑选各基元对应的候选语音单元。
[0104]在205中,利用神经网络模型分别确定候选语音单元的文本特征对应的声学参数。
[0105]在206中,基于声学参数之间的相似度,分别针对各基元从候选语音单元中挑选声学参数与对应基元的声学参数之间的相似度满足预设要求的N个候选语音单元构成备选空间,其中N为预设的正整数。
[0106]在207中,基于专家知识对候选集合进行进一步筛选。
[0107]在208中,利用神经网络模型分别确定候选语音单元的文本特征对应的声学参数或进一步利用参数生成算法生成声学参数轨迹。
[0108]在209中,从备选空间中选择语音单元以进行拼接,使得选择的语音单元构成的序列的搜索代价最优。
[0109]图3为本发明实施例三提供的方法流程图,在本实施例中语音单元的预选采用神经网络模型,备选空间的搜索采用HMM模型,如图3所示,该方法可以包括以下步骤:
[0110]步骤301?307同步骤201?207。
[0111]在308中,利用HMM模型分别确定候选语音单元的文本特征对应的声学参数,或进一步利用参数生成算法生成声学参数轨迹。
[0112]在309中,基于搜索代价最小原则,从备选空间中选择语音单元以进行拼接,使得选择的语音单元构成的序列的搜索代价最优。
[0113]以上是对本发明所提供方法进行的详细描述,下面结合实施例对本发明提供的装置进行详细描述。
[0114]图4、图5和图6为本发明实施例提供的装置结构图,该装置可以包括:预选单元10和搜索单元20,还可以进一步包括训练单元00。其中各组成单元的主要功能如下:
[0115]预选单元10利用训练的第一模型,从语音库中针对待合成语音挑选候选语音单元构成备选空间。
[0116]搜索单元20利用预先训练的第二模型,从备选空间中选择语音单元用于拼接,使得选择的语音单元构成的序列的搜索代价最优。
[0117]其中第一模型和第二模型中至少一个为神经网络模型,在图4所示实施例中,第一模型为HMM模型,第二模型为神经网络模型;在图5所示实施例中,第一模型和第二模型均为神经网络模型;在图6所示实施例中,第一模型为神经网络模型,第二模型为HMM模型。
[0118]训练单元00负责预先基于文本训练样本和语音训练样本训练第一模型和第二模型,分别得到文本特征到声学参数的映射。具体地,可以对各文本训练样本进行文本分析,提取各文本训练样本的文本特征;以及,对各语音训练样本进行声学分析,得到各语音训练样本的声学参数;然后再利用各文本训练样本的文本特征以及对应的声学参数,训练第一模型和第二模型,分别得到文本特征到声学参数的映射。
[0119]其中,上述的预选单元10可以具体包括:文本分析子单元11、参数确定子单元12和语音预选子单元13。
[0120]文本分析子单元11负责对待合成文本进行文本分析,提取各基元的文本特征。其中进行的文本分析可以包括:对文本训练样本进行的分词、注音、韵律标注、声韵母边界标注等,还可以包括归一化、去掉多余符号等辅助处理。最终可以得到各文本训练样本对应的文本特征,即包括分词,注音、韵律、声韵母边界等至少一种,每一个文本训练样本可以看做是由多个基本单元(简称基元)构成的,每个基本单元都存在对应的文本特征,一个文本训练样本提取出的文本特征可以是一个文本特征向量。
[0121]参数确定子单元12负责利用第一模型确定提取的各基元的文本特征对应的声学参数。其中声学参数指的是从语音训练样本中提取的谱参数信息和基频参数信息等中的至少一种。
[0122]语音预选子单元13负责基于声学参数之间的相似度,分别针对各基元从语音库中挑选声学参数与对应基元的声学参数之间的相似度满足预设要求的N个候选语音单元构成备选空间,N为预设的正整数。
[0123]另外,预选单元1还可以包括候选挑选子单元14。
[0124]候选挑选子单元14负责利用提取的各基元的文本特征从语音库中挑选各基元对应的候选语音单元。具体地,候选挑选子单元14可以确定各基元的文本特征与该基元在语音库中对应的语音单元的文本特征之间的相似度;基于相似度从语音库中挑选各基元对应的候选语音单元。其中,声学参数之间的相似度采用相对熵的方式体现。
[0125]参数确定子单元12利用第一模型分别确定候选语音单元的文本特征对应的声学参数。语音预选子单元13在从语音库中挑选声候选语音单元时,具体从候选挑选子单元挑选出的候选语音单元中进一步挑选。
[0126]搜索单元20所使用的搜索代价可以由目标代价和拼接代价确定,目标代价体现为从备选空间中选择的语音单元所构成的序列与待合成文本所对应序列声学参数之间的距离。目标代价可以采用但不限于参数轨迹代价和最大似然代价。
[0127]参数轨迹代价体现为从备选空间中选择的语音单元的声学参数轨迹与待合成文本的声学参数轨迹之间的距离,当采用参数轨迹代价时,选择语言单元的原则是:从备选空间中选择的语言单元所构成序列的搜索代价最小。
[0128]最大似然代价可以体现为选择的语言单元所构成序列的声学参数最大似然值,当采用最大似然代价时,选择语言单元的原则是:从备选空间中选择的语言单元所构成序列的搜索代价最大。
[0129]拼接代价体现为从备选空间中选择的相邻两个语音单元的衔接平滑度。其中,拼接代价可以通过相邻两个语音单元的声学参数之间的互相关关系确定,或者通过相邻两个语音单元的声学参数之间的相对熵确定。
[0130]例如,搜索代价Cse3arch可以采用如下公式确定:
[0131 ] Csearch — £1 氺 Ctrajectory+b 氺 Csplice
[0132]其中a和b为权重系数,可以根据经验值或实验值进行设置,Ctra_tciry为选择的语音单元构成的序列的参数轨迹代价,CspIic^S选择的语音单元构成的序列的拼接代价。
[0133]最终,将搜索单元20确定的语音单元提供给拼接单元进行拼接。
[0134]举一个例子,其示意图如图7所示。
[0135]假设某待合成文本为:我是中国人。
[ΟΙ36] 进行文本分析提取各基元的文本特征包括诸如:wo3sh iii4zh onglg uo2r en2,包括分词,注音、韵律、声韵母边界等的文本特征。在图7中以m个基元为例。
[0137]利用提取的各基元的文本特征从语音库中挑选各基元对应的候选语音单元。以uo3这一基元为例,语音库中会存在很多该基元对应的语音单元,在此通过文本特征之间的相似度先预选出一部分语音单元作为该基元的候选语音单元。
[0138]然后分别将各候选语音单元的文本特征送入HMM,得到各候选语音单元对应的声学参数。
[0139]然后利用声学参数之间的相对熵(也称为KLD散度),针对各基元分别从候选语音单元中挑选出N个构成备选空间。
[0140]基于专家知识对备选空间进行进一步筛选。
[0141]然后将备选空间中各候选语音单元的文本特征送入神经网络集合,得到对应的声学参数,还可以进一步利用参数生成算法生成参数轨迹。
[0142]再进一步基于搜索代价最小原则,从备选空间中选择语音单元用于拼接,即从备选空间中分别针对各基元选择出一个语音单元,选择出的语音单元构成的序列的搜索代价最小。这样就拼接出“我是中国人”的完整语音。
[0143]由以上描述可以看出,本发明提供的方法和装置可以具备以下优点:
[0144]I)若在语音单元的预选过程中采用神经网络模型,由于神经网络模型具有深层非线性建模特性,其模型精度和时序预测能力相比较HMM模型更强,计算的相对熵误差更小,因此预选出的备选空间更加准确,增大挑选出精准语音单元序列的可能性,使得合成的语音更加自然,更具表现力。
[0145]2)若在备选空间的搜索过程中采用神经网络模型,由于神经网络模型考虑状态之间的相关性,其对搜索代价的计算更加准