语音合成装置及方法

文档序号：9548979阅读：603来源：国知局

语音合成装置及方法
【技术领域】
[0001] 本发明涉及语音合成领域，具体涉及一种语音合成装置及方法。
【背景技术】
[0002] 语音合成又称文语转换，其主要功能是将文本转换成语音，并尽可能使合成语音有较高的可懂度和自然度。随着语音合成需求的日益增加，人们对合成语音的要求越来越多样性。合成语音应该以一种能够重新产生自然重读和感情的方式传递信息，最好可以体现出较强的韵律感，合成具有独特特征风格的语音，如感情色彩较重的小说朗读风格、评书风格，及不同表现的幽默风格等非正式的合成语音风格，从而增加合成语音的多样性，满足人们的不同需求。
[0003]目前，合成不同风格的语音主要做法是基于规则的方法对合成语音进行调整，比如将合成后的语音数据的基频调整为80到150之间。这种方法不能考虑到每种风格语音的细节，从而使特定风格在合成语音上不能很好的体现，造成调整后的语音自然度较低，进而降低了用户体验。

【发明内容】

[0004] 本发明提供一种语音合成装置及方法，以解决现有技术中基于规则的方法调整后的语音自然度较低的问题。
[0005] 为此，本发明提供如下技术方案：
[0006] 一种语音合成装置，包括：
[0007] 模型构建模块，用于预先根据收集的大量发音人语音数据构建语音合成模型；
[0008] 接收模块，用于接收用户的待合成文本；
[0009] 风格确定模块，用于确定合成语音风格；
[0010] 模型修正模块，用于根据合成语音风格对所述语音合成模型进行修正，以使修正后的语音合成模型适应所述合成语音风格；
[0011] 合成模块，用于利用所述修正后的语音合成模型对所述待合成文本进行语音合成，得到合成语音数据。
[0012] 优选地，所述风格确定模块包括以下任意一种或多种子模块：
[0013] 第一确定子模块，用于向用户提供可选的合成语音风格类型或风格语音数据，根据用户的选择确定待合成文本的合成语音风格；
[0014] 第二确定子模块，用于根据用户提供的风格语音数据确定待合成文本的合成语音风格，所述用户提供的风格语音数据是用户通过朗读文本并录音得到的，所述文本是推荐给用户的文本或者是用户自选的文本；
[0015] 第三确定子模块，用于根据待合成文本的风格标注信息或内容确定待合成文本的合成语音风格，所述待合成文本对应一个或多个风格标注信息，不同风格标注信息对应所述待合成文本中不同的文本段；
[0016] 第四确定子模块，用于根据用户的日志信息确定待合成文本的合成语音风格。
[0017] 优选地，所述模型修正模块包括：
[0018] 语音数据获取单元，用于获取与所述合成语音风格对应的风格语音数据；
[0019] 语音识别单元，用于对所述风格语音数据进行语音识别，得到识别文本；
[0020] 特征提取单元，用于分别提取所述识别文本的韵律特征及所述风格语音数据的声学特征；
[0021] 修正单元，用于将所述韵律特征和声学特征作为风格特征对所述语音合成模型进行修正，得到修正后的语音合成模型。
[0022] 优选地，所述语音合成模型包括：时长合成模型、基频合成模型、频谱合成模型；
[0023] 所述修正单元利用最大似然线性回归MLLR算法或最大后验概率MAP算法对所述时长合成模型、基频合成模型、频谱合成模型的能量维进行修正。
[0024] 优选地，所述模型修正模块还包括：
[0025] 预处理单元，用于去除所述语音数据获取单元获取的风格语音数据中的噪声，并将去噪后的风格语音数据传送给所述语音识别单元。
[0026] 一种语音合成方法，包括：
[0027] 预先根据收集的大量发音人语音数据构建语音合成模型；
[0028] 接收用户的待合成文本；
[0029] 确定合成语音风格；
[0030] 根据合成语音风格对所述语音合成模型进行修正，以使修正后的语音合成模型适应所述合成语音风格；
[0031] 利用所述修正后的语音合成模型对所述待合成文本进行语音合成，得到合成语音数据。
[0032] 优选地，所述确定合成语音风格包括以下任意一种或多种：
[0033] 向用户提供可选的合成语音风格类型或风格语音数据，根据用户的选择确定待合成文本的合成语音风格；
[0034] 根据用户提供的风格语音数据确定待合成文本的合成语音风格，所述用户提供的风格语音数据是用户通过朗读风格文本并录音得到的，所述风格文本是推荐给用户的文本或者是用户自选的文本；
[0035] 根据待合成文本的风格标注信息或内容确定待合成文本的合成语音风格，所述待合成文本对应一个或多个风格标注信息，不同风格标注信息对应所述待合成文本中不同的文本段；
[0036] 根据用户的日志信息确定待合成文本的合成语音风格。
[0037] 优选地，所述根据合成语音风格对所述语音合成模型进行修正包括：
[0038] 获取与所述合成语音风格对应的风格语音数据；
[0039] 对所述风格语音数据进行语音识别，得到识别文本；
[0040] 分别提取所述识别文本的韵律特征及所述风格语音数据的声学特征；
[0041] 将所述韵律特征和声学特征作为风格特征对所述语音合成模型进行修正，得到修正后的语音合成模型。
[0042] 优选地，所述语音合成模型包括：时长合成模型、基频合成模型、频谱合成模型；
[0043] 所述将所述韵律特征和声学特征作为风格特征对所述语音合成模型进行修正包括：
[0044] 利用最大似然线性回归MLLR算法或最大后验概率MAP算法对所述时长合成模型、基频合成模型、频谱合成模型的能量维进行修正。
[0045] 优选地，所述根据合成语音风格对所述语音合成模型进行修正还包括：
[0046] 去除所述语音数据获取单元获取的风格语音数据中的噪声，得到去噪后的风格语音数据；
[0047] 所述对所述风格语音数据进行语音识别包括：
[0048] 对所述去噪后的风格语音数据进行语音识别。
[0049] 本发明实施例提供的语音合成装置及方法，在接收到用户的待合成文本后，首先确定目标语音的合成语音风格，然后根据该合成语音风格对预先根据收集的大量发音人语音数据构建的语音合成模型修正，使修正后的语音合成模型更加适合于所述合成语音风格。最后，利用修正后的语音合成模型对所述待合成文本进行语音合成，得到合成语音数据。由于是直接对语音合成模型进行与合成语音风格相适应的修正，从而可以使合成语音更加自然，大大提升用户体验。
[0050] 进一步地，合成语音风格的确定可以根据应用环境及用户需求有多种不同实

完整全部详细技术资料下载

当前第1页1 2 3 4

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：孙见青;王影;江源;胡国平;胡郁;刘庆峰;
技术所有人：科大讯飞股份有限公司;
我是此专利的发明人

上一篇：一种智能家居的语音播报系统及语音播报方法
上一篇：一种多方通话的多模式语音合成方法与系统的利记博彩app