专利名称:使用语音波形并接的语音合成的利记博彩app
技术领域:
本发明涉及合成语音或音乐的领域,更具体而不加限制地涉及文本到语音合成(text-to-speech synthesis)的领域。
文本到语音(text-to-speech)(TTS)合成系统的功能是用给定的语言从通用文本合成语音。当今,TTS系统已经被用在许多应用的实际操作中,比如通过电话网络接入数据库或帮助残障人士。一种合成语音的方法是通过并接(concatenation)语音子单元的记录集合的元素,比如半音节或多音码。大多数成功的商业系统使用了多音码的并接。
多音码包括两个(双音子)、三个(三音子)或多个音子,并可从无意义的词通过将期望的编组的音子在稳定的频谱区域上分段而确定。在基于并接的合成中,两个邻接音子之间过渡的对话对于保证合成的语音质量至关重要。将多音码选择为基本子单元,两个邻接音子之间过渡被保留在记录的子单元中,并且在类似音子之间执行并接。
但是在合成前,须修改音子的音长和音调以满足包含这些音子的新的词的节律约束(prosodic constraint)。该处理需要避免产生单调音响合成语音。在TSS系统中,该功能由节律模块来执行。为了允许在记录的子单元中的音长和音调的修改,许多基于并接的TTS系统利用时域音调同步叠加(TD-PSOLA)(E.Moulines and F.Charpentier,“Pitch synchronous waveform processingtechniques for text-to-speech synthesis using diphones,”Speech Commum.,vol.9,pp.453-467,1990)合成模型。
在TD-PSOLA模型中,语音信号首先被提交给音调标记算法。该算法在有声的分段中的信号的峰值处分配标记并在无声的分段中相隔10ms分配标记。该合成是由位于音调标记中心上并从前一个音调标记伸展到另一个音调标记的Hanning窗口分段的叠加来完成。音长修改是通过删除或复制窗口分段中的一些来被提供。在另一方面,音调周期修改是通过增加或减少窗口分段之间的叠加而被提供。
尽管在许多商业TTS系统中获得成功,使用合成的TD-PSOLA模型产生的合成语音存在一些缺陷,主要对于大的节律变化存在一些缺陷。
该PSOLA方法的例子在文件EP-0363233,US专利No.5,479,564,EP-0706170中定义。一个具体的例子也是MBR-POLA方法,如由T.Dutoit and H.Leich在Speech Communication,Elsevier Publisher,November 1993,vol.13,N.degree,3-4,1993中出版的。在文档US专利No.5,479,564中描述的方法提出了通过叠加从该信号中提取的短期信号修改频率的方法。用作获取短期信号的加权窗口的长度近似等于音频信号的周期的两倍并且它们在周期中的位置可被设置为任何值(只要在连续窗口之间的时间偏移等于音频信号的周期)。US专利No.5,479,564还描述了在分段之间内插波形用以并接,以便平滑不连续性。在现有技术的文本到语音系统中,预先录制的语音片断的集合可以以指定的顺序被并接,用以将特定的文本转换成自然发声语音。使用较小语音片断的文本到语音系统具有许多这样的并接点。特别地,当语音片断在频谱上不同时,这些结合点产生降低可懂度的伪像。特别地,当来自不同记录时间的两个语音分段将被并接时,所得的语音可在两个分段的结合点上不连续。例如,当合成元音时,左边的部分几乎都来自不同于右边部分的记录。这使得其不可能重现元音的精确音色。
共振峰轨道之间的轻微的差异产生在连接位置处的突然跳跃。在现有技术中通常为减少这个影响所做的是重新记录语音片断直到它与所剩片断匹配或添加不同的版本(额外的片断)以最小化该差异。
因此,本发明的目标是提供改进的合成语音信号的方法,所述语音信号具有至少第一双音子和第二双音子。本发明进一步的目标是提供对应的计算程序产品和计算机系统,特别是文本到语音系统。
本发明提供基于在它们的连接点上叠加的第一和第二双音子信号合成语音信号的方法。本发明使能双音子信号的平滑并接而没有任何可听见的伪像。这是通过将第一双音子信号的末端间隔(endinterval)的周期以逆序附加在第一双音子信号的末尾(end)和通过将第二双音子信号的前端间隔(front interval)的周期附加在第二双音子信号的开始而实现的。重叠末端和前端间隔以产生平滑过渡。
根据本发明的的实施例,第一和第二双音子信号的末端和前端间隔由一个标记器识别。优选地,末端和前端间隔包含几乎稳定的周期,即具有近似相同信息内容和信号形式的周期。该末端和前端间隔可由人类专家或由对应计算机程序识别。优选地,如果由人类专家对增加的精确度进行复核,通过计算机程序和所得结果执行第一次分析。
根据本发明进一步的实施例,不附加末端间隔的最后周期和前端间隔的首个周期。这具有优点通过两个同样周期的紧接重复而在信号中没有引入周期性。
根据本发明进一步的实施例,分别通过信号渐弱(fade-out)和信号渐强(fade-in)窗口的方式对末端和前端间隔以及对相应附加的周期执行窗口化操作。优选地,升余弦窗口函数被用于有声末端间隔和附加的周期,而用作信号渐弱窗口的正弦窗口被用于无声的末端间隔和附加的周期。同样,升余弦被用作用于光滑第二双音子的有声分段的开始或无声分段的正弦窗口的窗口函数。
根据本发明的一个实施例,对于用作重叠的间隔执行音长适配。特别地,如果间隔具有不同的音长,这对于避免引入突然的信号过渡是有益的。
根据本发明进一步的实施例,通过根据本发明的原理并接双音子来执行文本到语音的处理。通过这种方式可产生自然发音语音输出。
本发明不限制于双音子的并接,而且还能被有利地应用于其他诸如三音子、多音码或词的其他语音单元的并接,注意到这一点是重要的。
参考下列附图更详细的描述本发明的实施例,其中
图1描述本发明的一个方法的优选实施例的流程图,图2描述在原始双音子信号的前端和后端处交替重复的周期。
图3描述信号合成的例子,和图4描述文本到语音系统的实施例的框图。
图1显示说明本发明的一个方法的优选实施例的流程图。在步骤100中,提供第一双音子信号A。该双音子信号A具有至少一个识别双音子信号A的末端间隔的标记器。
在步骤102中,在双音子信号A的末端间隔内按逆序重复周期,以便提供附加在末端间隔的末尾(end)的信号渐弱间隔。在步骤104中,末端间隔以及其所附的信号渐弱间隔通过信号渐弱窗口函数被窗口化,以便在双音子信号的末端光滑地信号渐弱该双音子信号。同样,在步骤106提供双音子信号B。该双音子信号B具有至少一个关联的标记器,以识别双音子信号B的首个分段。在步骤108,至少一些前端间隔周期以逆序被附加在双音子信号B的前端间隔的开头。通过这种方式,提供了信号渐强间隔。在步骤110,前端间隔和所附的信号渐强间隔通过信号渐强窗口的方式被窗口化。通过这种方式,提供了双音子信号B的平滑的开头。在步骤112,执行音长适配。这意味着双音子信号A和B的末端和前端间隔的音长被修改,使得末端和信号渐强间隔具有相同的音长。同样,对信号渐弱和前端间隔的音长进行适配。在步骤114中,对具有处理过的末端和信号渐强间隔以及信号渐弱和前端间隔的双音子信号A和B执行重叠和相加操作。通过这种方式,完成双音子信号A和B的平滑并接。对于有声分段,优选地使用下列升余弦窗口函数w[n]=0.5-0.5cos(π·(n+0.5)m),0≤n<m]]>其中,m是平滑范围中的周期的总数。
对于无声分段,使用正弦窗口w[n]=sin(0.5·π·(n+0.5)m),0≤n<m]]>使用正弦窗口的优点是这保证了在功率域中的总信号包络保持恒定。不用于周期信号,当附加两个噪声样本时,总和可小于两个样本中任意一个的绝对值。这是因为信号(基本)不同相。正弦窗口调整了这个影响并且移除包络调制。
图2说明按逆序附加间隔周期的处理(比较图1的步骤102和108)。时间轴200说明了双音子信号A的时域。双音子信号A具有末端间隔202,其包括周期p1,p2...pi...pN-1,pN。为了提供信号渐弱间隔204,末端间隔202的周期pi按逆序被附加在末端间隔202的末尾。不附加末端间隔202的最后周期pN,以避免两个相同周期的重复,该重复将引入不期望的周期性。这样的周期性在特定的环境下能变为可听见的。因此优选地,不重复末端间隔202的最后周期pN。通过拷贝周期pN-1的信号来提供信号渐弱间隔204的首个周期p’1。总之,通过附加来自末端间隔202的周期pN-j来提供信号渐弱间隔204的周期p’j,即p’j=pN-j。时间轴206是双音子信号B时域的说明。双音子信号B具有包含周期P1,P2...Pi...PN-1,PN的前端间隔208。通过将来自前端间隔208的周期以逆序附加在前端间隔208的开头来提供信号渐强间隔210。并且优选地,不附加前端间隔208的首个周期P1,以避免引入不期望的周期性。在一般的情况下,信号周期P’j是从前端间隔208的周期PN-j+1获得的,P’j=PN-j+1。为了并接双音子信号A和双音子信号B,重叠并相加末端间隔202和信号渐强间隔210以及信号渐弱间隔204和前端间隔210。在这里考虑到的本例中,这可以不经过适配相应间隔的音长来完成,因为末端间隔202和信号渐强间隔210的音长以及信号渐弱间隔204和前端间隔210的音长相等。
图3显示单词“young”的各个合成步骤的例子。该单词是由音素/j/,/V/,/N/组成,并且静音/-/.a)和b)是记录的无意义的词,这些无意义的词包含来自/j/到/V/和/V/到/N/的过渡。在每个无意义的词内放置5个标记器。外面的标记器是双音子边界(标签j-,-V,V-和-N)。在中间的标记器显示新的音素开始之处(标签V和N)。使用其他标签标记将用作叠加的分段。如图3的图(c)中所示的那样,末端间隔300的周期安逆序重复,以提供信号渐弱的间隔302。末端间隔300内所有的周期在周期304之后附加,周期304是末端间隔300的最后周期。不附加周期304本身,以避免可引入不期望的周期性的相同周期的重复。同样对于如图3的图(b)的双音子信号,在前端间隔306内的周期以逆序被附加在前端间隔306的开头。这应用于前端间隔306的所有周期,除了前端间隔306的开头处的首个周期310。并且,不附加周期310,以避免可以引入不期望的周期性的两个连续的相同周期。同样的处理可以用作图(a)的双音子信号的前端间隔312和图(b)的双音子信号的末端间隔314。另外,为了合成单词“young”,相同的途径可进一步应用于要求被并接的双音子。接着,平滑的窗口可应用于前端、末端、信号渐弱和信号渐强间隔。对于有声分段,升余弦被优选地用作窗口函数。下列窗口函数被用于信号渐弱和信号渐强间隔
w[n]=0.5-0.5cos(π·(n+0.5)m),0≤n<m]]>其中,m是平滑范围中的周期的总数。对应的升余弦显示为图(d)中的升余弦316。对应的窗口函数被用作向末端和信号渐弱间隔300和302提供升余弦318。如在图(e)中说明的,待重叠和相加的间隔,即间隔300/308和间隔302/306被重定比例,以便使它们的长度相等。要求的双音子的下列叠加提供单词“young”的合成。
图4显示计算机系统400的框图,其是一个文本到语音系统。计算系统400具有用于存储双音子以及指示前端和末端间隔的双音子的标记器的模块402。模块404用于按逆序重复包含在末端和前端间隔内的周期,以提供信号渐强和信号渐弱间隔。模块406用于提供为了平滑的目的而窗口化末端/信号渐弱和信号渐强/前端间隔的窗口函数。模块408用于待叠加的间隔的音长适配。如果待叠加的间隔长度不等,就要求音长适配。模块410用于叠加末端/信号渐强和信号渐弱/前端间隔,以便并接它们要求的双音子。当文本被输入到计算机系统400,从模块402选择待并接的要求的双音子。在通过模块410的方式重叠和相加这些双音子之前,通过模块404、406和408的方式处理这些双音子,这得到要求的合成语音信号。
权利要求
1.一种合成语音信号的方法,所述语音信号具有至少第一语音单元和第二语音单元,该方法包括步骤-提供第一语音单元信号,所述第一语音单元信号具有末端间隔,-提供第二语音单元信号,所述第二语音单元信号具有前端间隔,-将末端间隔的周期的至少一些按逆序附加在第一语音单元信号的末尾,以提供信号渐弱间隔,-将前端间隔的周期的至少一些按逆序附加在第二语音单元信号的开头,以提供信号渐强间隔,-将末端和信号渐强间隔以及信号渐弱和前端间隔叠加。
2.权利要求1的方法,其中末端和前端间隔具有几乎稳定的周期。
3.权利要求1或2的方法,末端和前端间隔由标记器标记。
4.权利要求1或2或3的方法,其中不附加末端间隔的最后周期和前端间隔的首个周期。
5.权利要求1到4的任何一个的方法,进一步包括用信号渐弱窗口窗口化末端和/或信号渐弱间隔。
6.权利要求5的方法,其中升余弦函数被用作信号渐弱窗口。
7.权利要求6的方法,其中下列窗口函数被用作有声间隔w[n]=0.5-0.5cos(π·(n+0.5)m),0≤n<m]]>其中,m是平滑范围中的周期的总数。
8.权利要求5的方法,其中正弦函数被用作无声间隔的信号渐弱窗口。
9.权利要求8的方法,其中使用下列窗口函数w[n]=sin(0.5·π·(n+0.5)m),0≤n<m]]>其中,m是平滑范围中的周期的总数。
10.权利要求1到9的任何一个的方法,第一和第二语音单元是双音子和/或三音子和/或多音码,特别的为词。
11.权利要求1到10的任何一个的方法,进一步包括适配末端和信号渐强间隔以及信号渐弱和前端间隔的音长。
12.权利要求1到11的任何一个的方法,其中通过重叠和相加操作合成语音信号。
13.计算机程序产品,特别的为数字存储介质,包括用于合成语音信号的程序装置,所述语音信号具有至少第一语音单元和第二语音单元,该程序装置适于执行步骤-提供第一语音单元信号,所述第一语音单元信号具有末端间隔,-提供第二语音单元信号,所述第二语音单元信号具有前端间隔,-将末端间隔的周期的至少一些按逆序附加在第一语音单元信号的末尾,以提供信号渐弱间隔,-将前端间隔的周期的至少一些按逆序附加在第二语音单元信号的开头,以提供信号渐强间隔,-将末端和信号渐强间隔以及信号渐弱和前端间隔叠加。
14.计算机系统,特别为文本到语音系统,用于合成语音信号,所述语音信号具有至少第一语音单元和第二语音单元,该计算机系统包括-存储第一语音单元信号和第二语音单元信号的装置,所述第一语音单元信号具有末端间隔,所述第二语音单元信号具有前端间隔,-将末端间隔的周期的至少一些按逆序附加在第一语音单元信号的末尾以提供信号渐弱间隔的装置,-将前端间隔的周期的至少一些按逆序附加在第二语音单元信号的开头以提供信号渐强间隔的装置,-将末端和信号渐强间隔以及信号渐弱和前端间隔叠加的装置。
全文摘要
本发明涉及一种合成语音信号的方法,所述语音信号具有至少第一语音单元和第二语音单元,该方法包括步骤提供第一语音单元信号,所述第一语音单元信号具有末端间隔;提供第二语音单元信号,所述第二语音单元信号具有前端间隔;将末端间隔的周期的至少一些按逆序附加在第一语音单元信号的末尾,以提供信号渐弱间隔;将前端间隔的周期的至少一些按逆序附加在第二语音单元信号的开头以提供信号渐强间隔;将末端和信号渐强间隔以及信号渐弱和前端间隔叠加。
文档编号G10L13/06GK1682275SQ03822002
公开日2005年10月12日 申请日期2003年8月8日 优先权日2002年9月17日
发明者E·F·吉吉 申请人:皇家飞利浦电子股份有限公司