通信系统中文本到话音的本地编码的利记博彩app

文档序号：2819405阅读：442来源：国知局

专利名称：通信系统中文本到话音的本地编码的利记博彩app
技术领域：
本发明一般涉及文本到话音的合成，更具体地涉及在使用本地话音编码(native speech coding)通信系统中的文本到话音的合成。
背景技术：
无线通信系统，诸如蜂窝电话，不再仅仅被看作是语音装置。随着客户可用的基于数据的无线业务的出现，对于传统的蜂窝电话来说就产生了一些严重问题。例如，当前蜂窝电话只能在小屏幕上以文本格式提供数据业务。为了得到数据或消息，需要屏幕滚动或其他的用户操作。还有，与陆线系统相比，无线系统具有更高的数据误差率并且受到频谱约束，这使得向蜂窝用户提供实时流音频，即实音频变得不切实际。一种解决这些问题的方法是文本到话音的编码。
把文本转换为话音的处理通常分解为两个主要块文本分析和话音合成。文本分析就是把文本转换为可以被合成的语言描述的一种处理。这种语言描述通常包括要被合成的话音的发音和确定该话音的语调(prosody)的其他属性。这些其他属性可以包括(1)音节，单词，词组和分句界限；(2)音节重音；(3)话音部分信息；和(4)诸如ToBI标记系统所提供的语调显式表示，ToBI标记系统是本领域公知的，并且在有关口语处理的第二次国际会议(ICSLP92)TOBI中Silverman等人的文章“A Standard for Lableling English Prosody(一种用于标记英语语调的标准)”(1992年10月)中作了进一步描述。
在语言描述中包括的话音发音被描述为一连串语音单位(phoneticunit)。这些语音单位通常是音位或语音(phonics)或音位变形，音位或语音是特殊的物理话音，音位变形是表达一个音位的特殊方式。(音位是语言的说话人所察觉的话音)。例如，英语音位“t”可以表达为后跟一个爆破音的闭音，声门塞音，或闪音(flap)。这些中的每一个都表示不同的音位变形“t”。有时使用的其他语音单位是半音节和双音位。半音节是半个音节，而双音位是两个语音序列。
可以使用一个基于规则的系统从语音学中产生话音合成。例如，语音单位对于每个段类型具有一个目标音位(phenome)声学参数(例如持续时间和语调)，并且具有用于使各段之间的参数转换平滑的规则。在一种典型的连接系统中，语音成分具有在自然话音中出现的一段的一个参数表示，并且连接这些所录制的段，使用预定的规则平滑各段之间的界限。然后为了传输，通过一个声码器处理话音。在数字蜂窝通信装置中通常使用声码器，诸如矢量和或码激励线性预测(CELP)声码器。例如，通过引用包含于此的US专利4,817,157，描述了这样的一种声码器设备，其被用于其中的全球移动通信系统(GSM)。
不幸地是，如在上面描述的文本到话音的处理计算上复杂并且量大。例如，在现有的数字通信系统中，为了把语音质量保持在它的最高可能水平上，声码器技术已经使用了一个装置中的计算功率极限。但是，在上面描述的文本到话音的处理在除声码器处理之外，还需要信号处理。换句话说，把文本转换为声音、对每个语音应用声学参数、连接以提供有声信号、以及语音编码的处理要求比只进行语音编码更多的处理功率。
因此，需要一种改进的文本到话音编码系统，其降低要求提供有声输出所要求的信号处理量。特别地，能够使用通信装置中包含的现有本地话音编码将是有利的。如果可以使用当前的低成本技术而不需要定制硬件也将是有利的。

图1表示根据本发明的文本到话音系统的流程图；图2表示根据本发明的文本到语音系统的简化框图。
优选实施例的详细描述本发明提供一种改进的文本到话音系统，其通过利用数字信号处理器(DSP)和在蜂窝电话中已有的成熟的话音编码，降低提供语音输出所要求的信号处理量。特别地，本发明提供一种系统，其使用本地蜂窝话音编码和通信装置的现有硬件，把输入的文本信息转换为语音输出，而不增加存储要求或处理功率。
有利地，本发明利用蜂窝无线电话中的微处理器和DSP之间的现有数据接口以及现有的软件功能。此外，本发明可以与基于任何文本的数据业务一起使用，数据业务例如在全球移动通信系统(GSM)中使用的短消息业务(SMS)。传统的蜂窝手机具有以下适当功能(a)从远程业务提供者取回文本信息的空中接口，(b)把接收到的二进制数据转换为合适的文本格式的软件，(c)在输出装置播放音频的音频服务软件，输出装置例如是扬声器或耳机，(d)通过数字信号处理产生人声音的高效音频压缩编码系统，和(e)在微处理器和DSP之间的硬件接口。如本领域已知的，当接收一个基于文本的数据消息时，传统蜂窝手机将把该信号转换为文本格式(ASCII或统一代码)。本发明把该格式化文本串转换为话音。作为选择，该通信系统的网络服务器可以把该格式化文本串转换为话音并且在一个语音信道而不是数据信道上把该话音传送到一个传统的蜂窝手机。
图1和2表示一种根据本发明用于把文本转换到话音的方法和系统。在一个优选实施例中，该文本将被转换为通信系统本地的编码话音参数，节省把文本转换为语音以及然后通过一个声码器运行语音信号的处理步骤。在本发明的方法中，第一步骤102包括提供一个包含编码话音参数的代码表202。这样的代码表在本领域是已知的，并且典型地包括码激励线性预测(CELP)以及其中的矢量和激励线性预测(VSELP)。代码表202存储在一个存储器中。实际上，一个代码表包含表示关键话音参数(critical speech parameter)的压缩音频数据。因此，可以使用这些代码表编码并且解码音频信息的数字变换，以便减少提供更高效率的带宽，而语音质量没有显著损失。该处理中的下一步骤104是输入一个文本消息。优选地，该文本消息以一种现有格式被格式化，这种格式能够被通信系统读取，而不需要硬件或软件改变。
接下来的步骤106包括通过音频服务器204把该文本消息分为语音。该音频服务器204以在该蜂窝手机的微处理器或DSP中实现，或者可以网络服务器中进行。特别地，该文本消息基于一种特定语言的一个规则表在一个音频服务器204中进行处理，该服务器204是一个软件，该规则表适合识别那种语言的结构和音位(phenomes)。该音频服务器204通过识别空格和标点把文本的句子分为单词，并且进一步把单词分为语音。当然，一个数据消息可以包含除了字母之外其它的字符，或可以包含缩写词，缩略词和与正常文本的其他差异。因此，在把文本消息分为句子之前，这些其它的字符或符号，例如“$”，数字和通用的缩写词，将被该音频服务器翻译为他们的相应单词。为了仿真人说话的每个单词之间的停顿，在每个单词之间插入白噪声。例如，已经发现15毫秒周期的白噪声适于分开单词。
可选地，该文本可以包含特殊字符。特殊字符包括用于编码话音参数的修改信息，其中为了提供听起来更自然的话音信号，在变换(mapping)后，把该修改信息应用于编码话音参数。例如，可以使用一个特殊的字符(例如象ASCII符号)来指出一个单词的重音或音调。例如，单词“manual”可以在文本中表示为“ma’nual”。该音频服务器软件然后可以调整语音，以便使话音更接近一种自然改变音调的语音。这种选择要求文本消息业务或音频服务器提供这样的特殊字符。
在语言分析之后，接下来的步骤108包括通过变换单元206对照该代码表202查找相应于来自该音频服务器的每个语音的编码话音参数，变换每个语音。特别地，每个语音变换到一个相应的数字化语音波形，该波形已经以一个特定蜂窝系统本地的格式进行压缩。例如，如本技术领域中已知的，在GSM通信系统中，本地格式可以是半速率声码器格式。更特别地，每个语音具有一个该通信系统本地格式的预定数字化波形，该波形预先存储在存储器中。该音频服务器204确定一个语音，并且变换单元206把每个不同语音和一个查找表212中的一个预定语音的存储单元索引进行匹配，以便指向一个数字化波形文件，该文件定义代码表202的等效的本地编码话音参数。优选地，使用查找表212，把各个语音变换到在蜂窝电话声码器的现有代码表中的压缩和数字化音频的存储位置。对于英语，用GSM语音压缩算法，查找表的大小可以比一兆字节稍小。
例如，在英语或类似语言中大约有4119个可能的语音组合。平均来说，话音的速度大约是200单词/分钟(大约是每分钟500个语音，每秒6.7个语音)，这样每个语音持续0.15秒。用8kHz的抽样速率和16-bit的分辨率，大约有2400字节/语音(0.15秒×8kHz×2字节)。用GSM中所使用的10∶1的声码器压缩，压缩的数字化语音大约是240字节/语音。因此，对于每种具有大约4119语音的语言，查找表的总大小大约是989k字节。
变换单元(其可以是该音频服务器)然后可以使用从文本分为语音学到的单词和句子结构的知识，把该语音的数字化表示以及用于单词之间的间隔的白噪声组合为一个数据串。
在接下来的步骤110，相应于来自前一个步骤的每个语音和适当间隔的本地编码话音参数随后在一个信号处理器208(例如一个DSP)中进行处理，以便向该蜂窝电话手机的音频电路210提供解压缩话音信号，该手机包括音频转换器。由于已经用本地参数编码了语音，因此DSP不需要修改而能正确提供一个话音信号。为了利用现有的DSP功能，因为DSP和它的软件被设计用来解压缩在现有声码器中的特定编码格式，因此用于话音合成的编码系统应该使用一个特定蜂窝电话标准。例如，在基于GSM的手机中，数字化音频应该以全速率声码器编码格式存储，并且能够以半速率声码器格式存储。如果在DSP和微处理器之间的接口共享存储器，该音频文件可以直接放入该共享存储器。一旦句子被组合，将产生一个中断，以便触发DSP的读取，然后DSP解压缩和播放该音频。如果该接口是串行或并行总线，该压缩音频将被存储在RAM缓冲器中，直到完成句子。在此之后，微处理器将把该数据传送到DSP，以解压缩和播放。
优选地，上面的步骤对于输入文本中的每个句子可以被重复。然而，对于每个语音它也可以被重复或一直到可用存储器的长度。例如，一段、页或整个文本可以在被分为语音之前被输入。在一个实施例中，在变换步骤108之后包括一发射步骤。该发射步骤包括从一个网络服务器发送编码话音参数到一个无线通信装置，并且其中在该无线通信装置中执行该处理步骤，并且在该网络服务器中执行所有这些前面的步骤102-108。但是，在一种优选实施例中，所有的步骤102-110在一无线通信装置内执行。该文本消息本身通过一个网络服务器或另一个通信服务器来提供。
不象台式或膝上型计算机，蜂窝无线电话是一个对大小、重量和成本非常敏感的手持装置。因此，实现本发明的文本到话音转换的硬件应该使用最小数量的零件，且应该是低成本。语音的查找表应该存储在非易失和高密度的闪存中。因为闪存不能随机存取，因此语音的数字数据在被发送到DSP之前必须被加载到随机存储器中。最简单的方法是把整个查找表变换到该随机存储器，但是对于非常简单的查找表，这需要至少一兆字节的存储器。另一个选择是每次从闪存的一个扇区加载到该随机存储器，但是这仍然需要64k字节的额外随机存储器。
为了最小化存储器要求的目的，可以使用下面的方法(a)在查找表中查找语音的开始和最后地址，(b)在微处理器寄存器中存储开始和最后地址，(c)使用一个微处理器寄存器作为计数器，在从闪存读取查找表之前计数器设置为零，对于每个读循环都对该计数器加一，(d)以低时钟频率用非同步模式或同步模式从闪存中读取该查找表，以便该微处理器能够具有足够的时间执行读循环之间的必须操作，以及(e)通过比较计数值和开始地址，使用微处理器寄存器存储一字节/字的数据。如果计数值小于开始地址，返回到前一个步骤并且从闪存中读取下一个字节/字。如果计数值等于或大于开始地址，比较计数值和最后地址。如果计数值小于最后地址，从微处理器寄存器中把数据移入该随机存储器。如果该计数值大于最后地址，返回到前一步骤，并且完成对当前闪存扇区的最后的读取。这样，随机存储器的要求可以限制到200字节的大小。从而，对于即使最简单的蜂窝电话手机也不需要额外的随机存储器。
在上面的例子中，数字化语音音频文件被存储在闪存中，其可以在一个扇区接一个扇区的基础上存取该闪存。但是，加载一个语音文件的整页既费时效率又低。一种提高效率的方法是，一旦把一个存储器扇区加载到RAM中，就匹配存储在同一存储器扇区上的所有语音音频文件。不是对一个语音加载一个存储页，然后对于下一个语音加载另一页，而是可以组合一个中间阵列，该阵列包括一个句子中的所有语音的存储单元。表1表示一个简单的语音到存储单元的查找表。
表1查找表结构

考虑一个句子，“AB C”，在B和C之间有一个空格。在一种直接的方法中，页3加载入RAM中，然后在位置210开始把200个字节复制到一个存储缓冲器中。然后加载页4，在位置1500把180个字节复制到一个缓冲器中。然后把一个数字化白噪声段复制到该缓冲器中。之后再加载页3，在位置1000开始把150个字节复制到该缓冲器中。然后把该文本串转换为音频。也可以使用一个间接的方法。该直接和间接方法之间的区别在于，在直接方法中，软件不预先做准备(look ahead)。因此，在前面的例子，(ABC)中，软件将加载页3，查找(locate)并复制A，然后加载页4并查找和复制B，然后再加载页3并且查找和复制C，而在间接方法中，软件将加载页3并且把A和C复制到一个预先分配的存储缓冲器中，然后加载页4并且把B复制到该缓冲器中。这样，只需要加载两页，节省时间和处理器功率。
使用一种中间变换方法，“AB C”被翻译为一个存储单元阵列(memory location array)，{3:210:200，4:1500:180，3:1000:150}。基于所要求的总大小制造一个存储数字化音频的存储缓冲器，在这种情况中总的大小是三个语音的和(200+180+150)加上一个用于空格的白噪声段。一旦把页3加载到存储器中，就搜索该存储单元阵列，以便查找所有的音频文件，在这种情况下是A和C，然后复制到存储缓冲器中的相应位置。使用该方法，我们可以显著降低存储器存储时间并提高效率。
实际上，本发明使用通信系统中现有的基于文本的消息业务。SMS(短消息业务)是一种在GSM中很普遍的基于文本的消息业务。在特定情况下，即驾驶或天太黑而不能阅读时，非常期望把一个文本消息转换为话音。此外，所有的当前菜单，电话簿和操作提示在当前的蜂窝电话中都是文本格式的。对于视力减弱的人，通过这些可视提示进行导航是不可能。如上所述的文本到话音(TTS)系统解决了该问题。代替以带宽加强语音格式发送数据(也可以使用这种方法)，本发明允许使用许多具有低数据速率文本格式的通信业务，例如SMS。使用该方法，有利于以文本形式的实时驾驶方向说明、音频新闻、天气、位置业务、实时体育或插播新闻广播。TTS技术也为以非常低的成本在蜂窝电话中使用语音游戏应用打开了一扇门。
此外，TTS可以用基于文本的消息传送，从而使用更低带宽。它不会加重网络负担并且加重现有或未来的蜂窝网络容量压力。此外，本发明允许上层的网络操作员用文本消息传送能力提供广泛范围的增值业务，该能力在他们的网络中已经存在，而不必购买新带宽许可和在新设备上投资。这还可以应用于第三方业务提供者，在今天和建议的技术中，在向蜂窝电话用户提供任何种类的数据业务时，这些第三方提供者面对甚至比网络操作员更高的障碍。由于TTS可以和任何的标准文本通信业务一起使用，因此能够使用文本消息访问网关的任何人都可以提供各种业务给几百万蜂窝电话用户。随着技术和设备的障碍被消除，许多新的商机将向独立的第三方应用提供者敞开。
如现有的移动站点(web)应用，移动TTS应用还需要网络服务器支持。该服务器应该基于数据通信业务量和每个用户的费用被最佳化。本地服务器的主要日常成本就是数据通信业务量。低的数据通信业务量会降低在投资和日常成本上的服务器收益。本发明可以增加低数据通信业务量并且缓和数据通信业务量，因为当数据通信业务量带宽不可用时，文本不需要“根据要求”发送，而是可以等待更低可用数据通信业务量的周期。
虽然已经在上面的描述和附图中描述和说明了本发明，但是应该理解，该描述只是通过例子进行说明，本领域技术人员可以进行许多改变和修改而不脱离本发明的范围。虽然本发明是在便携蜂窝无线电话中获得具体使用，但是本发明应该也可以应用于任何通信装置，包括寻呼机、电子管理器和计算机。本发明应该仅受下面的权利要求的限制。
权利要求
1.一种用于在通信系统中把文本转换到话音的方法，该方法包括以下步骤提供包含编码话音参数的代码表；输入文本消息；把该文本划分为语音；对照所述代码表查找相应于每个语音的编码话音参数，变换每个语音；和随后处理从前一个步骤得到的相应于每个语音的编码话音参数，以提供话音信号。
2.权利要求1的方法，其中，划分步骤包括把所述文本消息划分为语音、空格和特殊字符。
3.权利要求2的方法，其中，划分步骤的特殊字符包括用于该编码话音参数的修改信息，其中，在变换步骤之后，进一步包括一个步骤把该修改信息应用到该编码话音参数，以便从该处理步骤中提供听起来更自然的话音信号。
4.权利要求1的方法，其中，在提供步骤中，该代码表包括码激励线性预测参数或矢量和激励线性预测参数中的一个。
5.权利要求1的方法，其中，在提供步骤中，该代码表是在该通信系统中的声码器中使用的现有代码表。
6.权利要求1的方法，其中，这些步骤在一个无线通信装置中执行。
7.权利要求1的方法，其中，在变换步骤之后，进一步包括从网络服务器把该编码话音参数发射到无线通信装置的步骤，并且在所述无线通信装置中执行该处理步骤，并且在该网络服务器中执行所有之前的步骤。
全文摘要
一种在通信装置中把文本转换到话音的方法，包括提供(102)包含编码话音参数的代码表。接下来的步骤包括输入(104)文本消息到通信装置中，并且把该文本消息划分(106)为语音。接下来的步骤包括对照该代码表变换(108)每个语音，以查找相应于每个语音的编码话音参数。下一个步骤包括处理(110)相应于每个语音的编码话音参数，以提供音频信号。这样，文本可以直接被变换到一个声码器表，而不需要中间的翻译步骤。
文档编号G10L13/08GK1559068SQ02818782
公开日2004年12月29日申请日期2002年8月23日优先权日2001年9月25日
发明者伍滨, 何帆, 伍滨申请人:摩托罗拉公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：伍滨;何帆
技术所有人：摩托罗拉公司
我是此专利的发明人