语音识别系统及方法

文档序号:7652069阅读:316来源:国知局

专利名称::语音识别系统及方法
技术领域
:本发明涉及一种语音识别(Voicerecognition)系统及方法,并且特别地,本发明涉及一种能根据所处位置选择适当的语音模型(Voicemodel)的语音识别系统及方法。
背景技术
:随着科技的进步,原本通过输入装置,如按钮、键盘、鼠标等,进行控制或操作的电子设备/系统,现在逐渐可通过语音进行控制或操作。举例而言,移动电话的声控拨号机制,让使用者可先预设一电话号码,并且预录相对应的一控制语音。往后,使用者仅需发出该控制语音便可拨打该电话号码,而不需要以按键操作移动电话进行拨打。特别地,当使用者专注于某项活动,如开车时,若使用具有声控拨号功能的移动电话,便可通过前述的机制拨号,而不需要分心用手拨号,因此确保行车安全。目前的语音识别技术可分为使用者相关(User-dependent)以及使用者无关(User-independent)两大类,前者需要使用者在4吏用前训练语音识别装置,让语音识别装置针对个别使用者达到最佳;后者则不针对个别使用者,而可接受不同使用者的语音指令。因此,使用者相关的语音识别装置的操作主要可分为训练阶段以及识别阶段。在训练阶段中,语音识别装置会提示使用者说出该装置内建的多个范例词汇的每个字符或词组至少一次,因此该装置便可学习使用者说出这些字符或词组的语音特性。对于前述的移动电话的范例词汇可包含,例如键盘上的数字;操作关键词,如"拨号"、"传送"、"删除"、"取消"、"储存"、"是"、"否"等;以及对应于特定电话号码的拨号对象姓名等。而在识别阶段中,使用者便可通过说出先前的范例词汇操作移动电话进行拨号等动作。在此阶段中,移动电话内的语音识别装置将使用者说话的内容与先前训练的发音进行对比,并且选择最佳匹配的发音作为驱动移动电话动作的依据。此外,使用者无关的语音识别装置同样可通过前述的训练阶段进行范例词汇的预录,不同的是,使用者无关的训练阶段需要较多人对语音识别装置说出范例词汇,甚至不断反复进行训练。例如,美国专利号第6735563号所公开的应用动态时间扭曲(DynamicTimeWarpingDTW)引擎作为识别核心的使用者无关的语音识别系统。再如,美国专利号第6671668号所公开的利用隐藏马可夫模型(HiddenMarkovModel,H醒)引擎,作为识别核心的使用者无关的语音识别系统。此类系统的好处在于,使用者不需要经过如使用者有关的语音识别装置一样的训练阶段,便可直接使用该装置。然而,使用者无关的语音识别装置需要更大的系统资源以及更多时间进行训练,即便如此,也难以达到与使用者有关的语音识别装置相同的最佳效果。
发明内容因此,本发明的一个目的在于提供一种语音识别系统及方法,并且特别地,根据本发明的语音识别系统及方法能根据所处位置选择适当的语音模型,由此,可针对不同位置的使用者建立特定的语音模型,提高语音识别的准确度以及效率,也可节省系统资源。根据本发明的第一优选具体实施例的一种用于语音识别的方法包含下列步骤首先,通过一全球定位系统获得一目前位置信息。接着,根据该目前位置信息获得相对应的一目前语音模型。最后,根据该目前语音模型进行语音识别。根据本发明的第二优选具体实施例的一种用于语音识别的方法包含下列步骤首先,藉由一网络信息获得一目前位置信息。接着,根据该目前位置信息获得相对应的一目前语音模型。最后,根据该目前语音模型进行语音识别。根据本发明的第三优选具体实施例的一种语音识别系统,包含一语音接收装置、一定位装置、一第一存储装置、一第二存储装置以及一语音识别单元。此外,该语音接收装置可接收一使用者的语音信号。该定位装置用以提供一语音接收装置目前位置信息。该第一存储装置则储存多个语音模型。该第二存储装置储存多个位置信息与该多个语音模型的对应关系,并且每个位置信息对应到该多个语音才莫型之一。另外,该语音识别单元才艮据该语音接收装置目前位置信息,将该第一存储装置中相对应的该多个语音模型之一设定为目前语音模型,该语音识别单元根据该目前语音模型对该使用者的语音信号进行语音识别。关于本发明的优点与精神可以藉由以下的实施方式对本发明的详述及附图得到进一步的了解。图1示出根据本发明一优选具体实施例的语音识别系统的功能方块图。图2A示出根据本发明一具体实施例的语音识别系统的功能方块图。图2B示出根据本发明一具体实施例的语音识别系统的功能方块图。图2C示出根据本发明一具体实施例的语音识别系统的功能方块图。图3示出根据本发明一优选具体实施例的用于语音识别的方法流程图。图4示出根据本发明一具体实施例的用于语音识别的方法流程图。图5示出根据本发明一具体实施例的用于语音识别的方法流程图。主要元件符号说明1:语音识别系统10:语音接收装置11:通信装置12:定位装置14:第一存储装置16:第二存储装置18:语音识别单元S50S53、S511、S521~S523、S531S533:流程步骤具体实施例方式本发明提供了一种语音识别(Voicerecognition)系统及方法。根据本发明的几个具体实施例公开如下。请参阅图1,图1示出才艮据本发明一优选具体实施例的语音识别系统的功能方块图。如图l所示,该语音识别系统l包含一语音接收装置10、一定位装置(Positioninga卯aratus)12、一第一存储装置14、一第二存储装置16以及一语音识别单元(Processingapparatus)18。进一步,该语音接收装置10可接收一使用者的语音信号,而该定位装置12则用以提供一语音接收装置的目前位置信息。该第一存储装置14可储存多个语音模型,而该第二存储装置16则可储存多个位置信息与该多个语音^t型的对应关系,并且每个位置信息对应到该多个语音模型之一。此外,该语音识别单元18可根据该语音接收装置的目前位置信息,将该第一存储装置14中相对应的该多个语音模型之一i殳定为目前语音才莫型(CurrentVoicemodel),然后该语音识别单元18根据该目前语音模型对该使用者的语音信号进行语音识别。在实际应用中,前述的语音接收装置的目前位置信息可以是地理位置信息,如该语音接收装置10目前所在的经绵度、街道、区域、城市、国家等。在实际应用中,该语音接收装置的目前位置信息也可以是虚拟位置信息,如网络位置信息等。在实际应用中,前述的目前语音模型可包含,如隐藏马可夫模型,或其它适当的语音模型。在一具体实施例中,本发明的语音识别系统1的定位装置12可包含一全球定位系统(GlobalPositioningSystem,GPS)收发装置。并且该定位装置12随着该语音接收装置IO移动,用以获得该语音接收装置10达到目前位置的经绵度坐标。特别地,在本具体实施例中,该第二存储装置16所储存的多个位置信息为多个经綷度坐标,并且每个经绵度坐标对应到该多个语音模型之一。因此,该语音识别单元18可用该定位装置12所获得的目前位置经綷度坐标对比该第二存储装置16中的多个位置信息以及对应的语音模型。该语音识别单元18再从该第一存储装置14中获得该对应的语音模型作为该目前语音模型以进行语音识别。在一具体实施例中,本发明的语音识别系统1的语音接收装置10以及语音识别单元18可通过无线或有线的方式连接于一网络上。此外,该语音接收装置10具有一语音接收装置的网络信息,例如该语音接收装置10所在的一因特网信息通信协议地址(IPaddress)信息或一域名(Domainname)信息。该语音接收装置10可通过该网络传送多个网络分组到该语音识别单元18,并且每一网络分组都具有部分该使用者的语音信号与该语音接收装置的网络信息。在本具体实施例中,该定位装置12进一步包含一分析装置,用以分析该网络分组中的该语音接收装置的网络信息。特别地,该第二存储装置16所储存的多个位置信息为多个网络信息,并且每个网络信息对应到该多个语音模型之一。因此,该语音识别单元18可根据该分析装置所分析的语音接收装置的网络信息对比该第二存储装置16中的多个位置信息以及对应的语音模型。该语音识别单元18再从该第一存储装置14中获得该对应的语音模型作为该目前语音模型以进行语音识别。请参阅图2A,图2A示出根据本发明一具体实施例的语音识别系统1的功能方块图。在本具体实施例中,本发明的第一存储装置14不随着该语音接收装置10移动,而该语音识别单元18则随着该语音接收装置10移动。换言之,该语音接收装置10以及该语音识别单元18可能一起被设置于交通工具,如火车、飞机、汽车、船等;便携式电子装置,如手机、相机、随身听、游戏机等;或其它便携式对象,如邮件、服装、玩具等上。而该第一存储装置14则可能^皮设置于,如服务器上。特别地,如图2A所示,在本具体实施例中,该语音识别系统1进一步包含一通信装置11,用以在该语音识别单元18以及该第一存储装置14之间传递该目前语音模型。在实际应用中,该通信装置11包含一无线传输模块,并且其规程可能分别或同时符合IEEE802.ll规程、3G规程以及WiMax规程。请参阅图2B,图2B示出根据本发明的另一具体实施例的语音识别系统l的功能方块图。在本具体实施例中,本发明的第二存储装置16不随着该语音接收装置10移动,而该定位装置12随着该语音接收装置10移动。换言之,该定位装置12以及该语音接收装置10可能一起被设置于交通工具、便携式电子装置或其它便携式对象上,而该第二存储装置16则可能被设置于,如服务器上。特别地,在本具体实施例中,该语音识别系统l进一步包含一通信装置ll,用以在该定位装置12以及该第二存储装置16之间传递该语音接收装置的目前位置信息。在实际应用中,该通信装置同样包含一无线传输模块,并且其规程可能分别或同时符合IEEE802.11规程、3G规程以及WiMax规程。请参阅图2C,图2C示出根据本发明的又一具体实施例的语音识别系统l的功能方块图。在本具体实施例中,本发明的第一存储装置14以及第二存储装置16不随着该语音接收装置10移动,而该定位装置12以及该语音识别单元18则随着该语音接收装置10移动。换言之,该定位装置12以及该语音接收装置IO可能一起被设置于交通工具、便携式电子装置或其它便携式对象上,而该第二存储装置16则可能被设置于,如服务器上。特别地,在本具体实施例中,该语音识别系统1进一步包含一通信装置11。该通信装置11可在该语音识别单元18以及该第一存储装置14之间传递该目前语音模型,同时也可在该定位装置12以及该第二存储装置16之间传递该语音接收装置的目前位置信息。在一实施例中,本发明的语音识别系统1的语音接收装置10、定位装置12、语音识别单元18以及通信装置11被设置于跨国行驶的火车上,而第一存储装置14以及第二存储装置16则纟皮设置于一控制中心的服务器内。当火车在A国境内行驶时,该定位装置12可获得该语音接收装置IO所在的经绵度(例如,通过GPS)、地区/城市(例如,通过A国车站的识别信号发射装置)等位置信息作为语音接收装置的目前位置信息。该语音识别单元18通过该通信装置11与该服务器沟通,并且以该语音接收装置的目前位置信息对比该第二存储装置16内的多个位置信息,并且以对比得到的位置信息所对应的语音模型作为目前语音模型(例如,针对该位置信息代表的地区/国家/城市居民的口音所开发的语音模型)。进一步,该语音识别单元18通过该通信装置11从该服务器中的该第一存储装置14下载该目前语音模型,并且用该目前语音模型对该语音接收装置10所接收的使用者的语音信号进行语音识别。举例而言,A国民众可能在火车上对该语音接收装置10下达"开门"、"关门"、"通知列车长"等语音指令,该语音识别单元18便可通过针对A国民众的口音所开发的语音模型进行语音识别,以提高语音识别的正确率。此外,当火车经过A国与B国的边境,进入B国时,该定位装置12同样可获得该语音接收装置10所在的经纬度(例如,通过GPS)、国家(例如,通过B国车站或B国边境的识别信号发射装置)等位置信息作为语音接收装置的目前位置信息。该语音识别单元18通过该通信装置11与该服务器沟通,并且以该语音接收装置的目前位置信息对比该第二存储装置16内的多个位置信息,并且以对比得到的位置信息所对应的语音模型作为目前语音模型(例如,针对B国居民口音所开发的语音才莫型)。进一步,该语音识别单元18通过该通信装置11从该服务器中的该第一存储装置14下载该目前语音模型,并且用该目前语音模型对该语音接收装置10所接收的使用者的语音信号进行语音识别。藉此,该语音识别单元18便可通过针对B国居民的口音所开发的语音模型进行语音识别,以提高语音识别的正确率。在另一实施例中,本发明的语音识别系统1的语音接收装置10、定位装置12、语音识别单元18以及通信装置11被设置于跨国寄送的邮件包裹上,而第一存储装置14以及第二存储装置16则被设置于一控制中心的服务器内。此外,在本实施例中,语音识别系统l进一步包含一警示装置以及一第三存储装置,这些装置同样被设置于邮件包裹上。当多个前述的邮件包裹从A国被寄送至C国时,本发明的语音识别系统1可从该控制中心的服务器内下载适当的语音模型(例如,针对C国邮政人员所开发的语音模型)作为目前语音模型,以识别C国邮政人员的语音信号。举例而言,C国邮政人员在处理邮件包裹时,可下达如"急件"、"转寄至D国"、"邮政编码12345"等语音指令,此时,这些邮件包裹中的语音识别单元18以该目前语音才莫型识别这些语音信号,并且将这些语音信号与第三存储装置中预存的多个递送信息对比,若符合的话,便驱动该警示装置发出声音或光线等警示信号,协助C国邮政人员快速取得并处理这些符合的邮件包裹。显而易见地,在本实施例中,本发明的语音识别系统1除了能提高语音识别的正确率之外,也可增加C国邮政人员处理邮件的效率。在又一实施例中,本发明的语音识别系统1的语音接收装置10、定位装置12、语音识别单元18以及通信装置11被设置于跨国销售的商品,例如,具有语音识别功能的玩具、手机、PDA等商品中。当这些商品分别在D国以及E国#:销售时,D国的使用者可在购买后,通过商品中的通信装置11从商品制造商在D国的服务器下载适当的语音模型,以供语音识别单元18作为目前语音模型进行语音识别。同样地,E国的使用者也可在购买后,通过商品中的通信装置11从商品制造商在E国的服务器下载适当的语音模型,以供语音识别单元18作为目前语音模型进行语音识别。藉此,商品制造商便不需要针对销售地区/国家而预先在制造时存入语音模型,因此可节省制造成本,也增加产品管理的灵活度。请参阅图3,图3示出根据本发明一优选具体实施例的用于语音识别的方法流程图。如图3所示,该方法包含下列步骤首先,在步骤S51,获得一目前位置信息。接着,在步骤S52,根据该目前位置信息获得相对应的一目前语音模型(Voicemodel)。最后,在步骤S53,根据该目前语音模型进行语音识别。请参阅图4,图4示出根据本发明一具体实施例的用于语音识别的方法流程图。如图4所示,该方法可进一步包含下列步骤首先,在步骤S50,预存一对照表(Look-uptable)于一服务器端,该对照表包含多个位置信息,并且每个位置信息对应一语音模型。接着,在步骤S511,将该目前位置信息传输至该服务器端。随后,在步骤S521,以该目前位置信息匹配该对照表的该多个位置信息。并且若有的话,在步骤S522,以该匹配的位置信息所对应的语音模型作为该目前语音模型。随后,在步骤S523,从该服务器端下载该目前语音模型。请参阅图5,图5示出根据本发明一具体实施例的用于语音识别的方法流程图。如图5所示,该方法可进一步包含下列步骤首先,在步骤S531,接受一使用者输入语音。随后,在步骤S532,利用该语音模型判断该语音是否为一现存语音。若是的话,在步骤S533,根据该现存语音产生相对应的一驱动信号。在一优选具体实施例中,前述的目前位置信息可通过全球定位系统(GlobalPositioningSystem,GPS)获得。换言之,该目前位置信息为一地理位置信息,其可包含经纟韦度坐标信息。在实际应用中,目前位置信息也可通过其它方式获得,例如,公交车站、火车站、机场等所发送的识别信号,或者其它适当的方式。此外,在另一优选具体实施例中,前述的目前位置信息可藉由网络信息,如因特网通信协议地址(IPaddress)信息、域名(Domainname)信息等获得。在本优选具体实施例中,该方法包含下列步骤首先,藉由该网络信息获得该目前位置信息。接着,根据该目前位置信息获得相对应的一目前语音模型。最后,根据该目前语音模型进行语音识别。在实际应用中,当目前位置信息为网络信息时,本发明的方法进一步包含下列步骤首先,预存一第一对照表(Look-uptable),该第一对照表包含多个网络信息,并且每个网络信息对应一位置信息。接着,获得该网络信息。随后,以该网络信息匹配该第一对照表中的该多个网络信息,若有的话,则以该匹配的网络信息所对应的位置信息做为该目前位置信息。在实际应用中,当目前位置信息为网络信息时,本发明的方法进一步包含下列步骤首先,预存一第二对照表于一服务器端,该对照表包含多个位置信息,并且每个位置信息对应一语音模型。随后,将该目前位置信息传输至该服务器端。接着,以该目前位置信息匹配该对照表的该多个位置信息,若有的话,则以该匹配的位置信息所对应的语音模型作为该目前语音模型。最后,从该服务器端下载该目前语音模型。综上所述,根据本发明的语音识别系统及方法能根据所处位置选择适当的语音模型,因此,可针对不同位置的使用者建立特定的语音模型,提高语音识别准确度以及效率。另一方面,根据本发明的语音识别系统及方法也能有效地节省制造成本。藉由以上优选具体实施例的详述,希望能更加清楚地描述本发明的特征与精神,而并非以上述所公开的优选具体实施例来对本发明的范围加以限制。相反地,其目的是希望能将各种改变及具有相同特性的安排涵盖于本发明所申请的权利要求的范围内。权利要求1、一种用于语音识别的方法,包含下列步骤获得目前位置信息;根据所述目前位置信息获得相对应的目前语音模型;以及根据所述目前语音模型进行语音识别。2、根据权利要求1所述的方法,其中所述目前位置信息通过全球定位系统获得。3、根据权利要求2所述的方法,进一步包含下列步骤预存对照表于服务器端,所述对照表包含多个位置信息,并且每个位置信息对应一语音模型。4、根据权利要求3所述的方法,其中根据所述目前位置信息获得相对应的所述目前语音模型的步骤,进一步包含下列步骤将所述目前位置信息传输至所述服务器端;以所述目前位置信息匹配所述对照表的所述多个位置信息,若有的话,则以所述匹配的位置信息所对应的语音模型作为所述目前语音模型;以及从所述服务器端下载所述目前语音模型。5、根据权利要求1所述的方法,其中根据所述目前语音模型进行语音识别的步骤,进一步包含下列步骤接受使用者输入语音;以及利用所述语音模型判断所述语音是否为现存语音,若是,则根据所述现存语音产生相对应的驱动信号。6、根据权利要求1所述的方法,其中所述目前位置信息藉由因特网通信协议地址获得。7、根据权利要求6所述的方法,进一步包含下列步骤预存第一对照表,所述第一对照表包含多个网络信息,并且每个网络信息对应一位置信息。8、根据权利要求7所述的方法,其中藉由所述网络信息获得所述目前位置信息的步骤,进一步包含下列步骤获得所述网络信息;以及以所述网络信息匹配所述第一对照表中的所述多个网络信息,若有的话,则以所述匹配的网络信息所对应的位置信息作为所述目前位置信自9、根据权利要求6所述的方法,进一步包含下列步骤预存第二对照表于服务器端,所述第二对照表包含多个位置信息,并且每个位置信息对应一语音模型。10、根据权利要求9所述的方法,其中根据所述目前位置信息获得相对应的所述目前语音模型的步骤,进一步包含下列步骤将所述目前位置信息传输至所述服务器端;以所述目前位置信息匹配所述第二对照表的所述多个位置信息,若有的话,则以所述匹配的位置信息所对应达到语音模型作为所述目前语音模型;以及从所述服务器端下载所述目前语音模型。11、根据权利要求6所述的方法,其中所述网络信息是因特网信息通信协议地址信息或域名信息。12、根据权利要求1所述的方法,其中所述目前位置信息是地理位置信息。13、根据权利要求1所述的方法,其中所述目前语音模型包含隐藏马可夫模型。14、一种语音识别系统,包含语音接收装置,可接收使用者的语音信号;定位装置,用以为语音接收装置提供目前位置信息;第一存储装置,储存多个语音模型;第二存储装置,储存多个位置信息与所述多个语音模型的对应关系,并且每个位置信息对应到所述多个语音^t型之一;以及语音识别单元,根据所述语音接收装置的目前位置信息,将所述第一存储装置中相对应的所述多个语音模型之一设定为目前语音模型,所述语音识别单元根据所述目前语音模型对所述使用者的语音信号进行语音识别。15、根据权利要求14所述的语音识别系统,其中所述定位装置进一步包含全球定位系统收发装置,所述定位装置随着所述语音接收装置移动,用以获得所述语音接收装置的目前位置的经绵度坐标;其中所述第二存储装置所储存的多个位置信息为多个经炜度坐标,并且每个经绵度坐标对应到所述多个语音模型之一。16、根据权利要求14所述的语音识别系统,其中所述语音接收装置与所述语音识别单元连接于网络上,且所述语音接收装置具有语音接收装置的网络信息,所述语音接收装置通过所述网络传送多个网络分组到所述语音识别单元,每一网络分组具有部分所述使用者的语音信号与所述语音接收装置的网络信息,所述定位装置进一步包含分析装置,用以分析所述网络分组中的所述语音接收装置的网络信息;其中所述第二存储装置所储存的多个位置信息为多个网络信息,并且每个网络信息对应到所述多个语音模型之一。17、根据权利要求16所述的语音识别系统,其中所述语音接收装置的网络信息为所述语音接收装置所在的因特网信息通信协议地址信息或域名4言息。18、根据权利要求14所述的语音识别系统,其中所述第一存储装置不随着所述语音接收装置移动,而所述语音识别单元随着所述语音接收装置移动,其中所述语音识别系统进一步包含通信装置,用以在所述语音识别单元以及所述第一存储装置之间传递所述目前语音模型。19、根据权利要求18所述的语音识别系统,其中所述通信装置包含无线传输模块,其规程包含从IEEE802.ll规程、3G规程以及WiMax规程所组成的组中选出的至少一个。20、根据权利要求14所述的语音识别系统,其中所述第二存储装置不随着所述语音接收装置移动,而所述定位装置随着所述语音接收装置移动,其中所述语音识别系统进一步包含通信装置,用以在所述定位装置以及所述第二存储装置之间传递所述语音接收装置的目前位置信息。21、根据权利要求20所述的语音识别系统,其中所述通信装置包含无线传输才莫块,其规程包含从由IEEE802.ll规程、3G规程以及WiMax规程所组成的组中选出的至少一个。22、根据权利要求14所述的语音识别系统,其中所述目前位置信息是地理位置信息。全文摘要本发明提供一种用于语音识别的方法,其包含下列步骤获得一目前位置信息;根据该目前位置信息获得相对应的一目前语音模型;根据该目前语音模型进行语音识别。特别地,该目前位置信息可以藉由一网络信息获得,或者通过一全球定位系统获得。文档编号H04L12/56GK101290770SQ200710098190公开日2008年10月22日申请日期2007年4月20日优先权日2007年4月20日发明者孙域晨,李昌鸿申请人:明基电通股份有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1