机器翻译装置和机器翻译方法

文档序号:9708286阅读:392来源:国知局
机器翻译装置和机器翻译方法
【技术领域】
[0001]在此描述的实施例一般地涉及机器翻译装置和相关方法。
【背景技术】
[0002]近年来,开发了用于口语的自然语言处理。例如,用于使用个人数字助理翻译旅行会话的机器翻译技术是一个不断发展的领域。旅行会话中的句子和用户之间的对话通常很短。当完整地输入每个句子并且执行机器翻译处理时,在用户之间的意图交流的准确性方面几乎没有难度。
[0003]另一方面,具有口语的另一种表达,被称为独白,例如演讲报告或简介会。在独白中,一个说话者说出至少一段,该段具有涉及单个主题的数个句子。当独白经受机器翻译处理时,在说话者完全说出该段之前,段中的每个句子需要逐步经受机器翻译处理。逐步执行机器翻译处理实现说话者对听众进行意图传达的高准确性。这种机器翻译处理被称为“渐进翻译”或“同步翻译”。
[0004]同步翻译连续地输入话语作为源语言文本,将源语言文本分割成要适当地处理的单位,并且将这些单位翻译成目标语言。但是,口语不同于书面语(例如,校对者编辑的报纸文章和用户手册),并且口语没有指示分割句子和从句的标点符号。因此,在口语中难以适当地分割句子和从句。
[0005]为了解决上面的困难,第2007-18098号日本公开披露了由停顿(其间说话者停止说话的很短时间)和执行的形态分析来分割源语言文本,并且由预定模式修正分割位置以便将独白分割成待处理单位。
[0006]但是,仅渐进翻译各单位不会变换句子结构并且因此生成的机器翻译结果实现说话者对听众进行意图传达的低准确性。
[0007]例如,考虑以下情况:对话语进行语音识别处理,并且输入源语言文本(日语文本)“77° y ?更新?:八'夕'?修正汾遅札τ来週(乙* 9分析该日语文本以便分割三个待处理单位(三个从句)“77° y ?更新?: //八'夕'?修正汾遅札
τ、//来週cm “//”在此表示待处理单位的分割位置。渐进地翻译各单位可以获得采用英语的机器翻译结果“an update of applicat1n(应用的更新)//because abug fixing is late (因为错误修复较晚)//it will be next week (它将在下周)”。但是,结果在以下方面模糊不清:单词“it(它)”表示“an update of applicat1n( 77° 'J?更新)”还是“a bug fixing(/《夕'?修正)”,并且然后结果在意图交流方面有麻烦。

【发明内容】

[0008]各实施例提供机器翻译装置和相关方法,所述装置和方法能够针对连续输入的源语言文本检测待处理单位,并且基于所述待处理单位的顺序信息,控制每个所述待处理单位的翻译结果的序列顺序。
[0009]根据一个实施例,一种机器翻译装置包括:语音识别部,其接收源语言的语音输入,识别所述源语言的所述语音输入并且生成所述源语言的文本,所述源语言的所述语音输入是按次序的输入,所述源语言的所述文本是语音识别的结果和分析信息;分割部,其基于所述分析信息,判定待处理单位的分割位置和翻译顺序信息,所述待处理单位是语义单位,每个所述语义单位表示所述源语言的所述文本的部分含义;机器翻译部,其将所述待处理单位按次序翻译成目标语言;翻译控制部,其基于所述翻译顺序信息排列翻译后的单位,并且生成所述目标语言的文本;以及输出部,其输出所述目标语言的所述文本。
[0010]根据各实施例,能够提供一种机器翻译装置和相关方法,所述装置和方法能够使操作尽可能与口语保持同步,以便获得清晰的翻译结果,并且实现说话者与听众进行意图传达和交流的高准确性。
【附图说明】
[0011]图1示出一个实施例的完整机器翻译装置100 ;
[0012]图2示出完整分割部102 ;
[0013]图3示出分析部所分析的结果的一个实例;
[0014]图4示出训练集的文本语料库的一个实例;
[0015]图5示出翻译顺序判定部204中的判定规则的一个实例;
[0016]图6示出完整翻译控制部;
[0017]图7示出所述实施例的同步机器翻译处理的操作的流程图;
[0018]图8示出在同步机器翻译处理中控制翻译顺序的第一实例;
[0019]图9示出在语音输入具有时间延迟的情况下控制翻译顺序的第二实例;
[0020]图10示出在语音识别结果具有识别错误的情况下控制翻译顺序的第三实例;
[0021]图11是可以结合在此描述的一个或多个方面实现的实例计算环境的框图。
【具体实施方式】
[0022](示例性实施例)
[0023]该实施例解释源语言是日语,并且目标语言是英语。但是机器翻译的语言对并不限于上面的情况。可以执行任何两种语言或方言之间的翻译。
[0024]图1示出一个实施例的机器翻译装置100的完整布置。装置100包括:语音识别部101,其接收源语言的语音输入;分割部102 ;翻译控制部103 ;机器翻译部104 ;输出部105,其输出目标语言的文本;以及修正部106。
[0025]部101接收源语言的语音输入作为到装置100的输入,并且生成(a)源语言的文本作为语音识别结果和(b)指示语音识别结果的置信度的似然。语音识别过程已知为各种常规技术,例如基于隐马尔可夫模型的方法。因为这些技术已知,所以省略详细解释。
[0026]分割部102接收(a)来自部101的源语言的文本和(b)来自部103的过去翻译的单位的时间信息,并且生成待处理单位。待处理单位包括(a)表示文本的部分含义的文本部分(例如,从句、词组等)和(b)表示是否可以更改翻译顺序的翻译顺序信息。
[0027]翻译控制部103从部102接收待处理单位,并且生成目标语言的文本,该文本是由部104翻译的机器翻译结果。
[0028]机器翻译部104从部103接收源语言的文本,使用机器翻译生成目标语言的文本,并且将目标语言的文本发送到部103。机器翻译处理已知为各种常规技术,例如基于规则的机器翻译、基于实例的机器翻译或统计机器翻译。因为这些技术已知,所以省略详细解释。
[0029]输出部105输出由部103生成的目标语言的文本。部105还可以输出部101识别的源语言的文本和似然。因此,如果似然小于或等于预定阈值,则可以注释并输出对应于该似然的源语言的文本的一部分,以便促使用户修正语音识别结果。要输出的文本可以从任何输出设备输出,这些输出设备例如包括显示设备(未示出)、打印机设备(未示出)或语音合成设备(未示出)。这些输出设备可以改变或同时使用。
[0030]修正部106响应用户的操作,并且在必要时修正语音识别结果。修正方式可以是诸如键盘设备(未示出)、鼠标设备之类的输入设备,或者使用语音输入设备的重述操作。此外,从部101接收修正候选者,并且促使用户选择一个候选者以便执行修正。
[0031]图2示出分割部102的完整布置。部102包括:分析部201,其从部101接收源语言的文本;分割位置判定部202 ;存储部203 ;翻译顺序判定部204 ;以及生成部205。
[0032]分析部201执行源语言的文本的形态分析以便分割词素单位并且获得单位的词性,执行源语言的文本的句法分析以便获得源语言的文本的从句和/或词组之间的语法关系,并且然后获得分析信息。
[0033]图3示出部201所分析的结果的一个实例。分析部210输入源语言句子301 “ 77° y ?更新《; /《夕' ?修正汾遅札τ υ ? τ来週(乙旮*9子3 τ才”,分析句子301并且然后输出分析结果302。分析结果302表示词素“? 的词性是连词,词组“/《夕'?修正汾遅札是句子301的部分含义(即,从句)并且“状语从句-原因”作为句法信息。
[0034]分割位置判定部202接收分析结果302,使用存储部203检查结果302,并且然后判定句子301的分割位置。
[0035]存储部203存储训练集的文本语料库构造的判定模型。图4示出训练集的文本语料库的一个实例。训练集的文本语料库包括多组训练集401,它们是具有话语的预定分割位置和时间信息的某些文本。训练集401将训练句子“原材料?納品汾遅扎τυ 製品?出荷汾遅札? 9 τ才”分割成第一从句“原材料?納品汾遅札和第二从句“製品?出荷汾遅扎子3Τ才”,并且存储说出的从句的时间信息。判定模型可以通过以下项构造:诸如条件随机场之类的机器学习技术,或者人类制定的规则。例如,人类制定的规则包括以下规则:在“ωτ”之前和之后分割作为对应于训练集401的判定标准。
[0036]翻译顺序判定部204判定翻译顺序信息,该信息表示是否可以更改由部202分割的待处理单位的翻译顺序。图5示出翻译顺序判定部204中的判定规则的一个实例。判定规则表示源语言(例如,日语)句子的结构和目标语言句子的顺序信息(即,采用要翻译成英语的顺序)。
[0037]当第一从句“原材料?納品汾遅扎”是待处理单位和句法信息“状语从句-原因”时,部204判定要翻译成目标语言的顺序信息是“可后置(Postpose)”。部202还具有以下功能:通过比较当前时间信息(即,部101接收源语言的语音输入时的时间)和与从部1
当前第1页1 2 3 4 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1