一种机器翻译错词修正的后编辑处理方法
【技术领域】
[0001]本发明涉及机器翻译领域,特别涉及一种机器翻译错词修正的后编辑处理方法。
【背景技术】
[0002]如今互联网已经遍布全球,来自不同国籍和民族的人们能够随时随地分享交流信息;人们也迫切希望能快速畅通的获得网络上的所有信息。故而,多种语言之间准确高效的机器自动翻译在现在以及未来的国际化氛围下,有着极大的市场需求。但是,一个性能高、功能强大、准确率高的互联网多语言翻译系统在现在的技术水平下,还需要有很多重大的技术难点需要克服。在现有的机器翻译水平之下,高质量的可用的机器译文依然是不可得的。目前解决这一问题的一般方式为使用机器翻译作为前期处理,对机器翻译的结果作人工后编辑,从而能够得到可用的翻译结果。一般情况下要得到高质量的翻译结果,对人工后编辑的编辑人员的专业素质要求极高,专家级的人工后编辑人员是必不可少的,但是面对巨大的翻译需求缺口,人工后编辑的工作量极大,数量有限的专家是解决不了如此庞大的任务量,在后编辑中居高不下的人力和时间成本限制了机器翻译的发展和应用。
[0003]研究者们通过对用户编辑模式和翻译错误类型的分析发现,在机器翻译的结果中,很多错误是重复出现的(如词汇翻译错误,句子结构类型的错误,词语形式的错误等),如果通过人工后编辑来处理这些重复的错误,将消耗极大的人力和物力成本,同时也严重降低了机器翻译的效率和翻译用户体验的满意度。因此很多研究者尝试构建一个自动后编辑模型,以根据机器翻译的错误类型自动得修正包含相同或类似的翻译错误,以减少人工后编辑的工作量,提高机器翻译质量。现有的主流方法大多是根据“机器译文一一专家后编辑译文”的平行语料训练出基于SMT(基于统计的机器翻译)的自动后编辑模型。虽然基于统计机器翻译的自动后编辑的研究已经取得了一定的成果;但是统计机器翻译SMT里面具体发生了什么,还有很多是不明确的。就这一后编辑技术而言,仅能知道该方法能够提高最终翻译结果质量,但是不知道具体哪些后编辑操作是有效的(即那部分后编辑操作代表了机器翻译系统的缺陷),这不利于直观的分析机器翻译的弊端。在这些情况下如果能通过自动学习的方式解析出机器翻译的重复错误的相关模式,并且将这些模式化的错误自动更正;可以分析出机器翻译的错误根源,有助于从源头上提高机器翻译的质量。
[0004]此外对于机器翻译重复出现的错误中,翻译中译词错误是基本的错误之一,据统计,译词错误(包括词语丢失、多余词语、词语错误、译词不一致等情况)可以占到机器翻译总错误的60%以上。如果能在后编辑中采用机器修正的方式克服译词错误问题,将极大的提高机器翻译的效率的质量。
【发明内容】
[0005]本发明的目的在于克服现有技术中所存在的上述不足,提供一种机器翻译错词修正的后编辑处理方法,通过在机器学习中引入规则模板,通过规则模板的匹配不断修正和调整相应的机器译文中的错误翻译词汇使得机器译文不断地向标准译文逼近,以改善机器翻译的质量。所述规则模板的描述为:规则条件和相应的修正动作,其中规则条件包括机器翻译的当前词,当前词的上下文内容以及当前词对应的原词的上下文内容;当在机器译文和原文中检测出符合相应的规则条件时,执行相应的修正动作。在此基础上将修正后的机器译文与源文输入到学习机中,再次进行规则条件检测,当检测出符合规则条件时,触发相应的修正动作;重复上述过程,通过迭代不断提取新的修正规则,直到不能学到新规则时,停止迭代。在迭代的过程中通过将修正后机器翻译的结果与标准译文进行比照,计算出BLEU值和每次修正后相比于前次计算的BLEU增益值。
[0006]为了实现上述发明目的,本发明提供以下技术方案,一种机器翻译错词修正的后编辑处理方法,包含以下实现过程:
[0007](I)构建错词修正规则模板,所述错词修正规则模板包括规则条件和修正动作,其中所述规则条件包括当前词,当前词的上下文内容、当前词对应的源文的上下文内容;所述修正动作为将当前词修正为替换词;所述当前词和替换词的获取过程包括,通过将机器译文、翻译源文和标准译文的相应内容进行对比,当发现机器译文中A词的上下文内容与标准译文中的B词的上下文内容相同,而A在B时,就将机器译文中的A词作为当前词(错词或者被替换词),而将标准译文中的B词作为替换词,(应理解A、B仅为代号,并非为A字母或者B字母)。
[0008](2)使用上述错词修正规则模板提取机器翻译的错词修正规则。
[0009 ]其中所述步骤(2)中包括以下实现步骤:
[0010](2-1)准备训练集,所述训练集包括待翻译源文和对应的标准译文;
[0011](2-2)将上述待翻译源文输入机器翻译系统中获取对应的机器译文;
[0012](2-3)将所述训练样本集与机器译文输入到具有错词修正规则模板的学习机中;
[0013](2-4)所述学习机对比机器译文与标准译文和原文的差异,根据错词修正规则模板提取机器译文中的错词修正的第一规则,形成对应的第一规则集合;
[0014](2-5)利用第一规则集的每条规则来修正Dev机器译文;并将修正后的译文与Dev标准译文进行比较,计算每条规则BLEU的增益值,从规则集中选出BLEU的增益值最大的修正规则(将其定义为:第一修正规则);
[0015](2-6)应用所述第一修正规则来修正机器译文,形成第一修正译文;
[0016](2-7)将第一修正译文输入学习机中;所述学习机对比第一修正译文与标准译文和原文的差异,根据错词修正规则模板提取第二规则,形成第二规则集;
[0017](2-8)利用第二规则集的每条规则来修正Dev机器译文;并将修正后的译文与Dev标准译文进行比较,计算每条规则的BLEU的增益值,从规则集中选出BLEU的增益值最大的修正规则(将其定义为:第二修正规则);
[0018]重复上述步骤,依次迭代,直到BLEU的增益值小于设定的阈值,停止计算;并将规则序列返回。
[0019]进一步的,将所述规则序列应用于测试集中,使用规则序列来修正测试集中的机器译文的错词,并对修正结果进行BLEU评价,根据评价结果来评估规则序列的效果。
[0020]进一步的,应用所述规则序列来自动更正机器译文中的错误译词;减少机器译文中的译词错误,提高机器翻译的质量,减少人工后编辑的工作量,提高机器翻译的质量和效率。
[0021]进一步的,所述规则模板,包括的规则条件为:机器译文中的当前词和当前词的前N个词语和当前词的后N个词语,以及当前词的对应原文词的前N个词语和后N个词语;修正动作为:将当前词修正为替换词,所述替换词为当前词对应的标准译文中的。
[0022]进一步的,所述当前词可以为空值,即相当于对机器译文缺词的情况。
[0023]进一步的,所述替换词也可以为空值,即相当于将机器翻译中出现多词的情况,通过替换为空值的情况,将多余的词语删除,使机器翻译的结果变好。
[0024]进一步的,所述当前词和或替换词也可以为短语,通过短语的增加,删除和替换,可以发现更多的机器翻译的错词情况,使得机器翻译的结果效果显著的提升。
[0025]进一步的,所述规则条件为:当前词,当前词的上文内容;或者为当前词,当前词的下文内容。这样的情况下,当出现上文内容和当前词时,可以不考虑下文的内容直接将当前词修正为替换词;或者当出现当前词和下文内容时,可以不考虑上文的内容直接将当前词修正为替换词;同样,在特定情况下,上下文内容均可为空(比如某个词的正常译词既可以为A也可以为B,但是在某个领域的翻译中仅能够翻译为B,此时在该领域翻译中就可以直接将该译文中的A词替换为B词,而不考虑上下文内容)。
[0026]与现有技术相比,本发明的有益效果:本发明提供一种机器翻译错词修正的后编辑处理方法,通过设计错词修正规则模板,从训练数据集中来抽取机器翻译中的错词修正规则;通过抽取出来错词修正规则来自动修正机器翻译译文中的词语错误,以提高机器翻译的译文质量,实现机器翻译的自动后编辑。本发明方法的错词模板包括机器译文的当前词,当前词的前后文内容以及当前词对应原文中原词的上下文内容。本发明方法中的采用的规则模板引入了更多的考虑因素和计算条件,更加符合翻译的原理和本质(因为翻译是在准确、通顺的基础上,把原文信息转变成另一种语言信息的行为);所提取出来的修正规则也相应的结合了更多的合理条件,能够更加有效的修正机器翻译的译词错误。
[0027]本发明将规则模板加载于学习机中,将训练样本集(包括源文和标准译文)和对应的机器译文输入到学习机中,所述学习机根据规则模板来抽取机器翻译中的译词错误修正规则;并通过修正规则来更正机器译文的中相应译词错误;在进行规则应用时,本发明仅提取在开发集(Dev集)中BLEU增益最大的规则来修正机器译文,并将修正后的机器译文和训练集再次