一种双向词语对齐方法及装置的制造方法

文档序号:9865501阅读:441来源:国知局
一种双向词语对齐方法及装置的制造方法
【技术领域】
[0001] 本发明设及机器翻译技术领域,特别是设及一种双向词语对齐方法及装置。
【背景技术】
[0002] 随着互联网的发展和国际交流的日益深入,人们的语言翻译需求日益增长。在运 种需求的带动之下,用机器翻译系统来协助人们快速翻译、建档,已成为无法避免的趋势。 据Google翻译团队披露,Google翻译每天提供翻译服务达十亿次,相当于全球一年的人工 翻译量,处理的文字数量相当于一百万册图书。由于互联网中存在的语言种类多,各语言又 具有大量的多义性,并处于时时刻刻的变化之中,因此,如何为用户提供高质量的翻译服务 仍然是一个难题。
[0003] 词语对齐旨在计算平行文本中词语之间的对应关系,它最早是作为机器翻译系统 的中间结果提出。词语对齐的质量直接影响机器翻译的质量,因此,词语对齐在机器翻译中 起着关键作用。
[0004] 现有机器翻译系统广泛使用生成式的单向词语对齐模型,其基本假设是每个目标 语言词仅仅与一个源语言词产生对应关系,一个源语言词可W和零个或多个目标语言词产 生对应关系。然而,运种假设无法很好地对现实中词语对齐的对称性进行建模,更无法统一 处理复杂的词语对齐情况,如一对多、多对一、多对多等。目前,解决该问题的主要方法是对 两个方向的单向词语对齐模型分别进行训练,训练完成之后使用启发式规则对两个非对称 的词语对齐结果进行合并。
[0005] 虽然利用启发式规则进行合并的方法能够在一定程度降低词语对齐的错误率,然 而由于对两个方向的单向词语对齐模型是分别进行训练的,无法解决词语对齐的对称性问 题,词语对齐的错误率仍然较高。
[0006] 为了解决词语对齐的对称性问题,目前机器翻译系统也有使用一致性模型,其假 设目标语言和源语言的词均为一对一的对齐,即构建了一个完全对称的模型。虽然一致性 模型极大地提高了词语对齐的精度,但是由于一对一的假设过于强化,降低了词语对齐的 召回率,并且违背了词语对齐的实际情况,对于本身对应关系不好的语言对效果较差,如在 处理一对多、多对一、多对多等复杂的词语对齐情况时,效果较差。

【发明内容】

[0007] (一)要解决的技术问题
[000引本发明提供一种双向词语对齐方法及装置,W解决现有技术中无法很好的对词语 对齐的对称性进行建模、词语对齐的错误率高,在处理一对多、多对一、多对多等复杂的词 语对齐情况时对齐效果差的问题。
[0009] (二)技术方案
[0010] 为了解决上述技术问题,本发明提出了 W下技术方案。
[0011] -方面,本发明提供一种双向词语对齐方法,包括:
[0012] A、构建源语言到目标语言的第一词语对齐模型和目标语言到源语言的第二词语 对齐模型;
[0013] B、利用一致性评估函数,融合所述第一词语对齐模型和第二词语对齐模型,构建 初始目标函数;
[0014] C、利用一致性评估函数,对所述第一词语对齐模型和第二词语对齐模型进行联合 训练,形成优化目标函数,并输出联合训练得到的模型;
[0015] D、利用所述优化目标函数及联合训练得到的模型,对平行双语句对进行词语对 齐,得到双向词语对齐结果。
[0016] 进一步地,所述步骤B前还包括步骤:
[0017] 构建数据集W及对所述数据集进行预处理;
[0018] 所述构建数据集包括收集平行双语句对,并将所述双语句对作为训练语料;
[0019] 所述对数据集进行预处理包括对数据集中的源语言和目标语言文本中的句子切 分成词、转换大小写和过滤无效字符。
[0020] 具体地,所述步骤B中的一致性评估函数包括用于对所述第一词语对齐模型和第 二词语对齐模型的词语对齐的一致性进行衡量的一致性评估函数一;
[00別]所述步骤C包括:
[0022] C1,针对数据集中的平行双语句对(s,t),利用第一词语对齐模型和第二词语对齐 模型分别求解,得到源语言到目标语言的第一词语对齐结果ai、目标语言到源语言的第二 词语对齐结果曰2;
[0023] C2,利用一致性评估函数一衡量第一词语对齐结果ai和第二词语对齐结果32的对 齐一致性,得到平行双语句对(S,t)的词语对齐一致性得分;
[0024] C3,将数据集中所有平行双语句对的词语对齐一致性得分相加,得到目标函数值;
[0025] C4,随机调整词语对齐连线,返回步骤C1-C3,重新计算目标函数值;
[0026] C5,判断本次调整词语对齐连线后得到的目标函数值是否增长或判断本次调整是 否达到预设的调整次数;
[0027] 若所述目标函数值不再增长或达到预设的调整次数,则输出调整过程中得到的目 标函数值最高时对应的第一词语对齐结果ai和第二词语对齐结果32,并执行步骤C6;
[002引否则返回步骤C4;
[0029] C6,利用所述目标函数值最高时对应的第一词语对齐结果ai和第二词语对齐结果 32,重新估计第一词语对齐模型和第二词语对齐模型的模型参数,并返回步骤C1;重复执行 步骤C1-C6,当迭代次数达到预设的迭代次数时,输出优化目标函数及优化的模型参数,并 输出联合训练得到的模型。
[0030] 可选地,所述一致性评估函数一为:
[0031] Scorewa = 2 I ai η a21 -1 ai U a21 ;
[0032] 其中,针对数据集中的句对(s,t),ai为通过第一词语对齐模型生成的第一词语对 齐结果,曰2为通过第二词语对齐模型生成的第二词语对齐结果,ai η曰2为第一词语对齐结果 和第二词语对齐结果交集中连线的数目,ai U 32为第一词语对齐结果和第二词语对齐结果 并集中连线的数目。
[0033] 优选地,所述步骤A还包括:
[0034] 构建用于对源语言中的短语进行切分的第一短语切分模型和用于对目标语言中 的短语进行切分的第二短语切分模型;
[0035] 所述步骤B包括:利用一致性评估函数,融合所述第一词语对齐模型、第二词语对 齐模型、第一短语切分模型和第二短语切分模型,构建初始目标函数;所述一致性评估函数 还包括用于对所述第一词语对齐模型、第二词语对齐模型的词语对齐和短语切分的一致性 进行衡量的一致性评估函数二;
[0036] 所述步骤C包括:
[0037] C1',针对数据集中的平行双语句对(s,t),利用第一词语对齐模型、第二词语对齐 模型、第一短语切分模型和第二短语切分模型分别求解,得到源语言到目标语言的第一词 语对齐结果ai、目标语言到源语言的第二词语对齐结果32、源语言的第一短语切分结果bi、 目标语言的第二短语切分结果b2 ;
[0038] C2',利用一致性评估函数一衡量第一词语对齐结果ai和第二词语对齐结果曰2的对 齐一致性,得到平行双语句对(S,t)的词语对齐一致性得分;利用一致性评估函数二衡量词 语对齐与短语切分的一致性,得到平行双语句对(S,t)的词语对齐与短语切分一致性得分;
[0039] C3',将数据集中所有平行双语句对的词语对齐一致性得分相加,数据集中所有平 行双语句对的词语对齐与短语切分一致性得分相加,组成目标函数值;
[0040] C4',随机调整词语对齐连线,并随机调整短语切分结果,返回步骤C1'至步骤C3', 重新计算目标函数值;
[0041] 巧',判断本次调整词语对齐连线和短语切分结果后得到的目标函数值是否增长 或判断本次调整是否达到预设的调整次数;
[0042] 若所述目标函数值不再增长或达到预设的调整次数,则输出调整过程中得到的目 标函数值最高时对应的第一词语对齐结果ai、第二词语对齐结果32、第一短语切分结果bi和 第二短语切分结果b2,并执行步骤C6' ;
[0043] 否则返回步骤C4';
[0044] C6',利用所述目标函数值最高时对应的第一词语对齐结果ai、第二词语对齐结果 32、第一短语切分结果bi和第二短语切分结果b2,重新估计第一词语对齐模型、第二词语对 齐模型、第一短语切分模型和第二短语切分模型的模型参数,并返回步骤cr;重复执行步 骤Cr至步骤C6',当迭代次数达到预设的迭代次数时,输出优化目标函数及优化的模型参 数,并输出联合训练得到的模型
当前第1页1 2 3 4 5 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1