双语文本的对齐方法及装置的利记博彩app

文档序号:6575588阅读:285来源:国知局
专利名称:双语文本的对齐方法及装置的利记博彩app
技术领域
本发明涉及文本信息处理领域,特别涉及一种双语文本的对齐方法及装置。
背景技术
随着互联网的迅猛发展,互联网上的信息量呈指数爆炸式增长。如何利用好这些信息则成为了一个难题,尤其是语言上的不统一,人们期望有一种自动的或需要很少人工干预的方法将一种语言转换成另一种语言,而这些方法的设计和实施需要大量的双语对齐文本(即已给出在篇章级、句子级、词语级等级别的对应关系的双语文本)。由于人工制作双语对齐文本费时费力,于是需要一些方法来自动对双语文本进行对齐(即给出双语文本在篇章级、句子级、词语级等的对应关系)。
现有技术中的一种对齐方式是采用句子长度信息来对双语文本进行对齐;另 一种对齐方式是采用词语间互译关系来对双语文本进行对齐。
在实现本发明的过程中,发明人发现现有技术至少存在以下几个缺点采用句子长度信息来对双语文本进行对齐时,当输入文本中出现的句子缺失或插入时,会引起对齐性能的急剧下降,从而导致鲁棒性差;第二种对齐方式随着文本长度的增加,词语数量的增多,对齐的时间也将随之增长,从而导致对齐的速度很慢。

发明内容
为了提高双语文本的对齐速度,并同时保证良好的鲁棒性,本发明实施例提供了 一种双语文本的对齐方法及装置。所述技术方案如下一方面,提供了一种双语文本的对齐方法,所述方法包括将待对齐双语文本的原文文本及译文文本分别进行预处理;判断所述原文文本及译文文本之间的句子数差值是否足够大,并根据判断结果,将经过预处理的双语文本分割成多个双语文本片段;根据词语间的互译关系,将每个双语文本片段进行对齐,得到对齐的双语 文本。
另一方面,提供了一种双语文本的对齐装置,所述装置包括
判断模块,用于判断所述原文文本及译文文本之间的句子数差值是否足够
大;
分段模块,用于根据所述判断模块的判断结果,将经过预处理的双语文本 分割成多个双语文本片段;
对齐模块,用于根据词语间的互译关系,将所述分段模块得到的每个双语 文本片段进行对齐,得到对齐的双语文本。
本发明实施例提供的技术方案的有益效果是
通过判断原文文本及译文文本之间的句子数差值是否足够大,并根据判断 结果,将经过预处理的双语文本可靠地分段,再分别对每个双语文本片段进行 对齐,从而提升对齐的速度;又由于在对每个双语文本片段进行对齐时,采用 的是词语间的互译关系,因此保证了良好的鲁棒性。


为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所 需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明 的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下, 还可以根据这些附图获得其他的附图。
图1是本发明实施例1提供的双语文本的对齐方法流程图2是本发明实施例2提供的双语文本的对齐方法流程图3是本发明实施例3提供的双语文本的对齐装置结构示意图4是本发明实施例3提供的双语文本的对齐装置中的分段模块结构示意图。
具体实施例方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施方式作进一步地详细描述。 实施例1
参见图1,本实施例提供了一种双语文本的对齐方法,方法流程如下所示
101:将待对齐双语文本的原文文本及译文文本分别进行预处理;
102:判断所述原文文本及译文文本之间的句子数差值是否足够大,并根据
判断结果,将经过预处理的双语文本分段,得到一至多个双语文本片段;
103:根据词语间的互译关系,将每个双语文本片段进行对齐,得到对齐的
双语文本。
本实施例提供的方法,通过判断原文文本及译文文本之间的句子数差值是 否足够大,并根据判断结果,将经过预处理的双语文本可靠地分段,再分别对 每个双语文本片段进行对齐,从而提升对齐的速度;又由于在对每个双语文本 片段进行对齐时,采用的是词语间的互译关系,因此保证了良好的鲁棒性。
实施例2
参见图2,本实施例提供了一种双语文本的对齐方法,该方法针对句子级的 对齐,通过将双语文本可靠地分段来有效提高句子对齐的速度,从而实现整篇 双语文本的对齐,具体方法流程如下
201:将待对齐双语文本的原文文本及译文文本分别进行预处理;
并将存在词根的词映射为对应的词根,例如,将英文中代表名词复数的词映射 成对应的单数词;将标点符号转换成单字节形式,例如,将中文双引号映射成 ASCII石马(American Standard Code for Information Interchange , 美国信 息交换标准代码);将易于转换的非阿拉伯数字转换成阿拉伯数字,例如,将"三 十五"转换成"35";除此之外,还要统计每个词在整篇文本中出现的次数,及 在其所在的句子中出现的次数,并统计每个句子的指紋。 关于句子的指紋,定义如下:
给定句子序列 L, &,记wC^为句子s.中所有词的集合,则句子《的 指紋为
其中,F(^H『0》—F(&)-『(&)-『Cvi),"-"代表集合的差运算。202:判断原文文本及译文文本之间的句子数差值是否足够大,如果是,执 行206,否则,执行203;
针对该步骤,设原文文本的句子数为^,译文文本的句子数为i^,如果 l^-A^I/minCTVp 7V2)>0.5,则认为差值足够大,其中,min(A^, i^)表示取i^与iV2 中的最小值。
203:使用句子长度信息将原文文本及译文文本进行初步对齐,得到多个句
子对;
具体地,给定两段互为翻译的文本(s; r)-(^&L <sw; 7;r2L r ),其中,s 为原文文本,r为译文文本,s.和7分别为原文文本和译文文本中的第z'个句子。 用4 = (&M+1,&,;rAM+1,7;)表示一组句子,称为一个句子对。如果存在
At0 = 0 <…< < <…< a4 - w,60 = 0 <…< &w < ^ <…< ^ = w , 贝'J称^4=4, 4二 , ^为
(s; r)的一个对齐。
在使用句子长度信息将原文文本及译文文本进行初步对齐时,通过建立数 学模型来描述原文文本句子长度与译文文本句子长度间的关系,根据此模型可
以算出任意一个句子对对齐的概率尸(4),而原文文本和译文文本的一个对齐爿
的概率则为尸04)-P(4)尸(4)L尸(4t),将令户04)取得最大值的对齐作为原文与
译文的对齐结果,根据对齐结果,得到多个句子对;目前已有多个才莫型提出原 文文本句子长度与译文文本句子长度间的关系,但这些模型的定义之间比较相 似,没有根本性的差别,并不影响本发明实施例的实施,可以才艮据具体的语言 选取一种最适合的模型使用。
在本实施例中,定义户(4)-尸(^P(A^, AV),其中,尸(。=(1/71^>—了,
"dc》/VV72 , ^为4中原文文本句子长度,^r为译文文本句子长度,c 是单位长度的译文文本平均对应的原文文本长度(亦即单位长度的译文文本对 应的原文文本长度的数学期望),(J是单位长度的译文文本对应的原文文本长度 的方差,这两个值在不同的语言间是不同的,可以使用相应语言的句子级互译
文本统计得到。
关于尸(iVs, iV》的定义使用句子级互译文本可以得到不同数量的原文文本 句子与译文文本句子对齐的概率,举一例说明,假设从句子级互译文本中统计
得到1句原文文本对应1句译文文本的情形有100次,1句原文文本对应2句译 文文本的情形有10次,2句原文文本对应1句译文文本的情形有15次,并且没
10有其他的情形。则1句原文文本对应1句译文文本的概率为100/(100+10+15), 则1句原文文本对应2句译文文本的概率为10/(100+10+15),则2句原文文本 对应1句译文文本的概率为15/(100+10+15)。记4中原文文本句子数为&,译
文文本句子数为AV,尸C^, A^)是A^句原文与A^句译文文本对齐的概率。
204:对得到的每个句子对进行验证计算,选择符合验证条件的句子对作为 初始分割点,并在初始分割点处将经过预处理的双语文本分割成多个双语文本 初始片段;
在对每个句子对进行一验证计算时,需要对每个句子对计算77^0S;, 7})、 7T r(5;, 7})、 77^S109,., 7})、 7F及r(S, 7})这四个值,计算公式如下
<formula>formula see original document page 11</formula>
其中,在给定句子对( ,&2,L , 。2,L ,、),简记&, &2,L , s細为
S,代表原文文本中的句子;^, ^,L, 为7),代表译文文本中的句子。 为原文文本句子&中所有词的集合,『(7})为译文文本句子7}中所有词的集合,
r『(《)为中可以在『(7})中找到译文的词的集合,r『(r》为『(7})中可以 在『os,.)中找到原文的词的集合。在求出句子对中的每个句子的指紋后,F(《)为
原文文本中所有句子的指紋的并集,F(7))为译文文本中所有句子的指紋的并 集。而IF(S)为尸(S)中可以在中找到译文的词的集合,7F(7))为F(7))中 可以在『(S)中找到原文的词的集合。
符合验证条件的句子对为至少满足下面 一个条件的句子对:
条件l: 7T^(6;, 7}) 2 0.6且r及r(S, 7}) 2 0.6;
条件2: mS(S, T))^0.5且ri r(S, 7})^0.5
且r觸(《.,r》^o.4且rF及r(5;-, 7})^o.4。
205:在各个双语文本初始片段中选择满足分割条件的句子对作为候选分割 点,之后执行步骤207;
其中,分割条件为句子对中含有多对互为翻译的词,且互为 译的词仅出现在该句子对中;由于该步骤是在各个双语文本初始片段中选择满足分割条件 的句子对,因此,分割条件中所涉及到的"互为翻译的词仅出现在该句子对中" 应该理解为"互为翻译的词仅出现在对应的双语文本初始片段中的该句子对 中"。
此处的分割条件是为了进一步确定候选分割点的准确性,本实施例不对互 为翻译的词的对数进行限定,例如,可以包含3对或3对以上互为翻译的词, 且仅在此句子对中出现的词。
206:在经过预处理的双语文本中直接选择满足分割条件的句子对作为候选 分割点;
该步骤中的分割条件同步骤205,由于该步骤是在经过预处理的双语文本中 选择满足分割条件的句子对,因此,分割条件中所涉及到的"互为翻译的词仅 出现在该句子对中"应该理解为"互为翻译的词仅出现在经过预处理的双语文 本中的该句子对中"。
207:对选出的每个候选分割点,在其前后各取AT个句子连同其自身组成一 个双语文本测试片段,得到多个双语文本测试片段;
208:根据词语间的互译关系将每个双语文本测试片段对齐,根据对齐结果 及筛选规则,筛选候选分割点;
针对该步骤,根据词语间的互译关系将每个双语文本测试片段对齐的具体 步骤如下
定义了一个评分函数SF(4)来对每个句对进行评分,而对齐4-4^L 4t的 评分为5F(4) + SF(4)+L +5F(4),将该评分最大的对齐作为原文与译文的对
齐结果。
其中,5F(4)的定义如下给定一组句子(《LL TILL ]),设c是 S.L L &中的一个词,e是7;L L r,中的一个词,且c与e是互为翻译的,记w/(c) 为词c在^LL A.中出现的次数,w/0)为e在7;LL r,中出现的次数,关于每 个词在句子中出现的次数,上述步骤201的预处理步骤中已给出结果。记 s(/Xc; e)为s纩(c)与s(/Xe)中较小者;r为双语文本测试片段的原文文本的总词 数,^/(c)为c在双语文本测试片段的原文文本中出现的总次数,/力/(c)为 r/^/(c)。任给一个句对4=(《.;?;),记(q; e,)......q)为S和7)中互为翻
i奪的词对,则sf(4) = pog(w/(c,》x 阔|,| ; I) x,々)
其中,mp(IS,I,I7^是4中原文句子数与译文句子数的函数,丄户(4,,4;)是4 中原文句子长度与译文句子长度的函数。
在根据词语间的互译关系进行对齐之后,依据以下几种筛选规则,筛选候 选分割点,即决定是否保留、替换选择出的候选分割点,具体规则如下
规则1:若对齐结果为候选分割点对应的双语文本测试片^:中至少有一半句 子对只包含原文文本或译文文本的句子,则将候选分割点丟弃;
规则2:若对齐结果为候选分割点对应的句子对中的句子分属不同的句子 对,则将候选分割点丟弃;
规则3:若对齐结果为候选分割点对应的句子对不完整,则以完整的句子对 替换候选分割点。
下面,以^ = 3为例,对本步骤进行详细i^明。
设有原文文本为{&, S2, S3, S4, S5, S6, S7, &, S9, S。},译文文本为
{7; r2, r3, r4, r5, r6, r7, r8, r9, 7;。,,其中,5;.和7;都是句子。以句子对 (s5, r6)被选为侯选分割点为例,则首先取出双语片段 (队&,&,, (r3, r4, r5, r6, r7, r8, r9}),并在根据词语间互译 关系进行对齐后,根据不同的对齐结果,依照上述规则l-3分别举例
应用规则1的例子设对齐结果中&, &, &, &, &, &这6个句子没有译
文与之对齐,而7;, r4, r5, r7, r8, 7;这6个句子没有原文与之对齐,^与7;是对 齐的,亦即结果中有13个句对,其中12个句对只包含原文或译文句子,超过 了句对总数(即13)的一半,此时认为从&与7;处将原文与译文切开是不合适 的,故将候选分割点(&, 7;)丢弃;
应用规则2的例子设对齐结果为&与7^对齐,5^与7;对齐,<S4、 5^与7;对
齐,^与?;、 ?;对齐,^与7;对齐,^与^对齐,亦即&与?;是分属于不同句 对的,它们并不是互译的,^与7;处将原文与译文切开是不合适的,故将候选
分割点(&, 7p丢弃;
应用规则3的例子设对齐结果为&与7;对齐,53与7;对齐,54与7;对齐, S5、 ^与7;对齐,S7与7;、 7;对齐,^与7;对齐,亦即事实上5*5与5"6合在一起
才是7;的完整翻译,因此用(5^6, 7;)替代(&, 7;)作为候选分割点。
209:去除分割位置有交叉的候选分割点,确定最终候选分割点;具体地,如一个候选分割点由原文第10句与译文第1句组成,而另一个候选 分割点由原文第1句与译文第10句組成,则它们无法将文本切割为不相重叠的部
分,它们是交叉的,则去除此类候选分割点。
210:在确定的最终候选分割点处进行分割,将经过预处理的双语文本分割 成多个双语文本片段,并根据词语间的互译关系,对每个双语文本片段进行对 齐,得到对齐的双语文本。
其中,根据词语间的互译关系,对每个双语文本片段进行对齐时,过程同 上述步骤207中所涉及到的,此处不再赘述。
另外,针对该步骤中涉及到的"在确定的最终候选分割点处进行分割,将 经过预处理的双语文本分割成多个双语文本片)史",作出以下i^明
如果该步骤中的最终候选分割点是从步骤206选择出的候选分割点中筛选 出来的,即是从经过预处理的双语文本中直接选择出来的,则对于该步骤中的 "在确定的最终候选分割点处进行分割,将经过预处理的双语文本分割成多个 双语文本片段",即指在确定的最终候选分割点处,将整篇经过预处理的双语文 本分割成多个双语文本片^:。
如果该步骤中的最终候选分割点是从步骤205选择出的候选分割点中筛选 出来的,即是从各个双语文本初始片段中选择出来的,则对于该步骤中的"在 确定的最终候选分割点处进行分割,将经过预处理的双语文本分割成多个双语
文本片^殳",即指在确定的最终候选分割点处,将对应的双语文本初始片^a进一
步分段,最终使得将整篇经过预处理的双语文本分割成多个双语文本片段。
综上所述,本实施例提供的方法,通过将待对齐双语文本的原文文本及译 文文本进行预处理,并判断原文文本及译文文本之间句子数差值是否足够大, 在句子数差值不够大时,采用句子长度信息将经过预处理的双语文本进行初步 对齐,在句子数差值足够大时,则避免采用句子长度信息将经过预处理的双语 文本进行初步对齐,保证了良好的鲁棒性。最后,通过在确定的最终候选分割 点处分割,将经过预处理的双语文本可靠地分段,并根据词语间的互译关系将 每个双语文本片段进行对齐,提升了对齐的速度,保证了良好的鲁棒性。
实施例3
参见图3,本实施例提供了一种双语文本的对齐装置,该装置包括预处理模块301,用于将待对齐双语文本的原文文本及译文文本分别进行预 处理;
判断模块302,用于判断原文文本及译文文本之间的句子数差值是否足够
大;
分段模块303,用于根据判断模块302的判断结果,将经过预处理的双语文 本分割成多个双语文本片段;
对齐模块304,用于根据词语间的互译关系,将分段模块303得到的每个双 语文本片段进行对齐,得到对齐的双语文本。
具体地,上述预处理才莫块301,用于统计原文文本及译文文本中每个句子的 指紋;每个句子的指紋为尸0,.)=『0》-『(~—》-『0w);
其中,『0,)为句子》中所有词的集合,『Cv》为句子^的前一个句子s,一, 中所有词的集合,为句子《的后一个句子&+1中所有词的集合,"-" 代表集合的差运算。
判断才莫块302,用于在W-i^l/min(A^ #2)>0.5时,判断原文文本及译文文 本之间的句子数差值足够大;
其中,^为原文文本的句子数,A^为译文文本的句子数,min(M, i^)为M与 J^中的最小值。
进一步地,参见图4,分段模块303包括
选择单元303a,用于根据判断结果,选择满足分割条件的句子对作为候选 分割点;
测试片段获取单元303b,用于在选择单元303a选择出的候选分割点的前后 各取多个句子,连同候选分割点组成双语文本测试片^a,得到多个双语文本测 试片段;
对齐单元303c,用于根据词语间的互译关系,将测试片段获取单元303b得 到的每个双语文本测试片段进行对齐;
筛选单元303d,用于根据对齐单元303c的对齐结果及筛选规则,筛选候选 分割点,并去除分割位置有交叉的候选分割点,确定最终候选分割点;
分段单元303e,用于在确定的最终候选分割点处,将经过预处理的双语文 本分割成多个双语文本片段。
其中,筛选单元303d在筛选时依据的筛选规则为
15规则1:若对齐结果为候选分割点对应的双语文本测试片段中至少有一半句 子对只包含原文文本或译文文本的句子,则将候选分割点丢弃;
规则2:若对齐结果为候选分割点对应的句子对中的句子分属不同的句子 对,则将候选分割点丟弃;
规则3:若对齐结杲为候选分割点对应的句子对不完整,则以完整的句子对 替换候选分割点。
具体地,上述选择单元303a,具体用于在原文文本及译文文本之间的句子 数差值足够大时,在经过预处理的双语文本中直接选择满足分割条件的句子对 作为候选分割点;
或,在原文文本及译文文本之间的句子数差值不够大时,根据句子长度信 息,将经过预处理的双语文本进行初步对齐,得到多个句子对;对每个句子对 进行验证计算,选择符合验证条件的句子对作为初始分割点,在初始分割点处 将经过预处理的双语文本分割成多个双语文本初始片H并在各个初始双语文 本片段中选择满足分割条件的句子对作为候选分割点;
其中,分割条件为句子对中含有多对互为翻译的词,且互为翻译的词仅 出现在句子对中。
另外,针对分段单元303e用于"在确定的最终候选分割点处进行分割,将 经过预处理的双语文本分割成多个双语文本片段,,,作出以下说明
如果最终候选分割点是由选择单元303a从经过预处理的双语文本中直接选 择出来的,则分段单元S03e,用于"在确定的最终候选分割点处进行分割,将 经过预处理的双语文本分割成多个双语文本片段"时,即指分段单元303e在确 定的最终候选分割点处,将整篇经过预处理的双语文本分割成多个双语文本片 段。
如果最终候选分割点是由选择单元303a从各个双语文本初始片段中选择出 来的,则分段单元303e,用于"在确定的最终候选分割点处进行分割,将经过 预处理的双语文本分割成多个双语文本片段"时,即指分^爻单元303e在确定的 最终候选分割点处,将对应的双语文本初始片段进一步分段,最终使得将整篇 经过预处理的双语文本分割成多个双语文本片>a。
进一步地,选择单元303a在对每个句子对进行验证计算时,具体用于对每
个句子对计算77 s(&, r》、ri r(&, r》、tf及s(&, ")、 7f及r(s,, r.)这四个值,计算公式如下:
m(s,,r)=
際)l I r『(7;) i
P柳l l柳l
l柳
其中,『(《)为原文文本句子《中所有词的集合,『(r,.)为译文文本句子r,
中所有词的集合,7TT(5;.)为中可以在^(7})中找到译文的词的集合, r『(7})为『(7})中可以在r(《)中找到原文的词的集合;为原文文本所有 句子的指紋的并集,F(")为译文文本所有句子的指紋的并集;7F(^)为F(S)中 可以在『(7})中找到译文的词的集合,7F(7))为F(7))中可以在『(S)中找到原 文的词的集合;
相应地,-睑证条件为
卿&, 7))k0.6且77 r(S, 7})20.6,和/或
7})》0.5且77^(《.,7})20.5 且77^S(5;, 7))2 0.4且7FAr(S., 7}) 2 0.4。
综上所述,本实施例提供的双语文本的对齐装置,通过判断原文文本及译 文文本之间的句子数差值是否足够大,并根据判断结果,将经过预处理的双语 文本可靠地分段,再根据词语间的互译关系,分别对每个双语文本片段进行对 齐,从而提升了对齐的速度,保证了良好的鲁棒性。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。 本发明实施例中的部分步骤,可以利用软件实现,相应的软件程序可以存
储在可读取的存储^h质中,如光盘或硬盘等。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的
精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的
保护范围之内。
权利要求
1、一种双语文本的对齐方法,其特征在于,所述方法包括将待对齐双语文本的原文文本及译文文本分别进行预处理;判断所述原文文本及译文文本之间的句子数差值是否足够大,并根据判断结果,将经过预处理的双语文本分割成多个双语文本片段;根据词语间的互译关系,将每个双语文本片段进行对齐,得到对齐的双语文本。
2、根据权利要求1所述的方法,其特征在于,所述将待对齐双语文本的原文文本及译文文本分别进4于预处理,包括统计所述原文文本及译文文本中每个句子的指紋;所述每个句子的指紋为F(&)=『(s,—;其中,『(A)为句子^.中所有词的集合,为句子^的前一个句子s^中所有词的集合,为句子^的后一个句子&+1中所有词的集合,"-"代表集合的差运算。
3、 根据权利要求1所述的方法,其特征在于,所述判断所述原文文本及译文文本之间的句子数差值是否足够大,具体包括如果W - W2 I /min(JVp JV2) > 0.5 ,则判断所述原文文本;5j泽文文本之间的句子数差值足够大;其中,A^为原文文本的句子数,A^为译文文本的句子数,min(M, i^)为M与A^中的最小值。
4、 根据权利要求1至3任一权利要求所述的方法,其特征在于,所述根据判断结果,将经过预处理的双语文本分割成多个双语文本分段,包括根据判断结果,选择满足分割条件的句子对作为候选分割点;在选择出的候选分割点的前后各取多个句子,连同所述候选分割点组成双语文本测试片段,得到多个双语文本测试片段;根据词语间的互译关系,将每个双语文本测试片段进行对齐;根据所述对齐结果及筛选规则,筛选候选分割点,并去除分割位置有交叉的候选分割点,确定最终候选分割点;在确定的最终候选分割点处进行分割,将所述经过预处理的双语文本分割成多个双语文本片,殳。
5、根据权利要求4所述的方法,其特征在于,所述分割条件为句子对中含有多对互为翻译的词,且所述互为翻译的词仅出现在所述句子对中;相应地,根据判断结果,选择满足分割条件的句子对作为候选分割点,具体包括如果所述原文文本及译文文本之间的句子数差值足够大,则在所述经过预处理的双语文本中直接选择满足分割条件的句子对作为候选分割点;如果所述原文文本及译文文本之间的句子数差值不够大,则根据句子长度信息,将所述经过预处理的双语文本进行初步对齐,得到多个句子对;对每个句子对进行验证计算,选择符合验证条件的句子对作为初始分割点,在所述初始分割点处将所述经过预处理的双语文本分割成多个双语文本初始片段,并在各个双语文本初始片段中选择满足分割条件的句子对作为候选分割点。
6、根据权利要求5所述的方法,其特征在于,所述对每个句子对进行l^i正计算,具体包括对每个句子对计算77^(&, 7})、 7T r(S, 7})、 7T^S(S,., 7})、 7F及r(《.,7})这四个值,计算公式如下<formula>formula see original document page 3</formula>其中,『(S)为原文文本句子S中所有词的集合,^(7})为译文文本句子7}中所有词的集合,r『(s,.)为中可以在『(7})中找到译文的词的集合,r『(7})为『(7})中可以在中找到原文的词的集合;F(S)为原文文本所有句子的指紋的并集,F(7〕.)为译文文本所有句子的指紋的并集;7F(^)为F(S)中可以在『(7})中找到译文的词的集合,7F(r》为F(7))中可以在『(《.)中找到原文的词的集合;相应地,所述-验证条件为2})》0.6且r及r(s., r》so.6,和/或7T S(5;., 7}) 2 0.5且r及r(&, 7})》0.5
7、 根据权利要求4所述的方法,其特征在于,所述筛选规则,具体包括若对齐结果为候选分割点对应的双语文本测试片段中至少有 一半句子对只包含原文文本或译文文本的句子,则将所述候选分割点丢弃;若对齐结果为候选分割点对应的句子对中的句子分属不同的句子对,则将所述候选分割点丢弃;若对齐结果为所述4'美选分割点对应的句子对不完整,则以完整的句子对替换所述候选分割点。
8、 一种双语文本的对齐装置,其特征在于,所述装置包括理;判断模块,用于判断所述原文文本及译文文本之间的句子数差值是否足够大;分段模块,用于根据所述判断模块的判断结果,将经过预处理的双语文本分割成多个双语文本片段;对齐模块,用于根据词语间的互译关系,将所述分段4莫块得到的每个双语文本片段进行对齐,得到对齐的双语文本。
9、 根据权利要求8所述的装置,其特征在于,所述预处理模块,用于统计所述原文文本及译文文本中每个句子的指紋i X^)-『Cy,.)-『CsM)-『Csw);其中,『Os,.)为句子^中所有词的集合,为句子^的前一个句子^i中所有词的集合,为句子^的后一个句子^+1中所有词的集合,"-"代表集合的差运算。
10、根据权利要求8所述的装置,其特征在于,所述判断模块,用于在lA^-7V2l/min(A^, ^2)>0.5时,判断所述原文文本及译文文本之间的句子数差值足够大;其中,M为原文文本的句子数,i^为译文文本的句子数,min(A^, i^)为^与A^中的最小值。
11、 根据权利要求8至10任一权利要求所述的装置,其特征在于,所述分段模块包括选择单元,用于根据判断结果,选择满足分割条件的句子对作为候选分割点;测试片段获取单元,用于在所述选择单元选择出的候选分割点的前后各取多个句子,连同所述候选分割点组成双语文本初始片段,得到多个双语文本测试片段;对齐单元,用于根据词语间的互译关系,将所述测试片段获取单元得到的每个双语文本测试片段进行对齐;筛选单元,用于根据所述对齐单元的对齐结果及筛选规则,筛选候选分割点,并去除分割位置有交叉的候选分割点,确定最终候选分割点;分段单元,用于在确定的最终候选分割点处进行分割,将经过预处理的双语文本分割成多个双语文本片段。
12、 根据权利要求11所述的装置,其特征在于,所述选择单元,具体用于在所述原文文本及译文文本之间的句子数差值足够大时,在所述经过预处理的双语文本中直接选择满足分割条件的句子对作为候选分割点;或,在所述原文文本及译文文本之间的句子数差值不够大时,根据句子长度信息,将所述经过预处理的双语文本进行初步对齐,得到多个句子对;对每个句子对进行验证计算,选择符合验证条件的句子对作为初始分割点,在所述初始分割点处将所述经过预处理的双语文本分割成多个双语文本初始片段,并在各个双语文本初始片段中选择满足分割条件的句子对作为候选分割点;其中,所述分割条件为句子对中含有多对互为翻译的词,且所述互为翻译的词仅出现在所述句子对中。
13、根据权利要求12所述的装置,其特征在于,所述选择单元在对每个句子对进行验证计算时,具体用于对每个句子对计算77^(S, 7})、 7T rOS,., 7})、7T^S'CS;, 7})、 7Fi 7X《,7))这四个值,计算公式如下<formula>formula see original document page 6</formula>其中,『(S)为原文文本句子S中所有词的集合,『(7})为译文文本句子7}中所有词的集合,7TT(S)为中可以在『(T))中找到译文的词的集合,r『(r》为『(7})中可以在r(s)中找到原文的词的集合;F(《)为原文文本所有句子的指紋的并集,F(7))为译文文本所有句子的指紋的并集;7F(《)为F(5;.)中可以在『(7})中找到译文的词的集合,7F(7))为F(T))中可以在『(《.)中找到原文的词的集合;相应地,所述验证条件为ri s(s, 7})》0.6且r及r(s,, 7})^o.6,和/或r^S(S, 7))^0.5且77 r(5;., 7})^0.5且7F^S(S, T))S0.4且7F及77(《.,7})>0.4。
全文摘要
本发明公开了一种双语文本的对齐方法及装置,属于文本信息处理领域。所述方法包括将待对齐双语文本的原文文本及译文文本分别进行预处理;判断所述原文文本及译文文本之间的句子数差值是否足够大,并根据判断结果,将经过预处理的双语文本分割成多个双语文本片段;根据词语间的互译关系,将每个双语文本片段进行对齐,得到对齐的双语文本。所述装置包括预处理模块、判断模块、分段模块和对齐模块。本发明通过判断原文文本及译文文本之间的句子数差值是否足够大,并根据判断结果将经过预处理的双语文本可靠地分段,再根据词语间的互译关系,分别对每个双语文本片段进行对齐,具有提升对齐的速度,保证良好鲁棒性的效果。
文档编号G06F17/28GK101667177SQ20091009306
公开日2010年3月10日 申请日期2009年9月23日 优先权日2009年9月23日
发明者孙茂松, 鹏 李, 平 薛 申请人:清华大学;波音公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1