专利名称:语料差异对比方法
技术领域:
本发明涉及一种计算机技术,具体说,涉及一种语料差异对比方法。
背景技术:
当译员对待翻译内容进行历史查询时,系统会根据预设定的阀值,返回历史语料库中所有满足要求的信息。目前的软件对于返回的信息列表,只能以数据列表,并以相似度的倒序进行展示。但对于返回信息中语料与原句的差异,只能通过译员自行辨认。这样给译员在借鉴历史语料资源时,带来极大不便。例如当准备翻译稿件中的下句This is the research center where we/I visited the modern equipmentlast year. 0此时,译员设定50%的匹配率,对历史语料库进行搜索,系统会返回下列语料信息列表This research center is where we/I visited the moder equipment lastyear.这个研究中心是我(们)去年参观的现代设备。92%This is the research center that we/I visited last year.这是研究中心我(们)去年参观的。75%This research center is what we/I visited last year.这个研究中心是我(们)去年参观了。63%This is the research center that we/I paid a visit to last year.这是我(们)去年参观的研究中心。54%This research center is where we/I paid a visit last year.这个研究中心是我(们)去年参观的。52%
This is the day when we/I visited the modern equipment last year.去年的这一天我(们)参观了现代设备。64%历史语料信息列表只是以匹配率进行了倒序排列,各语料句与待翻译的原句内容差异,还是需要译员进行仔细辨别,无法达到直观性与简易性。
发明内容
本发明所解决的技术问题是提供一种语料差异对比方法,能够准确识别两段文本内容之间的差异。技术方案如下一种语料差异对比方法,包括编制差异识别规则,所述差异识别规则用于标识出语料原文与待翻译原文的差
巳
升;
获取历史语料,根据所述差异识别规则对所述历史语料中的原文与待翻译内容进行差异分析;根据所述差异识别规则标识出语料原文与待翻译原文的差异。进一步所述差异识别规则定义了识别两段文本之间的差异类型以及使用的标识颜色。进一步在获取历史语料过程中,通过待翻译内容及译员已设定的匹配率,查询历史语料库,返回满足要求的语料数据集。进一步在差异分析过程中循环对比,如果返回的语料数据集为空,则退出标注;如果不为空,则逐句取出语料数据集中的语料,将语料中的原文与待翻译内容进行差异分析。进一步在差异分析过程中,根据所述差异识别规则将三种类型的差异所对应的坐标起点、止点进行记录,生成差异坐标集。进一步使用已记录的差异坐标集,在数据列表中对待翻译内容及历史语料的原句,通过三种背景色进行差异展现。本发明的技术效果是 I、本发明能够准确识别两段文本内容之间差异。2、本发明使用所述历史语料对比模块,可以直观、有效比对历史语料与待翻译原文的所有内容差异,快速找出待翻译内容与历史语料的共同点、不同点,达到历史语料的使用率及利用效率,提高翻译稿件速度的效果。
图I是本发明中语料差异对比方法的流程图;图2是本发明中差异识别规则的应用示意图。
具体实施例方式本发明能够准确识别上述例句中的每一条语料原文与待翻译原文的差异,并通过区分“缺失”、“多余”、“不同”三种差异类型,使用特定颜色进行明显区分,以达到差异的直观性与简易性。如图I所示,是本发明中语料差异对比方法的流程图。语料差异对比方法的具体步骤如下I、编制差异识别规则;差异识别规则用于标识出语料原文与待翻译原文的差异,差异识别规则定义了识别两段文本之间的差异类型,以及使用何种特定颜色进行区分。差异类型包括“缺失”、“多余”、“不同”三种类型。如图2所示,是本发明中差异识别规则的应用示意图。A、B分别为两段内容的比对起点,C、D分别为比对起点后一词,图中“A距离”、“B距离”、“C距离”、“D距离”分别对 应A、C在另一段内容中,从比对点开始,第一次出现的位置;同理B、C。本优选实施例中,识别规则使用程序函数方式。那么,比对规则如下定义
var srcDistance = A 距离-B 坐标;
if(C芬巨离>0& &C芬巨离<A芬巨离) srcDistance = C 距离-B 坐标 +1; var tarDistance = B 互巨离-A 坐标; if(D芬巨离>0&&D芬巨离<B芬巨离) tarDistance = D 距离-A 坐标 + I; var type = O;// 0不同I缺失2多余 //通过距离差,计算差异的类型 if (srcDistance < 0)UA在B上没有找到匹配项 {
type = 2;
}
else if (tarDistance < 0)//B在A上没有找到匹配项 {
type = I;
}
else if (srcDistance < tarDistance || (srcDistance == tarDistance && C 吞巨离
>0))
{
if (srcDistance == 0)
{
type = 2;
}
else if (srcDistance == I)
{
if(C芬巨离>0&&C芬巨离<A芬巨离)
{
type = 2;
}
else
{
type = I;
}
}
else
{
type = I;
}
}
else
{
if (tarDistance == 0)
{
if(D距离>0&&D距离<B距离) {
type = 0;
}
else
{
type = I;
}
权利要求
1.一种语料差异对比方法,包括 编制差异识别规则,所述差异识别规则用于标识出语料原文与待翻译原文的差异; 获取历史语料,根据所述差异识别规则对所述历史语料中的原文与待翻译内容进行差异分析; 根据所述差异识别规则标识出语料原文与待翻译原文的差异。
2.如权利要求I所述的语料差异对比方法,其特征在于所述差异识别规则定义了识别两段文本之间的差异类型以及使用的标识颜色。
3.如权利要求I所述的语料差异对比方法,其特征在于在获取历史语料过程中,通过待翻译内容及译员已设定的匹配率,查询历史语料库,返回满足要求的语料数据集。
4.如权利要求I所述的语料差异对比方法,其特征在于在差异分析过程中循环对比,如果返回的语料数据集为空,则退出标注;如果不为空,则逐句取出语料数据集中的语料,将语料中的原文与待翻译内容进行差异分析。
5.如权利要求2所述的语料差异对比方法,其特征在于在差异分析过程中,根据所述差异识别规则将三种类型的差异所对应的坐标起点、止点进行记录,生成差异坐标集。
6.如权利要求5所述的语料差异对比方法,其特征在于使用已记录的差异坐标集,在数据列表中对待翻译内容及历史语料的原句,通过三种背景色进行差异展现。
全文摘要
本发明公开了一种语料差异对比方法,包括编制差异识别规则,所述差异识别规则用于标识出语料原文与待翻译原文的差异;获取历史语料,根据所述差异识别规则对所述历史语料中的原文与待翻译内容进行差异分析;根据所述差异识别规则标识出语料原文与待翻译原文的差异。本发明技术方案能够准确识别两段文本内容之间的差异。
文档编号G06F17/28GK102637161SQ20121011058
公开日2012年8月15日 申请日期2012年4月16日 优先权日2012年4月16日
发明者江潮 申请人:传神联合(北京)信息技术有限公司