专利名称:一种双语语料库过滤方法及系统的利记博彩app
技术领域:
本发明涉及一种语料库过滤方法,尤指一种双语语料库过滤方法及系统。
背景技术:
语料库资源对于自然语言处理研究的巨大价值已经得到越来越多的认 可。特别是平行双语语料库,它是一种包含有两种语言互译信息的特殊的语 料库。平行双语语料库能够提供两种语言之间丰富的匹配信息,在翻译知识 的获取、双语词典的建立、基于统计或实例的机器翻译、词义消歧等领域有 着重要的应用价值,尤其是高质量的语料库作用更为凸显。
语料库的建立主要有两种方法, 一种是传统的手工收集的方法;另一种 是通过对篇章级对齐的语料库通过计算机用自动句对齐方法获得。但这两种 方法都不能保证获得高质量的语料库,总是存在着一些例如句对不匹配、包 含乱码等错误。
消除错误句对最常用的方法是使用人工校对的方式对语料库进行检查。 这种方法准确率虽然很高,但费时费力,尤其是当语料库非常巨大的时候, 这种方法就不太实用。
借助计算机用自动的方法对语料库进行处理消除错误句对,其基本思路
是设定一些判定句对匹配质量的特征,然后对每个特征进行打分,再依照经 验,人工设定一个特征阈值进行判定。当双语句对大于这个特征阈值时确定 为好句对,当双语句对小于或等于这个特征阈值时确定为坏句对。这种方法 虽然从一定程度上实现了自动化,但缺乏一般性且准确率并不高。特征阈值 是凭经验设定的,特征阈值往往可能是设定者根据仅有的几份语料库资源来 确定的,不能涵盖大多数语料库的分布情况。而且当经验设定的特征阈值过 低会导致准确率下降,过高时又导致召回率下降。
发明内容
本发明的目的是提供一种英汉双语语料库的过滤方法及系统,用于提高 语料库通用性、准确率和召回率。
为解决上述问题,本发明提供一种双语语料库过滤方法,包括以下步骤 A、确定双语句对的句长比例特征值;
B、 分别统计双语句对中不同词性的数量,分别计算所述词性的词与所述 双语的互译词典中对应的词匹配的数量,根据不同词性的数量和所述匹配的 数量确定互翻译性特征值; '
C、 根据预先利用训练集建立的分类模型,利用所述句长比例特征值和所 述互翻译性特征值进行过滤分类。
优选地,所述预先利用训练集建立的分类模型具体包括 Cl、构建训练集;
C2、按照步骤A、 B分别计算句长比例特征值和互翻译性特征值,利用 分类器进行训练;
C3、确定分类模型。
优选地,所述训练集是按照双语语料库中一定比例的好坏句对组成的, 同时标注每个句对的类别值,设定好句对为1,坏句对为-1。
优选地,所述步骤A之前进一步包括确定数词匹配特征值;
所述确定数词匹配特征值具体为将双语句对中的数词分别统一进行数 字的转化,当双语句对中的数词转化后的数字匹配,确定数词匹配特征值为1, 当所述数词不匹配,确定数词匹配特征值为0。
优选地,所述步骤A之前进一步包括统一所述双语句对中的编码类型 的预处理。
优选地,所述双语句具体为英汉双语句;统一所述双语句对中的编码类 型的预处理具体包括
11) 将所述英汉双语句对进行全角转半角处理;
12) 将繁体编码转换为简体国标编码; 13 )排除乱码的处理。
优选地,所述双语句具体为英汉双语句;所述步骤A具体为确定英汉 双语句对中采用单词数或字符个数,用所述汉语句中的单词数或字符个数比 上所述英双语句中采用单词数或字符个数,得出句长比例特征值。
优选地,所述双语句具体为英汉双语句;所述统计英汉双语句对中不同 词性的数量,具体为统计英汉双语句对中名词、动词、形容词及介词的数量。
本发明还提供一种英汉双语语料库过滤系统,包括句长比例计算单元、 互翻译性计算单元、训练分类模型单元以及分类单元;
所述句长比例计算单元,用于确定双语句对的句长比例特征值;
所述互翻译性计算单元,用于分别统计双语句对中不同词性的数量,分 别计算所述词性的词与所迷双语的互译词典中对应的词匹配的数量,根据不
同词性的数量和所述匹配的数量确定互翻译性特征值;
所述训练分类模型单元,用于建立的训练分类才莫型;
所述分类单元,与所述句长比例计算单元、互翻译性计算单元和训练分 类模型单元相连,用于根据预先利用训练集建立的分类模型,利用所述句长 比例特征值和所述互翻译性特征值进行过滤分类。
优选地,所述训练分类模型单元按照双语语料库中 一定比例的好坏句对 组成的训练集,同时标注每个句对的类别值,设定好句对为1,坏句对为-1。
优选地,所述系统进一步包括数词匹配单元,用于将双语句对中的数词 分别统一进行数字的转化,当双语句对中的数词转化后的数字匹配,确定数 词匹配特征值为l,当所述数词不匹配,确定数词匹配特征值为0。
与上述现有技术相比,本发明实施例所述双语语料库过滤方法,包括确 定双语句对的句长比例特征值和互翻译性特征值的步骤,再根据预先建立的 训练分类模型,利用所述句长比例特征值和所述互翻译性特征值进行过滤分 类。这样本发明实施例所述双语语料库的过滤方法能够快速方便的处理数据 量庞大的双语语料库。本发明利用训练分类模型的分类的思想将双语语料库 的过滤问题转换为二元分类问题,使得双语语料库匹配特征的权值能够更加 科学合理的确定,比现有经验的方法更具普适性,准确率和召回率也得到相 应的提高。
图1是本发明所述双语语料库过滤方法第一种实施例流程图2是图1中建立分类模型的流程图3是本发明所述双语语料库过滤方法第二种实施例流程图4是图3中建立分类模型的流程图5是本发明所述双语语料库过滤方法第三种实施例流程图6是图5统一所述双语句对中的编码类型的预处理流程图7是本发明所述双语语料库过滤系统第一种实施例结构图8是本发明所述双语语料库过滤系统第二种实施例结构图9是本发明所述双语语料库过滤系统第三种实施例结构图。
具体实施例方式
本发明提供一种双语语料库的过滤方法,用于提高语料库通用性、准确 率和召回率。
参见参考图1和图2,图1为本发明所述双语语料库过滤方法第一种实施例 流程图,图2是图1中建立分类模型的流程图。
本发明第 一种实施例所述双语语料库过滤方法,包括以下步骤 S100、确定双语句对的句长比例特征值。
确定双语句对中采用单词数或字符个数。用所述双语句中 一种语句中的 单词数或字符数比上所述双语句中另一种语句的单词数或字符数,所得的值 为句长比例特征值。
当所述双语句为英汉双语句时,用所述汉语句中的单词数或字符个数比 上所述英双语句中采用单词数或字符个数,得出句长比例特征值。句长分别 采用单词数或者是字符的个数来计算时,二者相差不大, 一般选用单词数计 算更能体现英汉双语句对的句长比例特征。
S200、分别统计双语句对中不同词性的数量,分别计算所述词性的词与 所述双语的互译词典中对应的词匹配的数量,根据不同词性的数量和所述匹 配的数量确定互翻译性特征值。
统计双语句对中不同词性的数量,具体是统计双语句对中名词、动词、 形容词及介词的数量。
首先,分别对双语句对进行词性标注。然后,再统计双语句对中分别含 有名词、动词、形容词和介词四种词性的词的个数。名词、动词、形容词、 介词的词性选择是基于词典翻译考虑的,因为具有这四种词性的词语的翻译 一般比较具有辨别力。
对于英汉双语句对的中文句子中含有上述名词、动词、形容词、介词词 性的词,利用汉英词典翻译,并在英汉双语句对的英文句子中含有上述词性 的词中查找。若找到,则匹配,统计匹配的个数。反之,对英汉双语句对的 英文句子中含有上述词性的词,利用英汉词典翻译,并在英汉双语句对的中 文句子中含有上述词性的词中查找是否匹配。若找到,则匹配,并统计匹配 的个数。
我们以英汉双语句对为例,利用下面的公式计算英汉双语句对互翻译性 特征值。
V(c,e) = (T(c,e)/I(c))*(T(e,c)/I(e))
其中,V(c,e):英汉双语句对互翻译性特征值;
T(c,e):利用汉英词典查找到的中文句子中的上述四种词性的词在英文句 子中的匹配个数;
T(e,c):利用英汉词典查找到的英文句子中的上述四种词性的词在中文句 子中的匹配个it;
英汉双i眉 I(e):英-;
同样,当所述双语句为其它两种语言的双语句对时,也可以应用上面的 公式进行计算。
5300、 根据预先预先利用训练集建立的分类模型,利用所述句长比例特 征值和所述互翻译性特征值进行过滤分类。
利用训练集建立的分类模型具体包括
5301、 构建训练集。
所述训练集是按照双语语料库中一定比例的好坏句对组成的,同时标注 每个双语句对的类别值,设定好句对的类别值为1,坏句对的类别值为-1。
所述训练集可以从双语语料库中按照好坏句对1: 1的比例挑选双语句对 纟且成训练集。
训练集的大小应该保持在5万句对以上,越大的训练集对训练分类模型 越有好处。语料的来源尽量广泛,越广泛的语料分布使训练后的分类模型越 具有一般性。
5302、 按照步骤S100和步骤S200分别计算句长比例特征值和互翻译性 特征值,利用分类器进行训练。
训练集特征的标注格式"类别值+空格+特征代码特征值+空格+特征代 码特征值......"
在类别值和特征代码之间保留 一个空格,在特征值与特征代码之间保留 一个空格。例如可以设定所述句长比例特征值为2,设定所述互翻译性特征值 为3。
利用分类器进行分类训练为公知技术,可以选择svm (支持向量机)或 最大熵等通用的分类器进行训练。
S303、确定分类模型。 '
分类模型建立后,将类别值标记为"-r的双语句对放入过滤库,留待以 后处理。类别值标记为"r的双语句对保留在双语语料库中。
本发明实施例所述双语语料库过滤方法,包4舌确定双语句对的句长比例 特征值和互翻译性特征值的步骤,再根据预先利用训练集建立的分类模型,
实施例所述双语语料库的过滤方法能够快速方便的处理数据量庞大的双语语 料库。本发明利用所述分类模型的分类将英汉双语语料库的过滤问题转换为 二元分类问题,使得英汉双语语料库匹配特征的权值能够更加科学合理的确 定,比现有经验的方法更具普适性,准确率和召回率也得到相应的提高。
参见参考图3和图4,图3为本发明所述双语语料库过滤方法第二种实施 例流程图;图4是图3中建立分类模型的流程图。
本发明所述双语语料库过滤方法第二种实施例相对第一实施例,增加确 定数词匹配特征值的步骤。
本发明第二种实施例所述双语语料库过滤方法,包括以下步骤
SIO、确定数词匹配特征值;
将双语句对中的数词分别统一进行数字的转化,当双语句对中的数词转 化后的数字匹配,确定数词匹配特征值为1。当所述数词不匹配,确定数词匹 配特征值为0。
下面以英汉双语句对为例,具体说明确定数词匹配特征值的过程。
方法为7>知4支术,在此不再详述。
然后,将中英双语句对的中文句子中含有标记为m (数词),英文中含有 标记为od (系数词)和cd (数词)的数词进行归一化。
例如中英双语句对的英文句中含有"$5 million",中文句子中含有"五百 万",都将统一转化为5000000。
所述归一化采用基于规则的方法,即制定一些转化规则。
所述转化规则包括汉语的数词与数字转化规则,例如"一"对应"1"、
"百,,对应"100"等。
所述转化规则包括英语的数词与数字转化规则,例如"one"对应"1"、
"hundred"对应"100"等。
将中英双语句对的中文句子和中英双语句对的英文句子中归一化后的数词比较,如果匹配,则数词匹配特征值为l。如果不匹配,则数词匹配特征值 为0。
SIOO、确定双语句对的句长比例特征值。
同样,以英汉双语句对为例,具体il明确定句长比例特征值的过程。
确定英汉双语句对中采用单词数或字符个数,用所述汉语句中的单词数
或字符个数比上所述英双语句中采用单词数或字符个数,得出句长比例特征值。
句长分别采用单词数或者是字符的个数来计算时,二者相差不大, 一般 选用单词数计算更能体现英汉双语句对的句长比例特征。
S200、分别统计双语句对中不同词性的数量,分别计算所述词性的词与 所述双语的互译词典中对应的词匹配的数量,4艮据不同词性的数量和所述匹 配的数量确定互翻译性特征值。
同样,以英汉双语句对为例,具体说明确定互翻译性特征值的过程。
统计英汉双语句对中不同词性的数量,具体是统计英汉双语句对中名词、 动词、形容词及介词的数量。
首先,分别对英汉双语句对进行词性标注。然后,再统计英汉双语句对 中分别含有名词、动词、形容词和介词四种词性的词的个数。
对于英汉双语句对的中文句子中含有上述名词、动词、形容词、介词词 性的词,利用汉英词典翻译,并在英汉双语句对的英文句子中含有上述词性 的词中查找。若找到,则匹配,统计匹配的个数。反之,对英汉双语句对的 英文句子中含有上述词性的词,利用英汉词典翻译,并在英汉双语句对的中 文句子中含有上述词性的词中查找是否匹配。若找到,则匹配,并统计匹配 的个数。
利用下面的公式计算英汉双语句对互翻译性特征值。<formula>formula see original document page 10</formula>其中,V(c,e):英汉双语句对互翻译性特征值;T(c,e):利用汉英词典查找到的中文句子中的上述四种词性的词在英文句 子中的匹配个数;
T(e,c):利用英汉词典查找到的英文句子中的上述四种词性的词在中文句 子中的匹配个数;
I(c):英汉双语句对的中文句子中含有的上述四种词性的词的个数;
I(e):英汉双语句对的英文句子中含有的上述四种词性的词的个数。
S300A、根据预先建立的训练分类模型,利用所述句长比例特征值和所述 互翻译性特征值以及数词匹配特征值进行过滤分类。
同样,以英汉双语句对为例,具体说明本发明所述过滤方法第二实施例 对应分类模型的建立过程
所述建立分类模型具体包括
S301A、构建训练集。
所述训练集是按照英汉双语语料库中 一定比例的好坏句对组成的,同时 标注每个英汉双语句对的类别值,设定好句对的类别值为1,坏句对的类别值 为-1。
S302A、按照步骤SIO、步骤S100和步骤S200分别计算数词匹配特征值、 句长比例特征值和互翻译性特征值,利用分类器进行训练。
训练集特征的标注格式类别值+空格+特征代码特征值+空格+特征代 码特征值+空格+特征代码特征值。
在类别值和特征代码之间保留 一个空格,在特征值与特征代码之间保留 一个空格。例如可以设定所述数词匹配特征值为1,所述句长比例特征值为2, 设定所述互翻译性特征值为3。
S303A、确定分类模型。
分类模型建立后,将类别值标记为的英汉双语句对放入过滤库,留 待以后处理。类别值标记为"1"的英汉双语句对保留在英汉双语语料库中。
本发明所述方法的第二实施例增加了确定数词匹配特征值的步骤,使得 包含有数字信息的双语句对的过滤准确性大大提高。
参见参考图5和图6,图5为本发明所述双语语料库过滤方法笫三种实施 例流程图;图6是图5统一所述双语句对中的编码类型的预处理流程图。
本发明所述双语语料库过滤方法第三种实施例相对第一实施例,增加统
一所述双i吾句对中的编石马类型的预处理的步骤。
同样,以英汉双语句对为例,具体说明本发明第三种实施例所述英汉双 语语料库过滤方法的过程。
本发明第三种实施例所述英汉双语语料库过滤方法,包括以下步骤
Sl、统一所述英汉双语句对中的编码类型的预处理。
统一所述英汉双语句对中的编码类型的预处理具体包括
Sla、将所述英汉双语句对进行全角转半角处理;
Slb、将Big5码(繁体编码)转换为GB码(简体国标编码);
Slc、排除乱码的处理。
对于英汉双语句对中的中文部分排除乱码的处理,按照GB码范围排查, 超越该范围的剔除。
对于英汉双语句对中的英文部分排除乱码的处理,按照ASCII码范围排 查,超越该范围的剔除。
对于特殊符号处理
对于一些英汉双语句对的句首含有标号,如"1、 (1)、 (1)、 (i)、 1)、 一、" 等标号时,将句首的该标号删除,其余保留。
对于一些英汉双语句对的句中含有特殊的标点符号,如"====="、 "............"或"-"等特殊标点符号,将该符号删除,其余部分保留。
统一所述英汉双语句对中的编码类型的预处理可以包括上述Sla、 Slb、 Slc三个步骤,也可以只包括Sla、 Slb、 Slc中的一个或两个步骤。
S100、确定英汉双语句对的句长比例特征值。
确定英汉双语句对中釆用单词数或字符个数,用所述汉语句中的单词数 或字符个数比上所述英双语句中采用单词数或字符个数,得出句长比例特征 值。
S200、分别统计英汉双语句对中不同词性的数量,分别计算所述词性的 词与汉英词典或英汉词典中对应的词匹配的数量,根据不同词性的数量和所
述匹配的数量确定互翻译性特征值。
统计英汉双语句对中不同词性的数量,具体是统计英汉双语句对中名词、 动词、形容词及介词的数量。
首先,分别对英汉双语句对进行词性标注。然后,再统计英汉双语句对
中分别含有名词、动词、形容词和介词四种词性的词的个数。
对于英汉双语句对的中文句子中含有上述名词、动词、形容词、介词词 性的词,利用汉英词典翻译,并在英汉双语句对的英文句子中含有上述询性 的词中查找。若找到,则匹配,统计匹配的个数。反之,对英汉双语句对的 英文句子中含有上述词性的词,利用英汉词典翻译,并在英汉双语句对的中 文句子中含有上述词性的词中查找是否匹配。若找到,则匹配,并统计匹配 的个数。
利用下面的公式计算英汉双语句对互翻译性特征值。
V(c,e) = (T(c,e)/I(c))*(T(e,c)/I(e))
其中,V(c,e):英汉双语句对互翻译性特征值;
T(c,e):利用汉英词典查找到的中文句子中的上述四种词性的词在英文句 子中的匹配个数;
T(e,c):利用英汉词典查找到的英文句子中的上述四种词性的词在中文句 子中的匹配个数; I(c):英 I(e):英;
5300、 根据预先建立的训练分类模型,利用所述句长比例特征值和所述 互翻译性特征值进行过滤分类。
利用训练集建立的分类模型具体包括
5301、 构建训练集。
所述训练集是按照英汉双语语料库中 一定比例的好坏句对组成的,同时 标注每个英汉双语句对的类别值,设定好句对的类别值为1,坏句对的类别值 为-1。
5302、 按照步骤S100和步骤S200分别计算句长比例特征值和互翻译性 特征值,利用分类器进行训练。
利用分类器进行分类训练为公知技术,可以选择svm或最大熵等通用的 分类器进行训练。
5303、 确定分类模型。
分类模型建立后,将类别值标记为"1”的英汉双语句对放入过滤库,留
待以后处理。类别值标记为"1“的英汉双语句对保留在英汉双语语料库中。 本发明所述双语语料库过滤方法第三种实施例增加了统一所述双语句对 中的编码类型的预处理的步骤,可以进一步提高分类过滤的准确率。
本发明所述双语语料库过滤方法;还可以在第二实施例的sio确定数词 匹配特征值之前,增加统一所述双语句对中的编码类型的预处理的步骤。同 样,可以提高分类过滤的准确率。
本发明还提供一种双语语料库的过滤系统,用于提高语料库通用性、准 确率和召回率。
参见图7,该图为本发明所述双语语料库过滤系统第一种实施例结构图。
本发明第一种实施例所述双语语料库过滤系统,包括句长比例计算单元
12、互翻译性计算单元13、训练分类才莫型单元14以及分类单元11。 所述句长比例计算单元12,用于确定双语句对的句长比例特征值。 所述互翻译性计算单元13,用于分别统计双语句对中不同词性的数量,
分别计算所述词性的词与所述双语的互译词典中对应的词匹配的数量,根据
不同词性的数量和所述匹配的数量确定互翻译性特征值。 所述分类模型单元14,用于建立的分类模型。
所述分类模型单元14按照双语语料库中一定比例的好坏句对组成训练 集,同时标注每个句对的类别值,设定好句对为l,坏句对为-1。
所述句长比例计算单元12和所述互翻译性计算单元13,分别计算所述训 练集句长比例特征值和互翻译性特征值,利用分类器进行训练。最后,将类 别值标记为的双语句对放入过滤库,留待以后处理。类别值标记为"1" 的双语句对保留在双语语料库中,建立分类模型。
所述分类单元11,与所述句长比例计算单元12、互翻译性计算单元13 和分类模型单元14相连,用于根据预先利用训练集建立的分类模型,利用所 述句长比例特征值和所述互翻译性特征值进行过滤分类。
本发明实施例所述双语语料库过滤系统,包括确定双语句对的句长比例 特征值的句长比例计算单元12和互翻译性特征值的互翻译性计算单元13,分 类单元11根据分类模型单元14,利用所述句长比例特征值和所述互翻译性特 征值进行过滤分类。这样本发明实施例所述双语语料库过滤系统能够快速方 便的处理数据量庞大的双语语料库。本发明利用分类才莫型单元14进行分类将 双语语料库的过滤问题转换为二元分类问题,使得双语语料库匹配特征的权
值能够更加f牛学合理的确定,比现有经-睑的方法更具普适性,准确率和召回 率也得到相应的提高。
'参见图8,该图为本发明所述双语语料库过滤系统第二种实施例结构图。 本发明所述双语语料库过滤系统第二种实施例相对第 一实施例增加了与
所述分类单元相连的数词匹配单元15。
所述数词匹配单元15,用于将双语句对中的数词分别统一进行数字的转 化,当双语句对中的数词转化后的数字匹配,确定数词匹配特征值为l,当所 述数词不匹配,确定数词匹配特征值为0。
所述分类单元ll,根据分类模型单元14预先建立的分类模型,利用所述 数词匹配特征值、所述句长比例特征值和所述互翻译性特征值进行过滤分类。
本发明所述系统的第二实施例增加了确定数词匹配单元15,所述系统处 理包含有数字信息的双语句对时的过滤准确性大大提高。
参见图9,该图为本发明所述双语语料库过滤系统第三种实施例结构图。
本发明所述双语语料库过滤系统第三种实施例相对第一实施例增加了与 所述分类单元相连的预处理单元16。
预处理单元16,用于统一所述双语句对中的编码类型的预处理。
所述预处理单元16包括与所述分类单元11均相连的全角转半角处理子 单元16a和乱码处理子单元16c。
全角转半角处理子单元16a,用于将所述双语句对进行全角转半角处理。
乱码处理子单元16c,用于排除乱码的处理。
乱码处理子单元16c对于特殊符号处理
乱码处理子单元16c对于一些双语句对的句首含有标号,如"1 、 ( 1 )、 ( I )、 (i)、 1)、 一"等标号时,将句首的该标号删除,其余保留。
乱码处理子单元对于一些双语句对的句中含有特殊的标点符号,如
"=="、"............"或"-"等特殊标点符号,将该符号删除,其余
部分保留。
当本发明所述双语语料库过滤系统为英汉双语语料库过滤系统时,乱码 处理子单元对于英汉双语句对中的中文部分排除乱码的处理,按照GB码范围 排查,超越该范围的剔除。
当本发明所述双语语料库过滤系统为英汉双语语料库过滤系统时,乱码
处理子单元16c对于双i吾句对中的英文部分4要照ASCII码范围排查,超越该 范围的剔除。
当本发明所述双语语料库过滤系统为英汉双语语料库过滤系统时,所述 预处理单元16包括Big5码转GB码处理子单元16b, Big5码转GB码处理子 单元16b,用于将Big5码。转换为GB码。
所述预处理单元16可以全部包括全角转半角处理子单元16a、 Big5码转
GB码处理子单元16b和乱码处理子单元16c,也可以包括全角转半角处理子
单元16a、 Big5码转GB码处理子单元16b和乱码处理子单元16c中的一个或 两个子单元。
本发明所述双语语料库过滤系统第三种实施例增加了预处理单元16,统 一所述双语句对中的编码类型,进一步提高分类过滤的准确率。
本发明实施例所述双语语料库过滤系统可以在第二实施例的基础上进一 步增加与所述分类单元11相连的预处理单元16。
所述预处理单元16包括与所述分类单元11均相连的全角转半角处理子 单元16a、 Big5码转GB码处理子单元16b和乱码处理单元16c。
所述预处理单元16可以全部包括全角转半角处理子单元16a、 Big5码转 GB码处理子单元16b和乱码处理单元16c,也可以包括全角转半角处理子单 元16a、 Big5码转GB码处理子单元16b和乱码处理单元16c中的一个或两个 子单元。
以上所述仅为本发明的优选实施方式,并不构成对本发明保护范围的限 定。任何在本发明的精神和原则之内所作的任何修改、等同替换和改进等, 均应包含在本发明的权利要求保护范围之内。
权利要求
1、一种双语语料库过滤方法,其特征在于,包括以下步骤A、确定双语句对的句长比例特征值;B、分别统计双语句对中不同词性的数量,分别计算所述词性的词与所述双语的互译词典中对应的词匹配的数量,根据不同词性的数量和所述匹配的数量确定互翻译性特征值;C、根据预先利用训练集建立的分类模型,利用所述句长比例特征值和所述互翻译性特征值进行过滤分类。
2、 根据权利要求1所述的过滤方法,其特征在于,所述预先利用训练集 建立的分类模型具体包括Cl、构建训练集;C2、按照步骤A、 B分别计算句长比例特征值和互翻译性特征值,利用 分类器进行训练;C3、确定分类模型。
3、 根据权利要求2所述的过滤方法,其特征在于,所述训练集是按照双 语语料库中一定比例的好坏句对组成的,同时标注每个句对的类别值,设定 好句对为1,坏句对为-1。
4、 根据权利要求1所述的过滤方法,其特征在于,所述步骤A之前进一 步包括确定数词匹配特征值;所述确定数词匹配特征值具体为将双语句对中的数词分别统一进行数 字的转化,当双语句对中的数词转化后的数字匹配,确定数词匹配特征值为1, 当所述数词不匹配,确定数词匹配特征值为0。
5、 根据权利要求1所述的过滤方法,其特征在于,所述步骤A之前进一 步包括统一所述双语句对中的编码类型的预处理。
6、 根据权利要求5所述的过滤方法,其特征在于,所述双语句具体为英 汉双语句;统一所述双语句对中的编码类型的预处理具体包括11) 将所述英汉双语句对进行全角转半角处理;12) 将繁体编码转换为简体国标编码; 13 )排除乱码的处理。
7、根据权利要求1所述的过滤方法,其特征在于,所述双语句具体为英 汉双语句;所述步骤A具体为确定英汉双语句对中釆用单词数或字符个数,个数,得出句长比例特征值。
8、 根据权利要求1所述的过滤方法,其特征在于,所述双语句具体为英 汉双语句;所述统计英汉双语句对中不同词性的数量,具体为统计英汉双语 句对中名词、动词、形容词及介词的数量。
9、 一种英汉双语语料库过滤系统,其特征在于,包括句长比例计算单元、 互翻译性计算单元、训练分类模型单元以及分类单元;所述句长比例计算单元,用于确定双语句对的句长比例特征值; 所述互翻译性计算单元,用于分别统计双语句对中不同词性的数量,分同词性的数量和所述匹配的数量确定互翻译性特征值;所述训练分类模型单元,用于建立的训练分类模型;所述分类单元,与所述句长比例计算单元、互翻译性计算单元和训练分 类模型单元相连,用于根据预先利用训练集建立的分类模型,利用所述句长 比例特征值和所述互翻译性特征值进行过滤分类。
10、 根据权利要求1所述的过滤系统,其特征在于,所述训练分类模型 单元按照双语语料库中一定比例的好坏句对组成的训练集,同时标注每个句 对的类别值,设定好句对为l,坏句对为-1。
11、 根据权利要求1所述的过滤系统,其特征在于,所述系统进一步包 括数词匹配单元,用于将双语句对中的数词分别统一进行数字的转化,当双 语句对中的数词转化后的数字匹配,确定数词匹配特征值为1,当所述数词不 匹配,确定数词匹配特征值为0 。
全文摘要
本发明公开一种双语语料库过滤方法,包括以下步骤A.确定英汉双语句对的句长比例特征值;B.分别统计英汉双语句对中不同词性的数量,分别计算所述词性的词与所述双语的互译词典中对应的词匹配的数量,根据不同词性的数量和所述匹配的数量确定互翻译性特征值;C.根据预先利用训练集建立的分类模型,利用所述句长比例特征值和所述互翻译性特征值进行过滤分类。本发明公开一种双语语料库系统。本发明提供一种双语语料库的过滤方法及系统,用于提高语料库通用性、准确率和召回率。
文档编号G06F17/27GK101201820SQ200710178309
公开日2008年6月18日 申请日期2007年11月28日 优先权日2007年11月28日
发明者挺 刘, 刚 王, 王海洲, 高立琦 申请人:北京金山软件有限公司;北京金山数字娱乐科技有限公司;哈尔滨工业大学