构建词典的方法和系统的利记博彩app

文档序号:6470740阅读:219来源:国知局
专利名称:构建词典的方法和系统的利记博彩app
技术领域
本发明涉及互联网技术领域,特别涉及一种构建词典的方法和系统。
背景技术
随着互联网技术的发展,越来越多的网站推出在线翻译的服务。使用者可 以通过网站提供的在线翻译服务,查询中文对应的外文表达,或者查询外文对 应的中文表达。
网站提供的在线翻译服务是否强大,依赖于所使用的词典中包含的词汇是 否丰富和准确,而现有的中外文词典中的词汇一般依赖于人工输入和编辑。 在对现有技术的研究和实践过程中,发明人发现现有技术中存在以下问

现有在线翻译中,中外文词典依赖于人工输入和编辑,这样的方式无疑对 构成词典带来庞大工作量和较低的效率,并且导致词典中能够收录的词汇信息 较为有限。

发明内容
本发明实施例的目的是提供一种构建词典的方法和系统,以实现自动构建 词典,并在词典中尽可能收录较多词汇。
为解决上述技术问题,本发明实施例提供的构建词典的方法和系统是这样 实现的
一种构建词典的方法,包括
从海量网页中抽取符合预定才莫式的外文词汇及该外文词汇之前和/或之后 的中文文字;
将抽取的所述外文词汇前后的中文文字中出现次凄t达到或超过预定次婆: 的相同中文文字确定为所述外文词汇的中文释义; 为所述中文与对应释义的外文建立索引。 优选地,所述符合预定模式的外文词汇,可以包括 置于括号内的外文词汇;或,符合预定格式的中文表达。
优选地,所述建立索引之后,还可以包括 在接收到查询请求时,根据建立的索引查找查询词对应的译文。 优选地,所述为所述中文与对应释义的外文建立索引之前,该方法还包括 从海量网页中抽取中文和外文的双语词句列表。 优选地,所述抽取过程中,还可以包括
根据互联网页上有关词或词组的常见的错误情况滤除或修正候选翻译中 错误的翻译,将同一个中文词对应的不同外文翻译归并到一起,并将同一中外 文词、词组所对应的雷同的翻译合并。
优选地,所述抽取中文和外文的双语词句列表过程中,还可以包括
对于抽取的双语词句列表中的句子,根据互联网页上有关句子的常见的错 误情况滤除或修正候选翻译中错误的翻译,将同 一个中文句子对应的不同外文 翻译归并到 一起,并将同 一 中外文句子的雷同的翻译合并。
优选地,所述为所述中文与对应释义的外文建立索引之前,该方法还可以 包括
从海量网页中抽取出中外文交替出现的段落,并从这些中外文交替的段落 中判断出互为翻译关系,从互为翻译关系的段落中解析出相互对应的句子。
优选地,所述抽取出中外文交替出现的段落过程中,该方法还可以包括
对于抽取的双语词句列表中的句子,根据互联网页上有关句子的常见的错 误情况滤除或修正候选翻译中错误的翻译,将同 一个中文句子对应的不同外文 翻译归并到 一起,并将同 一 中外文句子的雷同的翻译合并。
一种构建词典的系统,包括
双语片段抽取单元,用于从海量网页中抽取符合预定模式的外文词汇及该 外文词汇之前和/或之后的中文文字;
释义确定单元,用于将抽取的所述外文词汇前后的中文文字中出现次数达 到或超过预定次数的中文文字确定为所述外文词汇的中文释义;
索引建立单元,用于为所述中文与对应释义的外文建立索引。优选地,所述符合预定模式的外文词汇,可以包括 置于括号内的外文词汇;或,
符合预定格式的中文表达。
优选地,所述系统还可以包括
查询单元,用于在接收到查询请求时,才艮据建立的索引查找查询词对应的 译文。
优选地,所述系统还可以包括
双语词句列表收耳又单元,用于从海量网页中抽取中文和外文的双语词句列
表;
相应地,所述索引建立单元,用于为所述中文与对应释义的外文建立索引。
优选地,所述系统还可以包括
词汇优化单元,用于根据互联网页上有关词或词组的常见的错误情况滤除 或修正候选翻译中错误的翻译,并把同 一个中文词对应的不同外文翻译归并到 一起,再4巴同一中外文词、词组所对应的雷同的翻i奪合并。
优选地,所述系统还可以包括
句对优化单元,对于抽取的双语词句列表中的句子,根据互联网页上有关 句子的常见的错误情况滤除或修正候选翻译中错误的翻译,将同一个中文句子 对应的不同外文翻译归并到一起,并将同 一 中外文句子的雷同的翻译合并。
优选地,所述系统还可以包括
双语段落抽取单元,用于从海量网页中抽取出中外文交替出现的段落,并 从这些中外文交替的段落中判断出互为翻译关系,从互为翻译关系的段落中解 析出相互对应的句子。
优选地,所述系统还可以包括
句对优化单元,对于抽取的双语词句列表中的句子,根据互联网页上有关 句子的常见的错误情况滤除或修正候选翻译中错误的翻译,将同一个中文句子 对应的不同外文翻译归并到一起,并将同一中外文句子的雷同的翻译合并。
由以上本发明实施例提供的技术方案可见,从海量网页中抽取符合预定模式的外文词汇及该外文词汇之前和/或之后的中文文字,将抽取的所述外文词 汇前后的中文文字中出现次数达到或超过预定次数的中文文字确定为所述外 文词汇的中文释义,为所述中文与对应释义的外文建立索引,这样,实现了自 动构建词典,而且是从具有海量信息的互联网中所有网页上抓取具有翻译关系 的中外文词汇、词组,而避免了人工输入和编辑,提高了构建词典的效率,并 在词典中尽可能收录较多词汇。


图1为本发明第一方法实施例的流程图; 图2a和图2b为两个双语词句列表的例子; 图3为本发明第二方法实施例的流程图; 图4为本发明第三方法实施例的流程图; 图5为本发明第四方法实施例的流程图; 图6为本发明第一系统实施例的框图; 图7为本发明第二系统实施例的框图; 图8为本发明第三系统实施例的框图; 图9为本发明第四系统实施例的框图。
具体实施例方式
本发明实施例提供一种构建词典的方法和系统。
为了使本技术领域的人员更好地理解本发明方案,下面结合附图和实施方 式对本发明实施例作进一步的详细说明。
以下介绍本发明构建词典的方法第一实施例,图1示出了该方法第一实施 例的流程,如图l所示,该方法第一实施例包括
S101:从海量网页中抽取符合预定模式的外文词汇及该外文词汇之前和/ 或之后的中文文字。
预定^f莫式这里可以包括至少以下两种 (1)置于括号内。
例如,被一对括号括起的如下文字...香港大学及香港中文大学(CUHK) 出席在香港中文大学(CUHK)... 他和香港中文大学(CUHK)的...
该段文字中,CUHK被括号括起,其前出现中文文字,例如"香港大学及 香港中文大学","出席在香港中文大学","他和香港中文大学"。 再例如,被一对括号括起的如下文字 ...上映指环王(The Lord of the Rings )。
该段文字中,The Lord of the Rings被括号括起,其前有一段中文文字"... 上映指环王"。
(2)符合预定格式的中文表达。
例如,对于"中文...,英文..."这样的表达,如下文字
中文片名"指环王",英文片名"The Lord of the Rings"。
这里(1)和(2)所列出的预定模式只是进行举例说明。当然,还可以是 其它的预定模式,这些预定模式都可以通过预先定义来明确。
通过该步骤,将互联网中海量的网页中存在的符合预定模式的外文词汇及 该外文词汇前后的各一段中文文字抽取出来。需要说明的是,现有技术中存在 抓取互联网中海量网页的方法,例如现在的互联网搜索技术等。因此,本步骤 中从互联网中海量网页中抽取这一操作可以基于此实现。
还有一些情况,从海量网页中抽取符合预定模式的外文词汇及该外文词汇 之后的中文文字。例如符合预定模式的英文文字之后存在中文文字的情况。当 然,还可能是英文文字的前后都存在中文文字的情况,符合预定模式的外文词 汇及该外文词汇之后的中文文字。也应当被予以考虑。
需要说明的是,该步骤中,抽取的符合预定模式的外文词汇及其前后出现 的中文文字,互为译文的可能性极大。该步骤即时从互联网海量网页中将这一 类型的文字抽取出来,进而再确定外文词汇对应的中文释义。
S102:将抽取的所述外文词汇前后的中文文字中出现次数达到或超过预定 次数的相同中文文字确定为所述外文词汇的中文释义。前面提到,S101中抽取的符合预定模式的外文词汇及其前后出现的中文
文字中,互为译文的可能性极大,而S102中,即是从所有可能的中文译文中 确定该外文词汇的中文译文。
例如S101中的例子,对于CUHK这个外文词汇,在互联网海量网页中, 前出现过"香港大学"和"香港中文大学",而"香港中文大学,,出现过3次, 而"香港大学,,出现过1次。例如预定次数为2,则"香港中文大学"出现的 3次超过了这个预定次数,因此,将香港中文大学确定为CUHK的中文释义。
至于在前述S101中(l)的例子中
...香港大学及香港中文大学(CUHK)
出席在香港中文大学(CUHK)...
他和香港中文大学(CUHK)的...
第一句还出现了及,第二句还出现了在,第三句还出现了和,但这些词都 不是在三个例子中符合预定模式的外文词汇及该外文词汇之前和/或之后的相 同的中文文字,也就是说,"及"、"在"、"和,,这三个字不相同,因此不会考 虑这些不相同的字,而只考虑到相同的"香港中文大学,,为止。
需要说明的是,某一外文词汇对应的中文释义可能不止一个,可能有若干 种,还可能存在词性的不同,而且在不同的语境下又有不同的意义。这里,即 S102中,将抽取的所述外文词汇前后的中文文字中出现次数达到预定次数的 中文文字确定为所述外文词汇的中文释义,如果最终达到预定次数的中文文字 为多个,则可以归纳得到这个外文词汇对应的若干中文释义,从而实现了对该 外文词汇的所有中文释义的收集,保证了词典中释义的丰富性。
当确定了外文词汇对应的中文译文,就可以得到该外文词汇到中文译文的 翻译;根据得到的外文词汇到中文译文的翻译,明显地,还可以得到该中文译 文到外文词汇的翻译。
这里只例举了中文和英文互为译文的例子,但是,显然的,还可以是中文 和其它语言文字。当然,根据前述S101和S102,才艮据抽取的互联网中网页所 ^_用的语言,还可以是确定两种外文之间的释义对应关系。
10在现有的互联网网页中,相邻近的中外文词汇并不一定是互为释义的关
系,这里采用S102中的方式,提供了一种确定释义关系的方式,从而提高了 翻译服务的准确性和可靠性。
S103:为所述中文与对应释义的外文建立索引。
该步骤中,为所述中文与对应释义的外文建立索引,可以是为所述中文与 对应释义的外文建立倒排索引。建立倒排索引的方式为现有技术中已有的方 法,在此不再赘述。
本领域技术人员知道,在建立索引之后,词典就构建完成了。
另外,在S102中,具体还可以包括
S102A:根据互联网页上有关词或词组的常见的错误情况滤除或修正候选 翻译中错误的翻译,并把同一个中文词对应的不同外文翻译归并到一起,再把 同一中外文词、词组所对应的雷同的翻译合并。
常见的错误包括单词拼写错误,单词中间被插入空格或嵌入其他乱码,词 组的单词间空格遗漏、中文词漏字或笔误等。解决这类错误的方法可以通过比 较挖掘出的同一个英文对应的不同中文释义,如果存在若干雷同的释义,则只 保留这些雷同的释义,因为这个是正确释义的概率最高。反之,同一个中文对 应的若干个不同的英文释义也可以作相似的处理。
判断雷同的方法有4艮多,常用的如计算两个字符串的编辑距离。例如同一 英文的若干个中文释义的编辑距离,如果小于预设的阔值,则判断为雷同。需 要说明的是,编辑距离的计算在已有的论文中已公开多种。类似的,对于同一 中文的若干英文释义,计算这些英文字符串的编辑距离,从而根据预设的阈值 判断出雷同的释义。
在实际当中,由于互联网中存在海量的网页,因此要处理的数据量非常巨 大, 一般可能无法在一台计算机上运算实现该步骤,而可能会采用map-reduce 的分布式运算方式来把同一个中文的不同外文释义归并到一起。
通过S102A的处理,解决在构建词典过程中可能存在大量噪音的问题, 即存在大量错误译文的问题。S103之后,该方法还可以包括
S104:在接收到查询请求时,根据建立的索引查找查询词对应的译文。 这里,当输入一种语言的查询词,根据设置,也就是希望翻译成哪种语言 的译文,还根据词典中存储的词汇,按照索引,可以查询出对应语言的译文。
以下介绍本发明的第二方法实施例,该方法实施例除了包括前述第一方法 实施例中的全部步骤外,在S103之前,还可以包括
S105:从海量网页中抽取中文和外文的双语词句列表。
很多提供中外文对照的网页中,存在双语词句列表。图2a和图2b分别示 出了该列表的一个例子。
如图2a中,该网页显示了一个汉英对照菜名列表,其中每一行都可以被 依中外文字符一分为二,并且中外文出现的前后次序在每一行都相同, 一般地, 这样的两列词汇中,同一行的两列词句互为翻译。则S105中,即是从该网页 中抽耳又这样对应关系的中文和英文。
如图2b中,该网页显示了一个汉英词汇列表,该表格中共两列,每一行 中的两列都是左边一列为中文词句,右边一列为外文词句。并且,显然的,这 两列的同一行词句互为翻译。 一般地,这样的两列词汇中,同一行的两列词句 互为翻译。则S105中,即是从该网页中抽取这样对应关系的中文和英文。
这样,在S105^丸行之后,
需要说明的是,当该方法实施例包括S105时,S105可以与之前的S101、 S102并行处理。并且,在S105执行后,可以进入S103。从而,在S103中, 为S105抽取的双语词句列表中的中文与对应释义的外文建立索引。进而,在 S104中,当接收到查询请求时,根据建立的索引查找查询词对应的译文。
另外,在S105过程中,具体还可以包括
S102A:对于抽取的双语词句列表中的词或词组,才艮据互联网页上有关词 或词组的常见的错误情况滤除或修正候选翻译中错误的翻译,将同一个中文词 对应的不同外文翻译归并到一起,并将同一中外文词、词组所对应的雷同的翻译合并。
该步骤具体实现可以参考前述对S102A的说明。
同样地,这里,通过S102A的处理,解决在构建词典过程中可能存在大 量噪音的问题,即存在大量错误译文的问题。
另外,在S105之后,S103之前,该第二方法实施例中还可以包括
S106:对于抽取的双语词句列表中的句子,根据互联网页上有关句子的常 见的错误情况滤除或修正候选翻译中错误的翻译,将同一个中文句子对应的不 同外文翻译归并到一起,并将同一中外文句子的雷同的翻译合并。
与前面S102A类似的,常见的错误包括单词拼写错误,单词中间被插入 空格或嵌入其他乱码,词组的单词间空格遗漏、中文词漏字或笔误等。解决这 类错误的方法可以通过比较挖掘出的同一个英文对应的不同中文释义。如果存 在若干雷同的整句释义,则只保留这些雷同的整句释义,因为这个是正确释义 的概率最高。反之,同一个中文对应的若干个不同的英文整句释义也可以作相 似的处理。
判断雷同的方法有很多,常用的如计算两个字符串的编辑距离。例如同一 英文的若干个中文整句释义的编辑距离,如果小于预设的阈值,则判断为雷同。 需要说明的是,编辑距离的计算在已有的论文中已公开多种。类似的,对于同 一中文的若干英文释义,计算这些英文字符串的编辑距离,从而根据预设的阈 值判断出雷同的释义。需要说明的是,在根据编辑距离判断句子的雷同,或根 据其它方式判断句子的雷同时,还可以去除句子中的标点符号来判断,这样可 以帮助更准确的判断出真正雷同的整句释义,而不因为标点的影响降低可能的 雷同。
在实际当中,由于互联网中存在海量的网页,因此要处理的数据量非常巨 大, 一般可能无法在一台计算机上运算实现该步骤,而可能会釆用map-reduce 的分布式运算方式来把同一个中文的不同外文释义归并到一起。
同样地,通过S106的处理,解决在构建词典过程中可能存在大量噪音的 问题,即存在大量错误译文的问题。该第二方法实施例的流程可以如图3所示。
以下介绍本发明的第三方法实施例,该方法实施例除了包括前述第一方法
实施例中的全部步骤外,在103之前,还可以包括
S107:从海量网页中抽取出中外文交替出现的段落,并从这些中外文交替 的段落中判断出互为翻译关系,从互为翻译关系的段落中解析出相互对应的句 子。
互为翻译关系的判断,可以通过维护一个标准外文-中文词典(包含每个 常见的外文单词的中文翻译),将双语列表中的外文部分逐个替换为该词典中 的中文翻译,然后以此计算它同该列表的中文部分的编辑距离,若小于一个阈 值即可判定互为翻:^奪关系。
将平行文本(即互为翻译关系的中外文段落)中的句子对齐的方法很多,
即解析出相互对应的句子,具体实现可参考下述所列的论文
參 Y Lii, M Zhou, S Li, C Huang, T Zhao: Automatic Translation Template Acquisition Based on Bilingual Structure Alignment. Cowpirfariowa/ _L/"gw'Wz'c& 206*7
參 C.J. Lee, J. S. Chang, J. R. Jang: Alignment of bilingual named entities in parallel corpora using statistical models and multiple knowledge sources. 7!4ZJP, Jime 2006
需要说明的是,当该方法实施例包括S107时,S107可以与之前的S101、 S102并行处理。并且,在S107执行后,可以进入S103。从而,在S103中, 为S107抽取的护卫翻译关系的段落建立索引。进而,在S104中,当接收到查 询请求时,根据建立的索引查找查询词对应的译文。
同样地,通过S107的处理,解决在构建词典过程中可能存在大量噪音的 问题,即存在大量错误译文的问题。
另夕卜,在S107之后,S103之前,该第三方法实施例中还可以包括
S108:对于抽取的双语词句列表中的句子,根据互联网页上有关句子的常 见的错误情况滤除或修正候选翻译中错误的翻译,并把同一个中文句子对应的 不同外文翻译归并到一起,再把同一中外文句子的雷同的翻译合并。
该步骤的实现可以参考前述S106中的描述,这里不再赘述。同样地,通过S108的处理,解决在构建词典过程中可能存在大量噪音的 问题,即存在大量错误译文的问题。
该第三方法实施例的流程可以如图4所示。
以下介绍本发明的第四方法实施例,该方法实施例实际上是前述第二方法 实施例和第三方法实施例的组合,即包括前述第二方法实施例和第三方法实施
例的全部步骤。该第四方法实施例的流程可以如图5所示。 其中,S108可以与S106合并。
由于该第四方法实施例中的每一步骤与在前述的方法实施例中都有描述, 在此就不再赘述。
由上述本发明提供的方法实施例可见,从海量网页中抽取符合预定模式的 外文词汇及该外文词汇之前和/或之后的中文文字,将抽取的所述外文词汇前 后的中文文字中出现次数达到或超过预定次数的中文文字确定为所述外文词 汇的中文释义,为所述中文与对应释义的外文建立索引,这样,实现了自动构 建词典,而且是从具有海量信息的互联网中所有网页上抓取具有翻译关系的中 外文词汇、词组,而避免了人工输入和编辑,提高了构建词典的效率,并在词 典中尽可能收录较多词汇。
以下介绍本发明构建词典的系统实施例,图6示出了该系统的第一实施 例,如图6所示,该系统实施例可以包括
双语片段抽取单元61,用于从海量网页中抽取符合预定模式的外文词汇 及该外文词汇之前和/或之后的中文文字;
释义确定单元62, 数达到或超过预
索? 1建立单元63,用于为所述中文与对应释义的外文建立索弓1
优选地,所述符合预定模式的外文词汇,包括置于括号内的外文词汇;或, 符合预定格式的中文表达。 优选地,所述系统中,还可以包括
查询单元64,用于在接收到查询请求时,根据建立的索引查找查询词对 应的译文。
优选地,所述系统中,还可以包括
词汇优化单元66,用于根据互联网页上有关词或词组的常见的错误情况 滤除或修正候选翻译中错误的翻译,将同 一个中文词对应的不同外文翻译归并 到一起,并将同一中外文词、词组所对应的雷同的翻i奪合并。
以下介绍本发明构建词典的系统第二实施例,图7示出了该系统的第二实 施例,如图7所示,该实施例除包括第一实施例中的所有单元外,还可以包括
双语词句列表收耳又单元65,用于从海量网页中抽取中文和外文的双语词 句列表;
相应地,所述索引建立单元63,用于为所述中文与对应释义的外文建立 索引。
优选地,所述系统中,所述索引建立单元63还可以不是直接与所述索引 建立单元63相连,而是先与所述词汇优化单元66相连,从而通过所述词汇优 化单元66与所述索引建立单元63相连。其中,所述词汇优化单元66用于根 据互联网页上有关词或词组的常见的错误情况滤除或修正候选翻译中错误的 翻译,将同一个中文词对应的不同外文翻译归并到一起,并将同一中外文词、 词组所对应的雷同的翻译合并。
优选地,所述系统中,还可以包括
句对优化单元67,所述双语词句列表收取单元65先与句对优化单元67, ^v而通过句对优化单元67与所述索引建立单元63相连。所述句对优化单元 67,根据互联网页上有关句子的常见的错误情况滤除或修正候选翻译中错误的 翻译,将同一个中文句子对应的不同外文翻译归并到一起,并将同一中外文句
16子的雷同的翻译合并。
以下介绍本发明构建词典的系统第三实施例,图8示出了该系统的第三实
施例,如图8所示,该实施例除包括第一实施例中的所有单元外,还可以包括 双语段落抽取单元68,用于从海量网页中抽取出中外文交替出现的段落,
并从这些中外文交替的段落中判断出互为翻译关系,从互为翻译关系的段落中
解析出相互对应的句子。
优选地,所述系统中,还可以包括
句对优化单元69,对于抽取的双语词句列表中的句子,根据互联网页上 有关句子的常见的错误情况滤除或修正候选翻译中错误的翻译,将同一个中文 句子对应的不同外文翻译归并到 一起,并将同一中外文句子的雷同的翻译合 并。
以下介绍本发明构建词典的系统第四实施例,图9示出了该系统的第四实 施例,如图8所示,可见,该实施例包括第一、第二、第三实施例中的所有单 元。上述个单元的功能与前面系统实施例中的类似,在此不再赘述。并且,需 要说明的是,句对优化单元69与句对优化单元67可以由同 一单元实现。
本发明可用于众多通用或专用的计算系统环境或配置中。例如个人计算 机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器系统、基 于微处理器的系统、置顶盒、可编程的消费电子设备、网络PC、小型计算机、 大型计算机、包括以上任何系统或设备的分布式计算环境等等。
本发明构建的词典,可以提供众多通用或专用的计算系统环境或配置通过 网络来访问,例如通过专用网络,通过Internet等,从而可以实现在线翻译服 务。这里所说的通用或专用的计算系统环境或配置,例如可以是个人计算机、 服务器计算机、手持设备或便携式设备、平板型设备、多处理器系统、基于微处理器的系统、置顶盒、可编程的消费电子设备、网络PC、小型计算机、大 型计算机、包括以上任何系统或设备的分布式计算环境等等
本发明可以在由计算机执行的计算机可执行指令的 一般上下文中描述,例 如程序模块。 一般地,程序模块包括执行特定任务或实现特定抽象数据类型的 例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本 发明,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来 执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地 和远程计算机存储介质中。
虽然通过实施例描绘了本发明,本领域普通技术人员知道,本发明有许多 变形和变化而不脱离本发明的精神,希望所附的权利要求包括这些变形和变化 而不脱离本发明的精神。
权利要求
1、一种构建词典的方法,其特征在于,包括从海量网页中抽取符合预定模式的外文词汇及该外文词汇之前和/或之后的中文文字;将抽取的所述外文词汇前后的中文文字中出现次数达到或超过预定次数的相同中文文字确定为所述外文词汇的中文释义;为所述中文与对应释义的外文建立索引。
2、 如权利要求1所述的方法,其特征在于,所述符合预定模式的外文词 汇,包括置于括号内的外文词汇;或, 符合预定格式的中文表达。
3、 如权利要求l所述的方法,其特征在于,所述建立索引之后,还包括 在接收到查询请求时,根据建立的索引查找查询词对应的译文。
4、如权利要求1所述的方法,其特征在于,所述为所述中文与对应释义 的外文建立索引之前,该方法还包括从海量网页中抽取中文和外文的双语词句列表。
5、 如权利要求1或4所述的方法,其特征在于,所述抽取过程中,还包括根据互联网页上有关词或词组的常见的错误情况滤除或修正候选翻译中 错误的翻译,将同一个中文词对应的不同外文翻译归并到一起,并将同一中外 文词、词组所对应的雷同的翻i奪合并。
6、 如权利要求4所述的方法,其特征在于,所述抽取中文和外文的双语 词句列表过程中,还包括对于抽取的双语词句列表中的句子,根据互联网页上有关句子的常见的错 误情况滤除或修正候选翻译中错误的翻译,将同一个中文句子对应的不同外文 翻译归并到 一起,并将同 一 中外文句子的雷同的翻译合并。
7、 如权利要求l、 4、 5、 6中任一项所述的方法,其特征在于,所述为所 述中文与对应释义的外文建立索引之前,该方法还包括从海量网页中抽取出中外文交替出现的段落,并从这些中外文交替的段落 中判断出互为翻译关系,从互为翻译关系的段落中解析出相互对应的句子。
8、 如权利要求7所述的方法,其特征在于,所述抽取出中外文交替出现 的段落过程中,该方法还包括对于抽取的双语词句列表中的句子,根据互联网页上有关句子的常见的错 误情况滤除或修正候选翻译中错误的翻译,将同一个中文句子对应的不同外文 翻译归并到一起,并将同一中外文句子的雷同的翻译合并。
9、 一种构建词典的系统,其特征在于,包括双语片段抽取单元,用于从海量网页中抽取符合预定模式的外文词汇及该 外文词汇之前和/或之后的中文文字;释义确定单元,用于将抽取的所述外文词汇前后的中文文字中出现次数达 到或超过预定次数的中文文字确定为所述外文词汇的中文释义;索引建立单元,用于为所述中文与对应释义的外文建立索引。
10、 如权利要求9所述的系统,其特征在于,所述符合预定模式的外文词 汇,包括置于括号内的外文词汇;或, 符合预定格式的中文表达。
11、 如权利要求9所述的系统,其特征在于,所述系统还包括 查询单元,用于在接收到查询请求时,根据建立的索引查找查询词对应的译文。
12、 如权利要求9所述的系统,其特征在于,所述系统还包括 双语词句列表收取单元,用于从海量网页中抽取中文和外文的双语词句列表;相应地,所述索引建立单元,用于为所述中文与对应释义的外文建立索引。
13、 如权利要求9或12所述的系统,其特征在于,所述系统还包括 词汇优化单元,用于根据互联网页上有关词或词组的常见的错误情况滤除或修正候选翻译中错误的翻译,并把同一个中文词对应的不同外文翻译归并到一起,再4巴同一中外文词、词组所对应的雷同的翻译合并。
14、 如权利要求12所述的系统,其特征在于,所述系统还包括 句对优化单元,对于抽取的双语词句列表中的句子,根据互联网页上有关 句子的常见的错误情况滤除或修正候选翻译中错误的翻译,将同 一个中文句子 对应的不同外文翻译归并到一起,并将同一中外文句子的雷同的翻译合并。
15、 如权利要求9、 12、 13、 14中任一项所述的系统,其特征在于,所述 系统还包括双语段落抽取单元,用于从海量网页中抽取出中外文交替出现的段落,并 从这些中外文交替的段落中判断出互为翻译关系,从互为翻译关系的段落中解 析出相互对应的句子。
16、 如权利要求15所述的系统,其特征在于,所述系统还包括 句对优化单元,对于抽取的双语词句列表中的句子,根据互联网页上有关句子的常见的错误情况滤除或修正候选翻译中错误的翻译,将同一个中文句子 对应的不同外文翻译归并到一起,并将同 一中外文句子的雷同的翻译合并。
全文摘要
本发明实施例公开了构建词典的方法和系统。一种构建词典的方法,包括从海量网页中抽取符合预定模式的外文词汇及该外文词汇之前和/或之后的中文文字;将抽取的所述外文词汇前后的中文文字中出现次数达到或超过预定次数的中文文字确定为所述外文词汇的中文释义;为所述中文与对应释义的外文建立索引。利用本发明,可以提高构建词典的效率,并在词典中尽可能收录较多词汇。
文档编号G06F17/30GK101425087SQ20081022242
公开日2009年5月6日 申请日期2008年9月16日 优先权日2008年9月16日
发明者塔 包, 杨 周, 枫 周, 李志恒, 李新娟, 毅 邓 申请人:网易有道信息技术(北京)有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1