专利名称:词义消歧方法和系统的利记博彩app
技术领域:
本发明一般地涉及自然语言处理,更具体而言,涉及词义理解以及词义消歧方法 和系统。
背景技术:
所谓词义消歧就是要在特定的上下文环境中确定多义词的词义,其在自然语言处 理、信息检索、信息抽取、本体集成等领域都有广泛的应用。目前的词义消歧方法都是针对文本或句子中的目标词汇而进行的。一般而言,目 标词汇的文本上下文环境构成区分词义的特征空间,具体可能包括目标词汇的临近词语、 固定搭配、或根据句子结构分析而获得的其他语法特征。已有的词义消歧方法主要利用来源于文本上下文环境的语法特征来区分词义,当 应用这些方法对出现在本体或者具有层次结构的概念/类别中的目标词汇进行词义消歧 时,不能取得理想的效果。下面简要介绍目前现有技术中已经存在的一些相关技术。例如,在 Kilgarriff,A.、Rosenzweig, J.等人于 2000 年发表的文章 “Framework and Results for English SENSEVAL, Computers and theHumanities, 34,,(第 15-48 页) 中列举了一些词义消歧方法,他们主要首先基于语法分析从目标词汇的文本上下文结构中 获得相应的语法特征(主要包括和目标词汇在一定距离窗口之内的并现词汇,固定搭配, 主谓宾结构分析等),进而通过统计方法达到辨别目标词汇词义的目的。另外,日本专利JP2002-082943描述了一种针对出现在网页中的命名实体进行语 义消歧方法。其独特之处在于除了利用目标词汇所在的网页中出现的语法特征之外,出现 在和目标词汇所在网页具有超级链接关系的网页中的语法特征也被考虑进来,实现命名实 体的语义消歧。图1示出该词义消歧系统的结构框图,而图2示出利用图1所示系统进行 词义消歧的一个示意性实例。如图1所示,该词义消歧系统100由两部分组成, 即提供存储的存储部件和作为主 要处理部件的基于文本上下文的词义消歧部件。基于文本上下文的词义消歧部件包括词汇 输入装置101、文本上下文抽取装置102、基于文本上下文的词义打分装置103以及词义选 择装置104。参考图2所示示例,文本上下文抽取装置102在进行文本上下文抽取时,除了 考虑目标词汇“bass”所在网页的语法特征之外,还将与目标词汇所在网页具有超级链接关 系的网页中的语法特征也考虑进来,从而得到完整的文本上下文。例如如图2所示,得到共 现词汇“go”、“fish”和“sea”。在得到共现词汇之后,基于文本上下文的词义打分装置103 根据共现词汇对目标词汇“bass”在词典中给出的各种词义进行打分。例如,基于文本上下 文的词义打分装置103可以通过计算文本上下文中所有共现词汇与词典中每个词义定义 之间的相似度来作为词义得分。然后,词义选择装置104可以选择具有较高相似度得分的 词义作为正确词义。例如,在图2所示示例中,词义选择装置104选择目标词汇“bass”的 词义“一种鱼”作为最终词义。这种词义消歧方法的缺陷在于,从文本上下文中获得的所有 共现词汇在最终的词义打分中具有相同的权重,而事实上共现词汇“go”对词义打分没有很强的贡献,甚至对最终的词义消歧结果具有负面作用。但是,不同共现词汇对于词义消歧结 果的影响并未被考虑进来。如前所述,目前现有技术中的词义消歧方法主要利用来自目标词汇的文本上下文 中的语法特征进行词义的辨别。如果利用这些方法对本体和层次性分类结构中的目标词汇 进行语义消歧,由于他们只考虑目标词汇的语法特征,而本体或层次性分类模式中所蕴含 的大量的语义特征没有被利用,因此造成词义消歧效果和精度不理想。
发明内容
本发明旨在解决上述现有词义消歧方法中存在的诸多问题。根据本发明的原理, 首先从本体或层次化分类模式中确定目标词汇所在的概念,以及此概念与其他概念的各种 语义关系等(即,抽取概念上下文)。然后,根据目标词汇的概念上下文所蕴含的语义特征 针对目标词汇在词义字典中的词义进行打分排序,其打分排序的结果作为词义消歧的主要 依据。根据本发明第一方面,提供了一种利用语义特征进行词义消歧的方法,其包括输 入目标词汇,其具有多种词义;从相关本体抽取所述目标词汇所在的概念以及在本体中的 概念上下文;基于所述概念上下文对所述目标词汇的各种词义进行打分;以及根据所述打 分结果选择所述目标词汇的适当词义。根据本发明第二方面,提供了一种利用语义特征进行词义消歧的系统,其包括词 汇输入装置,用于输入目标词汇,其具有多种词义;概念上下文抽取装置,用于从相关本体 抽取所述目标词汇所在的概念以及在本体中的概念上下文;基于概念上下文的词义打分装 置,用于基于所述概念上下文对所述目标词汇的各种词义进行打分;以及词义选择装置,用 于根据所述打分结果选择所述目标词汇的适当词义。本发明提出了利用本体或具有层次结构的分类体系中所蕴含的语义信息对其中 的词汇进行语义消歧的方法。由于目标词汇所在的上下文(即概念上下文)中各种相关语 义特征被考虑进来,因此词义消歧的准确率得到显著提高。从下面结合附图的详细描述中,可以看出本发明的其他特征和优点。注意,本发明 的范围并不限于图中所示的示例或者任何具体的实施例。
结合附图,从下面对本发明实施例的详细描述,将更好地理解本发明,附图中类似 的参考标注指示类似的部分,其中图1是示出根据现有技术的词义消歧系统100的结构框图;图2是用于举例说明图1所示系统100的工作原理的实例的示意图;图3是示出根据本发明实施例的词义消歧系统300的结构框图;图4是示出图3所示系统300的工作过程的流程图;图5是详细示出基于概念上下文的词义打分装置的内部结构的一个示例的框图;图6是详细示出基于概念上下文的词义打分装置的内部结构的另一示例的框图;图7是用于举例说明图3所示系统300的工作原理的实例的示意图;以及图8是示出将根据本发明的基于概念上下文的词义消歧系统与传统的基于文本上下文的词义消歧系统结合适用的框图。
具体实施例方式图3是示出根据本发明实施例的词义消歧系统300的结构框图。如图1所示系 统100相对照,系统300也可以由两部分组成,即基于概念上下文的词义消歧部件与存储 部件。如图3所示,作为本发明的核心,基于概念上下文的词义消歧部件包括词汇输入装 置301、概念上下文抽取装置302、基于概念上下文的词义打分装置303以及词义选择装置 304。与词义消歧部件的工作相配合,存储部件包括多个存储设备305-309。图4是示出图3所示系统300的工作过程的流程图。过程400开始于步骤401,其 中词汇输入装置301可以输入目标词汇w,该目标词汇可以具有多种词义。在步骤402中, 概念上下文抽取装置302从相关本体(例如层次化分类模式)抽取目标词汇w所在的概念 以及在本体中的概念上下文。这里,与目标词汇相关的本体数据或层次化分类模式被存储 在本体/层次化分类模式存储设备305中。如本领域技术人员所公知的,本体是对一个具体领域的显性的形式化描述,其包 含此领域包含的类别(如计算机安全产品领域中的防火墙为这个领域的一个抽象概念类 别)、实体(如一个具体的防火墙产品)、属性描述(如防火墙的各种属性参数等),以及相应类别、实体、属性之间的各种关系(如一个具体的防火墙产品是一个防火墙概念的具体 实例,防火墙是一类计算机安全产品)等。层次化分类模式是一种应用广泛的显性但非形 式化的本体。如Yahoo Directory,0DP的开放目录等。这些形式化或者非形式化本体在实 际的应用过程中,特别是在进行计算机处理的过程中,在很多情况下需要对其所涉及到的 各种关于概念,实体,和属性等自然语言的描述名称中包含的词汇进行词义的消歧。具体的 应用场景可能包括信息检索过程中需要对检索词的扩展,两个本体的集成等。类别,实体, 属性等统称为概念。返回图4,基于抽取出的概念上下文,在步骤403中,基于概念上下文的词义打分 装置303对目标词汇的在词典中的各种词义Iw1, w2,...wn}进行打分。在得到各个词义的 得分之后,在步骤404中,词义选择装置304根据词义得分选择目标词汇的适当词义。至此, 过程400结束。为了进一步说明根据本发明的词义消歧系统300的工作原理,下面对基于概念上 下文的词义消歧部件中所包含的主要组件进行说明。<概念上下文抽取装置>如图3所示,概念上下文抽取装置302用于抽取目标词汇w所在的概念及其在层 次化分类模式或者本体中的概念上下文。包含目标词汇的概念及其与本体或层次化分类模 式中所包含的其他概念之间的各种语义关系构成了此目标词汇的概念上下文。概念上下文 中蕴含了大量的用于目标词汇语义消歧的语法和语义特征。语法特征例如包括与目标词汇同时出现在同一个概念中的其他的共现词汇构成 其上下文词汇表,如“语义网”中,“语义”和“网”互相构成对方的上下文词汇。语义特征蕴含在和包含目标词汇的概念以某种关系(如兄弟概念,子概念,父亲 概念等)联系在一起的所有其他概念中。如对于一个具有层次关系的概念树中包含“互联 网”这一概念,其包含“语义网”为其子概念,同时还有一个距离“互联网”具有较远语义关系的概念如“服装”,这样在对“互联网”这个概念中的词汇进行语义消歧时,“语义网”和“月艮 装”都可以看作是其概念上下文信息,但是根据语义距离的远近,在最后的词义打分中,他 们将赋予不同的权重。这种不同的权重指定的主要根据就是语义特征中的关系划分。关于 概念权重的利用将在下文中详细描述。
<基于概念上下文的词义打分装置>基于概念上下文的词义打分装置303根据目标词汇的概念上下文所蕴含的语义 特征对该目标词汇在词典中定义的各个词义进行打分。根据抽取得到的概念上下文,可以 设计多种利用语义特征来对参考词典中给出的关于目标词汇的多个词义进行打分的方法。 这里参考图5和图6给出利用语义特征进行词义打分的两种示例。当然,图5和图6所示 出的词义打分方法仅仅是作为示例给出的,而不应被视为对本发明范围的限制。本领域技 术人员在阅读本发明说明书之后容易想到其他基于语义特征的词义打分方法都可以被相 应的用于实现本发明的目的。首先,图5详细示出基于概念上下文的词义打分装置303的一个示例。如图所示, 基于概念上下文的词义打分装置303例如可以包括共现词汇搜索单元501、权重确定单元 502、相关度计算单元503和加权单元504。在该示例中,利用概念上下文中的各种语义关 系可以对和目标词汇共现的(出现在不同邻近的概念中)的上下文词汇赋予不同的权重, 继而实现利用概念上下文中的语义特征来实现高质量的词义打分。这显然区别于现有技术 中的传统方法,在传统的语义消歧方法中,一般共现词汇具有相同的权重,例如前面参考图 2所论述的。具体地,对于出现在概念名称中的目标词汇w来说,共现词汇搜索单元501首先从 其概念上下文中搜索出所有共现词汇Ia1, a2, ...am},所述共现词汇ai(i = 1,2, . . . m)是 出现在目标词汇w的邻近概念中的上下文词汇。针对共现词汇搜索单元501所搜索出m个 共现词汇 (i = 1,2,. . . m),词义打分算法可以通过如下流程来实现(A)对于每个共现词汇 ,权重确定单元502可以通过某种语义路径长短的计算 来获得该共现词汇 在最终语义消歧过程中的相应权重W (ai);(B)基于词义词典中给出的目标词汇w的每种词义w」(j = 1,2, ...η)的词义定 义,相关度计算单元503计算该词义Wi与每个共现词汇 的相关度R( /ai)。具体地,相 关度的计算可以采取如下算法(1)针对共现词汇 在词典中具有的每种词义α丨(1 = 1,2,. . . r),计算词义Wj与 该词义α丨之间的相关度 丨);并且(2)对词义Wj相对于共现词汇%的各种词义的相关度求和,以作为词义Wj与该共 现词汇 之间的相关度,即灭 (C)进而,加权单元504得到每个词义%相对于所有共现词汇的相关度 由加权单元504针对每个词义Wj计算出的相关度Rank (Wj)可以作为该词义Wj的 得分被存储到词义得分存储设备308中。图6详细示出基于概念上下文的词义打分装置303的另一个示例。在该示例中,通过将概念上下文中的层次结构/图结构和语义词典中给出的词义层次结构进行匹配计算, 来达到词义打分的目的。如图6所示,在该示例中,基于概念上下文的词义打分装置303包 括概念子层次结构提取单元601、词义参考层次结构提取单元602和相似匹配单元603。利用图6所示的词义打分方法,首先,概念子层次结构提取单元601可以从相关本 体中提取出以目标词汇w为中心的、对应于目标词汇的概念上下文的子层次结构。目标词 汇的概念上下文通常是本体或者层次化分类模式的一个子集,并且目标词汇位于这个子集 的中心。然后,词义参考层次结构提取单元602从词典中提取与目标词汇的每种词义Wj相 对应的词义参考层次结构。提供词义定义的参考词典一般可以包含一个或者多个描述词义 之间层次关系的层次化结构,一般一个词义的定义存在于一个或者多个这样的层次化结构 中。综合两方面的层次结构,相似匹配单元603将从本体中提取出的对应于目标词汇的概 念上下文的子层次结构与词典中对应于每种词义%的词义参考层次结构进行图匹配以计 算在拓扑结构上的相似度,并以此作为该词义 对应的得分。图7示出根据本发明的词义消歧系统的工作原理的一个示意性实例。与图2所示 根据现有技术的实例相对照,根据本发明的词义消歧系统从与目标词汇相对应的本体中提 取出概念上下文,并基于概念上下文对目标词汇的各种词义进行打分。具体打分方法可以 参见上述参考图5和图6所描述的方法。在图7所示示例中,虽然“go away”中的“go”与 “saltwaterbass”在概念上下文中具有某种语义关系,但因语义路径较长,使得其在最终词 义打分中具有较低权重。这样,可以消除其在词义消歧中的负面效果。由基于概念上下文的词义打分装置303计算出的各个词义的得分可以随后被存 储到词义得分存储设备308中。例如,假设对于具有3个词义的目标词汇w来说,其3个词 义的分值可以分别为0. 86,0. 43和0. 28。<词义选择装置>词义选择装置304根据目标词汇不同词义的得分选择具有相应概念上下文的目 标词汇所具有的适当词义。这里,词义选择装置304可以基于多种词义选择策略来进行词 义选择。例如,词义选择装置304可以只选择具有最高分值的词义作为目标词汇的准确词 义。可替换地,词义选择装置304也可以选择得分高于某个阈值的所有词汇作为目标词汇 的准确词义。另外,词义选择装置304也可以根据某种策略来动态地选择准确词义例如, 如果目标词汇的词义比较多,则选择的准确词义也相应较多,而如果目标词汇的词义比较 少,则选择的准确词义也相应较少。由词义选择装置304所选择的词义可以被存储到所选词义存储设备309中,作为 针对具有特定概念上下文的目标词汇所确定的词义。本发明所提出的基于概念上下文的词义消歧方法可以与现有技术中已经存在的 基于文本上下文的词义消歧方法结合使用,以提高词义消歧结果的精度。图8是示出将基 于概念上下文的词义消歧系统与传统的基于文本上下文的词义消歧系统结合适用的系统 框图。在图8中,除了根据本发明的基于概念上下文的词义消歧系统 基本配置之外,还 包括基于文本上下文的词义打分装置801和综合打分装置802。基于文本上下文的词义打 分装置801可以利用基于文本上下文的传统词义消歧方法对目标词汇的每种词义(j = 1,2, ...η)进行打分。综合打分装置802针对每种词义= 1,2, ...n),将基于概念上下文的词义打分装置303计算出的得分作为第一打分结果Rankl (Wj),并将基于文本上下文 的词义打分装置801计算出的得分作为第二打分结果Rank2 (Wj),并计算所述词义 的综 合得分 Rank (Wj) = 0Rankl(Wj) + (l-e)Rank2(Wj),其中 θ 为预定权重,0< θ < 1。该综 合得分Rank(Wp被存储到词义得分存储设备308中以用于词义选择。以上参考附图详细描述了根据本发明的词义消歧方法和系统的具体实施例。本发明提出了利用本体或具有层次结构的分类体系中所蕴含的语义信息对其中的词汇进行语 义消歧的方法。由于目标词汇所在的上下文(即概念上下文)中各种相关语义特征被考虑 进来,因此词义消歧的准确率得到显著提高。虽然上面虽然已经描述了根据本发明的具体实施例,但是,本发明并不限于图中 示出的特定配置和处理。另外,为了简明起见,这里省略对已知方法技术的详细描述。在上 述实施例中,描述和示出了若干具体的步骤作为示例。但是,本发明的方法过程并不限于所 描述和示出的具体步骤,本领域的技术人员可以在领会本发明的精神之后,作出各种改变、 修改和添加,或者改变步骤之间的顺序。本发明的元素可以实现为硬件、软件、固件或者它们的组合,并且可以用在它们的 系统、子系统、部件或者子部件中。当以软件方式实现时,本发明的元素是被用于执行所需 任务的程序或者代码段。程序或者代码段可以存储在机器可读介质中,或者通过载波中携 带的数据信号在传输介质或者通信链路上传送。“机器可读介质”可以包括能够存储或传输 信息的任何介质。机器可读介质的例子包括电子电路、半导体存储器设备、ROM、闪存、可擦 除ROM(EROM)、软盘、CD-ROM、光盘、硬盘、光纤介质、射频(RF)链路,等等。代码段可以经由 诸如因特网、内联网等的计算机网络被下载。本发明可以以其他的具体形式实现,而不脱离其精神和本质特征。例如,特定实施 例中所描述的算法可以被修改,而系统体系结构并不脱离本发明的基本精神。因此,当前的 实施例在所有方面都被看作是示例性的而非限定性的,本发明的范围由所附权利要求而非上述描述定义,并且,落入权利要求的含义和等同物的范围内的全部改变从而都被包括在 本发明的范围之中。
权利要求
一种利用语义特征进行词义消歧的方法,包括输入目标词汇w,其具有多种词义{w1,w2,...wn};从相关本体抽取所述目标词汇所在的概念以及在本体中的概念上下文;基于所述概念上下文对所述目标词汇的各种词义进行打分;以及根据所述打分结果选择所述目标词汇的适当词义。
2.如权利要求1所述的方法,其中所述本体具有层次化分类模式。
3.如权利要求1所述的方法,其中对所述目标词汇的每种词义=1,2,...η)进行 打分的步骤包括根据所述概念上下文中的语义关系搜索与所述目标词汇w相关的共现词汇{a” ,...\},所述共现词汇 (1 = l,2,...m)是出现在所述目标词汇的邻近概念中的上下文 词汇;针对每个所述共现词汇根据该共现词汇与所述目标词汇之间的语义路径长短,对 该共现词汇赋予一权重W (ai);基于词典中给出的词义定义,计算所述目标词汇的每种词义 与每个共现词汇% (i = l,2,...m)之间的相关度R(WjAii);以及计算每种词义%相对于所有共现词汇Ia1, a2, . . . aj的总相关度树巧) 作为该词义Wj对应的得分。 /=1
4.如权利要求3所述的方法,其中所述计算词义%与每个共现词汇%之间的相关度 R(WjAii)的步骤包括针对共现词汇 在词典中具有的每种词义< (1 = 1,2,. . . r),计算词义Wj与该词义< 之间的相关度并且对词义%相对于所述共现词汇%的各种词义的相关度求和,以作为词义Wj与共现词汇 之间的相关度,即
5.如权利要求1所述的方法,其中对所述目标词汇的每种词义=1,2,...η)进行 打分的步骤包括从所述本体中提取出以所述目标词汇为中心的、对应于所述目标词汇的概念上下文的 子层次结构;从词典中提取与所述目标词汇的每种词义%相对应的词义参考层次结构;以及 将从所述本体中提取出的对应于所述目标词汇的概念上下文的子层次结构与词典中 对应于每种词义%的词义参考层次结构进行图匹配以计算在拓扑结构上的相似度,作为该 词义%对应的得分。
6.如权利要求1所述的方法,还包括以基于所述概念上下文计算出的每种词义= 1,2, ...η)的得分作为第一打分结 果 Rankl (Wj);利用基于文本上下文的传统词义消歧方法对所述词义%计算第二打分结果 Rank2 (Wj);以及计算所述词义Wj的综合得分Rank (Wj) = θ Rankl (Wj) + (1_ θ ) Rank2 (Wj),其中θ是预定权重,O < θ < 1。
7.如权利要求1所述的方法,其中所述选择目标词汇的适当词义的步骤包括 选择分值大于一预定阈值的词义作为所述适当词义。
8.如权利要求7所述的方法,其中所选词义的数目与所述目标词汇在词典中所有词义 的数目成比例。
9.一种利用语义特征进行词义消歧的系统,包括词汇输入装置,用于输入目标词汇《,其具有多种词义{Wl,W2,...Wn}; 概念上下文抽取装置,用于从相关本体抽取所述目标词汇所在的概念以及在本体中的 概念上下文;基于概念上下文的词义打分装置,用于基于所述概念上下文对所述目标词汇的各种词 义进行打分;以及词义选择装置,用于根据所述打分结果选择所述目标词汇的适当词义。
10.如权利要求9所述的系统,其中所述基于概念上下文的词义打分装置包括 共现词汇搜索单元,用于根据所述概念上下文中的语义关系搜索与所述目标词汇w相关的共现词汇{a1; a2, ...am},所述共现词汇ai(i = 1,2, . . . m)是出现在所述目标词汇的 邻近概念中的上下文词汇;权重确定单元,用于针对每个所述共现词汇ai;根据该共现词汇与所述目标词汇之间 的语义路径长短,对该共现词汇赋予一权重W (ai);相关度计算单元,用于基于词典中给出的词义定义,计算所述目标词汇的每种词义 WjU = 1,2,...η)与每个共现词汇 (1 = l,2,...m)之间的相关度R(WjAii);以及加权单元,用于计算每种词义%相对于所有共现词汇{a” a2, . . . affl}的总相关度 ),作为该词义对应的得分。
11.如权利要求9所述的系统,其中所述基于概念上下文的词义打分装置包括概念子层次结构提取单元,用于从所述本体中提取出以所述目标词汇为中心的、对应 于所述目标词汇的概念上下文的子层次结构;词义参考层次结构提取单元,用于从词典中提取与所述目标词汇的每种词义%相对应 的词义参考层次结构;以及相似匹配单元,用于将从所述本体中提取出的对应于所述目标词汇的概念上下文的子 层次结构与词典中对应于每种词义%的词义参考层次结构进行图匹配以计算在拓扑结构 上的相似度,作为该词义%对应的得分。
12.如权利要求9所述的系统,还包括基于文本上下文的词义打分装置,用于利用基于文本上下文的传统词义消歧方法对所 述目标词汇的每种词义乂 (j = 1,2,... η)进行打分;以及综合打分装置,用于针对每种词义= 1,2, ... η),输入所述基于概念上下文的词 义打分装置计算出的得分,作为第一打分结果Rankl (^),输入所述基于文本上下文的词 义打分装置计算出的得分,作为第二打分结果Rank2 (Wj),并计算所述词义Wj的综合得分 Rank(Wj) = θ Rankl (Wj) + (1-θ ) Rank2 (Wj),其中 θ 预定权重,0< θ < 1。
全文摘要
本发明提出了词义消歧方法和系统。本发明所提出的方法利用本体或具有层次结构的分类体系中所蕴含的语义信息对其中的目标词汇进行语义消歧,该方法包括输入目标词汇w,其具有多种词义{w1,w2,...wn};从相关本体抽取目标词汇所在的概念以及在本体中的概念上下文;基于概念上下文对目标词汇的各种词义进行打分;以及根据打分结果选择目标词汇的适当词义。根据本发明,由于目标词汇所在的上下文(即概念上下文)中各种相关语义特征被考虑进来,因此词义消歧的准确率得到显著提高。
文档编号G06F17/27GK101840397SQ20091012945
公开日2010年9月22日 申请日期2009年3月20日 优先权日2009年3月20日
发明者刘博 , 李建强, 赵彧 申请人:日电(中国)有限公司