词义消歧系统和方法

文档序号:6578401阅读:312来源:国知局
专利名称:词义消歧系统和方法
技术领域
本发明涉及自然语言处理领域,具体地,涉及一种词义消歧系统和方法。
背景技术
在一种语言中,某些词只有一个词义,而某些词有多个词义。例如汉语中的“电话” 只有一个词义,即通讯工具,而“服”有两个词义(sense),一是衣物,二是吃。词义消歧(Word Sense Disambiguation,简称WSD)就是在具体的上下文环境中确定某个多义词的词义,例 如在“春服既成,冠者五六人,童子六七人”中确定“服”是衣物的意思,而在“饭后服药”中 确定“服”是吃的意思。词义消歧可以消除词的歧义,确定词的真实含义,这对文本分析和与之相关的各 种服务都很有用处。通常来说词义消歧有两种方式,一是监督式,二是非监督式。前者需要一个人工标 注的训练样本集,后者不需要。由于训练样本集需要人工标注,而且一般是基于领域的,也 就是说,不同领域需要不同的训练样本集,所以构建的时间和资金成本都比较高。而非监督 方法不需要训练样本集,所以相对监督式方法而言具有速度快、成本低等优势。非监督方法的一个基本思路是考虑上下文(context)。例如“服”字有两个 词义,但是上下文中出现“中山装”的时候,则“服”很可能取服装的词义,而不是吃的 词义。具体来说,参考文献 1 (DianaMcCarthy, Rob Koeling, Julie Weeds, and John Carroll. Findingpredominant word senses in untagged text. In Proceedings of the 42ndMeeting of the Association for Computational Linguistics (ACL' 04), MainVoIume,pp 279-286.)给出一种计算方法。图1示出了参考文献1所采用的词义消歧方法的流程图。处理分为四步。第一, 对每个多义词确定上下文;第二,对每个多义词的每个词义确定和上下文的相似度;第三, 对每个多义词,综合考虑它的每个词义和上下文的相似度,对每个词义计算可信度;第四, 选择具有最大可信度的词义,作为这个多义词的词义。具体来说,假设词w的上下文有η个词,则记为c (w) = In1, n2,. . .,nk}。设w有m 个词义(简记为ws),记为Senses (w) = (wsi; ws2, . . . , wsm)。词w的词义Wsi的可信度的 计算公式如下 其中S(WSi,nj)是Wsi和w的第j个上下文词η」的相似度。假设~有1个词义,具 体公式为 S (wsi rij) = max (S (wsi Hsjl),S (wsi nsj2),. . .,S (wsi Hsjl)),其中 nsjp 代表1的 第P个词义。S(WSi,nSjl)是两个词义的相似度,某些字典可以提供这个功能,例如HowNet。下面结合一个示例来说明参考文献所使用的方法。假设有三个词{服,装,包},它们互为context,例如c(服)={装,包}。假设它们的词义和词义之间的相似度如表1 和表2所示。表1示出了服,装,包三个词的词义,表2示出了词义之间的相似度。例如,表 2的第五行表示了相似度S(衣物(clothes),用具(tool)) =0.3。
表1 表2参考文献1中描述的方法是对每个词同时进行以上流程中的四个步骤。例如,对W=服,第一,确定它的上下文是C(W) = {ni;n2} = {装,包}。第二,计算每个词义和上下文的相似度Senses (w) = (ws1; ws2)=(衣物(clothes),吃(eat)).S(WSpn1) = max (S (衣物(clothes),衣物(clothes)),S (衣物(clothes),包扎(wrap))) = max(1,0) = 1S(wsi; n2) = max(S(衣物(clothes),用具(tools)),S(衣物
(clothes),包扎(wrap))) = max (0· 3,0) = 0. 3S (ws2, η》=max (S (吃(eat),衣物(clothes)), S (吃(eat),包扎(wrap))) = max(0,0. 2) = 0. 2S (ws2, n2) = max (S (吃(eat),用具(tools)),S (吃(eat),包扎(wrap))) = max(0,0. 2) = 0. 2第三,计算每个词义的可信度C(Ws1) = S (Ws1, Ii1) / (S (Ws1, Ii1)+S (ws2, Ii1))+S (Ws1, n2) / (S (Ws1, n2)+S (ws2, n2))= 1/(1+0. 2)+0. 3/(0. 3+0. 2) = 1. 43C(ws2) = S (ws2, Ii1) / (S (Ws1, Ii1)+S (ws2, Ii1))+S (ws2, n2) / (S (Ws1, n2)+S (ws2, n2))= 0. 2/(1+0. 2)+0. 2/(0. 3+0. 2) = 0. 57第四,确定“服”的词义因为C(Ws1) > C(ws2),所以“服”取Ws1 =衣物(clothes) 的词义。类似地,对W=装,第一,确定它的上下文是C(W) = {ni;n2} = {服,包}。第二,计算每个词义和上下文的相似度Senses (w) = (Ws1, ws2)=(衣物(clothes),包扎(wrap)).S (ws1 η》=max (S (衣物(clothes),衣物(clothes)), S (衣物(clothes),吃 (eat)))= max (1,0) = 1S (ws1 n2) =max(S(衣物(clothes),用具(tools)), S(衣物(clothes),包扎 (wrap))) = max(0. 3,0) = 0. 3S (ws2, n》=max (S (包扎(wrap),衣物(clothes)),S (包扎(wrap),吃(eat))) =max(0,0. 2) = 0. 2S (ws2,n2) = max (S (包扎(wrap),用具(tools)),S (包扎(wrap),包扎(wrap))) =max (0,1) =1第三,计算每个词义的可信度C(Ws1) = S (Ws1, Ii1) / (S (Ws1, Ii1)+S (ws2, Ii1))+S (Ws1, n2) / (S (Ws1, n2)+S (ws2, n2))= 1/(1+0. 2)+0. 3/(0. 3+1) = 1. 06C (ws2) = 0. 2/ (1+0. 2) +1/(0. 3+1) = 0. 94第四,确定“服”的词义因为C(wsl) >C(ws2),所以“装”取Ws1 =衣物(clothes) 的词义。类似地,对W=包,第一,确定它的上下文是C(W) = In1, %} = {服,装}。第二,计算每个词义和上下文的相似度Senses (w) = (ws” ws2)=(用具(tools),包扎(wrap)).S (wsi; Ii1) = max (S (用具(tools),衣物(clothes)),S (用具(tools),吃(eat))) = max(0. 3,0) = 0. 3S (wsi; n2) = max (S (用具(tools),衣物(clothes)),S (用具(tools),包扎(wrap))) = max(0. 3,0) = 0. 3S (ws2, η》=max (S (包扎(wrap),衣物(clothes)),S (包扎(wrap),吃(eat))) = max(0,0. 2) = 0. 2S (ws2,n2) = max (S (包扎(wrap),衣物(clothes)),S (包扎(wrap),包扎(wrap)))=max (0,1) =1第三,计算每个词义的可信度C(Ws1) = S (Ws1, Ii1) / (S (Ws1, Ii1)+S (ws2, Ii1))+S (Ws1, n2) / (S (Ws1, n2)+S (ws2, n2))= 0. 3/(0. 3+0. 2)+0. 3/(0. 3+1) = 0. 83C(ws2) = 0. 2/(0. 3+0. 2)+1/(0. 3+1) = 1. 17第四,确定“包”的词义因为C(Ws2) > C(WSl),所以“包”取Ws2 =包扎(wrap)的 词义。综合以上三个结果,输出为{服衣物(clothes),装衣物(clothes),包包扎 (wrap)}ο由于以上过程是同时计算每个词的词义,结果中可能存在不一致。例如,在上例 中,服和装都取的是衣物(clothes)的词义,而包取的是包扎(wrap)的词义。但仔细分析 包的计算过程可以发现,包之所以取这个词义,是因为在计算过程中“装”的包扎(wrap)的 词义起了决定性的作用(S(ws2,n2) = max(…,S(包扎(wrap),包扎(wrap))) = max(0, 1) = 1)。但是装最后取的却不是包扎(wrap)这个词义,这就导致了不一致。上例中正确 的结果应该是{服衣物(clothes),装衣物(clothes),包用具(tools)}。

发明内容
本发明提出一种渐进式词义消歧系统和方法。最初只确定一个词的词义,而不是 所有词的词义,随后重新计算其它词和对应的上下文的相似度。在重新计算过程中,已经确 定词义的词只考虑已经确定的那个词义,而忽略该词的其它词义。重复这个过程直到确定 了所有词的词义。根据本发明第一方面,提出了一种词义消歧系统,用于对多义词进行词义消歧,包 括输入装置,用于输入包括多义词的文本;以及词义消歧装置,用于基于所述词的词义明 显度来迭代地确定每个词的词义,其中词义明显度是根据所述词的词义可信度获得的。根据本发明第二方面,提出了一种词义消歧方法,用于对多义词进行词义消歧,包 括输入步骤,输入包括多义词的文本;以及词义消歧步骤,基于所述词的词义明显度来迭 代地确定每个词的词义,其中词义明显度是根据所述词的词义可信度获得的。优选地,为了保证结果的正确性,在确定词义时,选择词义最明显的那个词确定词 义。例如,基于词义的可信度计算明显度,则词义的可信度越大,词义越明显。由于渐进式过程的计算时间可能比传统方法有所延长,本发明还提出了减少计算 时间、加快计算过程的方法。本发明最初确定多个词的词义,而不是只确定一个词的词义, 并且尽量选择与确定的词义保持一致的词。由于减少计算时间可能导致结果中出现不一 致,所以这是个折中的方案。优选地,为了节省计算时间,在确定词义时,选择词义明显度大于一阈值的词。优选地,为了节省计算时间,在确定词义时,根据词义明显度对词进行排序并从中 选择前η个词。优选地,为了节省计算时间,在已经确定了一个词的词义之后,猜测词义未确定词 可能的词义,以及根据猜测的词义是否与已确定词义一致获取词义未确定词的词义。由此,本发明提高了词义消歧结果的一致性,并在此过程中保持结果的正确性,以
7及克服了计算时间长的缺点。


图1示出了已有技术的词义消歧方法的流程图;图2a示出了本发明第一实施例的词义消歧系统的示意图;图2b示出了根据本发明的词义消歧方法的流程图;图2c示出了根据本发明的词义消歧方法的另一个流程图;图2d示出了根据本发明的词义消歧方法的另一个流程图;图3a示出了根据本发明第二实施例的词义消歧系统的示意图;图3b示出了根据本发明的词义消歧方法的另一个流程图。
具体实施例方式下面,将参考附图描述本发明的优选实施例。在附图中,相同的元件将由相同的参 考符号或数字表示。此外,在本发明的下列描述中,将省略对已知功能和配置的具体描述, 以避免使本发明的主题不清楚。图2a示出了根据本发明第一实施例的词义消歧系统。该 系统包括输入装置21,上下文确定装置22,词义消歧装置2和存储器(未示出)。输入装 置21用于接收输入的文本,文本包括具有多个词义的多义词。上下文确定装置22用于对 文本中的每个多义词确定其上下文。对于一个多义词,其在文本中的一个或多个相邻的词 可以看做是该词的上下文。词义消歧装置2包括相似度计算单元23,词义可信度计算单元 24,词义明显度计算单元25,选词单元26,词义确定单元27和控制器28。相似度计算单元 23用于计算每个多义词的词义与其上下文之间的相似度。已经存在一些词典可以提供计算 两个词义之间的相似度的功能,例如,可以使用WordNet (英文)或者HowNet (中文)词典 来获得两个多义词的词义之间的相似度。词义可信度计算单元24用于基于获得的相似度 计算词的词义可信度。可以采用参考文献1的方法计算词义可信度。词义明显度计算单元 25用于基于词的词义可信度获得词的词义明显度。词义明显度表示了多义词取某个词义的 可能性。选词单元26用于根据词义明显度选择满足预定条件的词,例如,选择词义明显度 最大的词,选择词义明显度大于一阈值的词,或者从按照明显度排序后的多义词中选择前η 个词。词义确定单元27,用于确定选择的词的词义。从而可以在每一个循环中确定一个词 的词义,或者在每一个循环中确定多个词的词义。控制器28,用于控制相似度计算单元23, 词义可信度计算单元24,词义明显度计算单元25,选词单元26和词义确定单元27的操作。 从而各个单元在控制器的控制下对输入的文本中的多义词循环进行相似度计算,可信度计 算,词义明显度计算,选词,确定词义,直到对文本中的每一个多义词确定了该多义词在文 本中的词义。虽然图2a示出本发明的词义消歧系统包括上下文确定装置22,但是可以理解的 是词义消歧系统也可以不包括该上下文确定装置,而是使用输入的已经确定了上下文的文 本。图2b示出了根据本发明的词义消歧方法。在S201,词义消歧系统的输入装置20 输入文本。在S202,上下文确定装置22确定文本中的每个多义词的上下文。在S203,词 义消歧装置的相似度计算单元23分别确定每个多义词的各个词义和上下文的相似度。在
8S204,词义可信度计算单元24计算每个多义词的各个词义的可信度。在S205,词义明显度计算单元25计算每个多义词的词义明显度。可以使用下列两 种可选公式之一计算多义词的词义明显度。
.Max(Cw) - Second—Max(Cw)E (w) = Max (Cw) E(w) =--- ^ 了门、-
Second—Max (CwJ其中,第一个公式中的Max(Cw)是词w的所有的词义可信度中最大的可信度,而 Second_Max(Cw)是次大的可信度。第二个公式用于衡量最大可信度超越次大可信度的程度。对两个公式而言,E(W)越大,则词w的词义越明显,因此可以越早地在循环中确定 该词的词义。例如在“服装包”示例中,服的两个词义可信度分别为1.43和0.57,而装的两 个词义可信度分别为1. 06和0. 94,那么服的两个词义差别很大,服的词义比较确定,应该 取可信度值为1.43的那个词义,而装的两个词义差别不大,不能确定应该取哪个词义。所 以,如果只考虑服和装两个词的话,应该先确定服的词义,再根据已确定的服的词义确定装 的词义。之后,在S206,选词单元26选择词义明显度最大的词,并对选出的词确定词义。可 以比较选出的词的各个词义的可信度,并取可信度最大的那个词义作为选出的词的词义。 在S208,控制器28判断是否已经确定了所有多义词的词义。如果没有,则执行S203,否则
结束处理。下面还以“服装包”一词为例,对上述方法进行简单说明。第一循环(1)确定上下文,计算相似度和可信度与已有技术采用的方式相同,这里不再描 述。(2)根据上述求E (W)的第二个公式,计算词的词义明显度E(服)=(1.43--0.57),/o.57 =1.51
E(装)=(1.06--ο·94),/o.94 =0.13
E(包)=(1.17--ο·83),/o.83 =0.41(3)选择词义明显度最大的词,这里选择“服”。(4)最后,确定服的词义。因为C(Ws1) > C(Ws2),所以取Ws1 =衣物(clothes)的 词义。第二循环还剩下“装”和“包”两个字,以下分别计算。由于在第一循环中已经确定了服的 词义,因此,在以下的计算中,服只取衣物(clothes)的词义,而不再取吃(eat)的词义。对w =装(c(w) = {叫,n2} = {服,包}),Senses (w) = (wsi; ws2)=(衣物 (clothes),包扎(wrap)).(1)计算相似度S(WSpn1) = max(S(衣物(clothes),衣物(clothes))) = max(l)=1S(wsi; n2) =max(S(衣物(clothes),用具(tools)),S(衣物(clothes),包扎 (wrap))) = max(0. 3,0) = 0. 3
9
S(ws2,叫)=max(S(包扎(wrap),衣物(clothes))) = max(0) = 0S (ws2,n2) = max (S (包扎(wrap),用具(tools)),S (包扎(wrap),包扎(wrap))) = max (0,1) = 1(2)计算词义可信度C(Ws1) = S (Ws1, Ii1) / (S (Ws1, Ii1)+S (ws2, Ii1))+S (Ws1, n2) / (S (Ws1, n2)+S (ws2, n2))= 1/(1+0)+0. 3/(0. 3+1) = 1. 23C(ws2) = 0/(1+0)+1/(0. 3+1) = 0. 77(3)计算词义明显度E (装)=(1. 23-0. 77) /0. 77 = 0. 6对 W=包(c(w) = In1, n2} = {服,装}),Senses (w) = (wsi; ws2)=(用具(tools),包扎 (wrap)).(1)计算相似度S(WSpn1) = max(S(用具(tools),衣物(clothes))) = max(0. 3) =0.3S(wsi; n2) = max(S(用具(tools),衣物(clothes)),S(用具(tools),包扎 (wrap))) = max(0. 3,0) = 0. 3S(WSyn1) = max(S(包扎(wrap),衣物(clothes))) = max(0) =0S (ws2,n2) = max (S (包扎(wrap),衣物(clothes)),S (包扎(wrap),包扎(wrap))) =max (0,1) =1(2)计算词义可信度C(Ws1) = S (Ws1, Ii1) / (S (Ws1, Ii1)+S (ws2, Ii1))+S (Ws1, n2) / (S (Ws1, n2)+S (ws2, n2))= 0. 3/(0. 3+0)+0. 3/(0. 3+1) = 1. 23C (ws2) = 0/ (0. 3+0) +1/(0. 3+1) = 0. 77(3)计算词义明显度E (包)=(1. 23-0. 77) /0. 77 = 0. 6(4)选择词义明显的最大的词(第二循环)因为装和包的明显度相同,可以选择任意一个。例如选“装”(选 “包”的结果一样)。(5)确定选择的词的词义因为C(Ws1) > C(Ws2),所以“装”取 Ws1 =衣物(clothes)的词义。第三循环只剩下包一个字。在以下的计算中,服和装只取衣物(clothes)的词 义,而不再取其它的词义。对w =包(c(w) = {叫,nJ = {服,装}),Senses (w) = (wsi; ws2)=(用具 (tools),包扎(wrap)).(1)计算相似度S(WSpn1) = max(S(用具(tools),衣物(clothes))) = max(0. 3) =0.3S(WSpn2) = max(S(用具(tools),衣物(clothes))) = max(0.3) =0.3S(WSyn1) = max(S(包扎(wrap),衣物(clothes))) = max(0) =0S(ws2, n2) = max(S(包扎(wrap),衣物(clothes))) = max(0) =0
(2)计算可信度C(Ws1) = S (Ws1, Ii1) / (S (Ws1, Ii1)+S (ws2, Ii1))+S (Ws1, n2) / (S (Ws1, n2)+S (ws2, n2))= 0. 3/(0. 3+0)+0. 3/(0. 3+0) = 2 C (ws2) = 0/ (0· 3+0) +0/ (0· 3+0) = 0因为只剩下一个词,所以可以省略计算词义明显度和选择词义明显度最大的词的 步骤。在确定词义时,因为C(Ws1) > C(Ws2),所以包取Ws1 =用具(tools)的词义。最后输出结果为{服衣物(clothes),装衣物(clothes),包用具(tools)}。 这是正确的结果,其中包和服、装的词义保持一致。根据上述示例可以看出采用根据本发明的词义消歧方法在词义消歧的同时保持 了词义的一致性。此外,虽然上述词义消歧方法的结果保持了一致性,但是上述示例所采用的方法 使用了三个循环,重复计算了某些内容,所以计算时间比参考文献1有所延长。为了减少计算时间、加快计算过程,本发明提出了对上述词义消歧方法的改进方 法。其思路是(1)对所有词义明显度超过某一阈值的词,都在同一循环中确定词义。(2)对 所有词按照词义明显度排序,取前η个词,在同一循环中确定词义。下面结合图2c和2d对 这两种改进方法进行了描述。图2c示出了词义消歧方法的一个流程图。其中S401至S405与S201至S205的 处理过程相同,这里省略对其描述。在S406,选词单元26选择词义明显度大于阈值的多义 词,并确定选择的词的词义。如果某个词的词义明显度很高(高于阈值),则它取这个词义 的可能性很大,即使在随后的循环中某些上下文的词义发生改变,这个词改变词义的可能 性也不大,所以可以在第一循环中就确定该词的词义。但因为阈值通常是设置的,结果中可 能存在不一致。在S407,控制器28判断是否已经确定了所有多义词的词义,如果没有,则执 行S403,否则结束处理。下面结合“服装包”一词,对该方法进行简单说明。第一循环由于计算“服装包”的各个词的相似度和可信度同上,这里省略了描述。计算词义明显度:E(服)=1.51,E (装)=0. 13,E (包)=0.41。选择词义明显度大于阈值的词如果设置阈值T = 0. 5,则只有一个词满足条件 服。确定词义确定服的含义为衣物(clothes)。第二循环同样省略了对“装”和“包”的相似度和可信度的计算过程。E(装)=E(包)=0.6。因为二者都大于T,所以选择这两个词决定词义。这里 不再描述这一过程。最后,“装”取衣物(clothes)的词义,“包”取用具(tools)的词义。最后输出结果为{服衣物(clothes),装衣物(clothes),包用具(tools)}。 这是正确的结果。该例子所采用的方法只用了两个循环就得到了正确的结果,所以节省了 词义消歧系统的计算时间。图2d示出了词义消歧方法的另一个流程图。其中S501至S505与S201至S205 的处理过程相同,这里省略对其描述。
在S506,选词单元26根据词义明显度对多义词进行排序,并选择前η个词。由于 在这一步可以确定多个词的词义,所以可以节省一定的计算时间。但是η也是设置的阈值, 可能引入不一致。在S507,词义确定单元确定选择的词的词义。在S508,控制器28判断是否已经确 定了所有多义词的词义,如果没有,则执行S503,否则结束处理。仍以“服装包”为例,对该方法进行简单说明。第一循环由于计算“服装包”的各个词的相似度和可信度同上,这里省略对其描述。计算词义明显度Ε(服)=1.51,E (装)=0. 13,E (包)=0.41。排序结果E(服)>Ε(&)>Ε(*)。如果设置η = 2,取前两个词确定词义。 对“服”,因为C(Ws1) > C(Ws2),所以取Ws1 =衣物(clothes)的词义。对“包”,因为C (WS1) < C(Ws2),所以取Ws2 =包扎(wrap)的词义。第二循环,只剩下一个“装”字。对W=装(c(w)= In1, n2} = {服,包}),Senses (w) = (wsi; ws2)=(衣物 (clothes),包扎(wrap))。计算相似度S(WSpn1) = max(S(衣物(clothes),衣物(clothes))) = max(l) = 1S(WSpn2) = max(S(衣物(clothes),包扎(wrap))) = max(0) =0S(WSyn1) = max(S(包扎(wrap),衣物(clothes))) = max(0) =0S (ws2, n2) = max (S (包扎(wrap),包扎(wrap))) = max (1) =1计算可信度C(WS1) = C(WS2) = 1因为C(WS1)和C(WS2)的可信度相同,所以可以任选一个,例如词义取“衣物 (clothes),,。则最后输出为{服衣物(clothes),装衣物(clothes),包包扎(wrap)}。该例 子所采用的方法只用了两个循环,节省了计算时间。图3a示出了根据本发明第二实施例的词义消歧系统。与图2a所示的词义消歧系 统相比较,该词义消歧系统还包括词义猜测单元38和词义获取单元39。词义猜测单元38 用于对词义未确定的多义词猜测可能的词义。词义获取单元39用于判断猜测的可能词义 是否与已确定词义一致并在一致时将猜测的可能词义确定为该多义词的词义。通过采用词 义猜测单元38和词义获取单元39,可以减少重复计算从而节省计算时间。下面结合图3b说明本发明第二实施例的系统执行的处理。图3b示出了根据本发 明的词义消歧方法。在S601,词义消歧系统的输入装置31输入文本。在S602,上下文确定 装置32确定文本中的每个多义词的上下文。在S603,词义消歧装置的相似度计算单元33 分别确定每个多义词的各个词义和上下文的相似度。在S604,词义可信度计算单元34计算 每个多义词的各个词义的可信度。在S605,词义明显度计算单元35计算每个多义词的词义 明显度。可以使用S205所使用的方法来计算词义明显度。在S606,选词单元36选择词义 明显度最大的词,以及词义确定单元37确定该词的词义。在S607,词义猜测单元38猜测其它词可能的词义。
在S608,词义获取单元39选择猜测的词义与已确定词义一致的词,并将猜测的词 义作为该词的词义。由于在词义确定单元38确定了一个词的词义之后,词义猜测单元38和 猜测词义获取单元39交互操作以检查所有未确定词义的多义词其词义是否与已确定词义 一致,如果一致,则在这一循环中将未确定词义确定为已确定词义,从而减少了计算时间。在S609,控制器40判断是否已经确定了所有词的词义。如果否,则执行S603,否 则结束处理。下面仍以“服装包”为例,简单说明上述方法。第一循环确定上下文,计算相似度和可信度与已有技术采用的方式相同,这里不再描述。并 且确定了服务的词义:"w =服”取ws =衣物(clothes)的词义。猜测未确定词可能具有的词义(1)对 A =装,Ws1 =衣物(clothes),ws2 =包扎(wrap).因为 C (WS1) = 1. 06 > C (Ws2) = 0. 94,所以装取 As = WS1.(2)对 A =包,Ws1 =用具(tools),ws2 =包扎(wrap).因为 C(wsl) = 0. 83 < C(ws2) = 1. 17,所以包取 As = ws2.判断未确定词的猜测词义是否与“服”的词义(ws =衣物(clothes)) —致,如果 一致,则将猜测的词义作为该词的词义其中,对未确定词义词A,称它的某个词义As和词w的词义一致,当且仅当S (As, w) =S(As,ws)。其中ws是词w已经确定的词义。(1)对 A=装,S (As,w) = max (S (衣物(clothes),衣物(clothes)),S (衣物(clothes),吃(eat))) = max (1,0) = 1。并且S(As,ws) = S (衣物(clothes),衣物(clothes)) = 1。因为S(As,w) = S(As,ws),所以As和词w的词义一致。(2)对 A=包,S (As,w) = max (S (包扎(wrap),衣物(clothes)),S (包扎(wrap), 吃(eat))) = max(0,0. 2) = 0. 2。并且S(As,ws) = S (包扎(wrap),衣物(clothes) = 0.。因为S(As,w)兴S(As,ws),所以As和词w的词义不一致。由于“装”符合要求,而包不符合。所以确定“装”的词义,即衣物(clothes)。所以,在这个循环结束后,有两个词确定了词义服和装。第二循环只剩下“包” 一个词。对w =包(c(w) = {叫,nJ = {服,装}),Senses (w) = (wsi; ws2)=(用具 (tools),包扎(wrap)).计算相似度S(WSpn1) = max(S(用具(tools),衣物(clothes))) = max(0. 3) =0.3S(WSpn2) = max(S(用具(tools),衣物(clothes))) = max(0.3) =0.3S(WSyn1) = max(S(包扎(wrap),衣物(clothes))) = max(0) =0S(ws2, n2) = max(S(包扎(wrap),衣物(clothes))) = max(0) =0计算可信度C(Ws1) = S (Ws1, Ii1) / (S (Ws1, Ii1)+S (ws2, Ii1))+S (Ws1, n2) / (S (Ws1, n2)+S (ws2, n2))=0. 3/(0. 3+0)+0. 3/(0. 3+0) = 2C(Ws2) = 0/(0. 3+0)+0/(0. 3+0) = 0因为只剩下一个词,可以直接判断该词的词义。因为C(Ws1) > C(Ws2),所以包取 WS1 =用具(tools)的词义。最后输出结果为{服衣物(clothes),装衣物(clothes), 包用具(tools)}。该结果消除了词义歧异的同时保持了文本中词义的一致性,而且减少 了计算时间,加快了计算过程。虽然本发明以中文文本为例,说明了词义消歧的系统和方法,但是对于本领域技 术人员,很明显地,本发明还可以应用于其它语言,例如,英文,日文。尽管已经参照具体实施例,对本发明进行了描述,但本发明不应当由这些实施例 来限定,而应当仅由所附权利要求来限定。应当清楚,在不偏离本发明的范围和精神的前提 下,本领域普通技术人员可以对实施例进行改变或修改。
1权利要求
一种词义消歧系统,用于对多义词进行词义消歧,包括输入装置,用于输入包括多义词的文本;以及词义消歧装置,用于基于所述词的词义明显度来迭代地确定每个词的词义,其中词义明显度是根据所述词的词义可信度获得的。
2.如权利要求1所述的系统,其中词义消歧装置包括相似度计算单元,用于计算所述词的词义与其上下文之间的相似度; 词义可信度计算单元,用于基于获得的相似度计算所述词的词义可信度; 词义明显度计算单元,用于基于所述词的词义可信度获得所述词的词义明显度; 选词单元,用于根据词义明显度选择满足预定条件的词; 词义确定单元,用于确定所述选择词的词义;以及控制器,用于控制上述各个单元迭代地基于所述词的词义明显度确定每个词的词义。
3.如权利要求1或2所述的系统,其中词义明显度等于所述词的词义可信度中最大的值或者等于最大的词义可信度与次大 的词义可信度之间的差与次大的词义可信度的比值。
4.如权利要求2所述的系统,其中选词单元选择词义明显度最大的词。
5.如权利要求2所述的系统,其中选词单元选择词义明显度大于一阈值的词。
6.如权利要求2所述的系统,其中选词单元根据词义明显度对所述词进行排序并从中 选择前η个词。
7.如权利要求2所述的系统,其中还包括 词义猜测单元,用于猜测词义未确定词的词义;词义获取单元,用于根据猜测的词义是否与已确定词义一致获取词义未确定词的词 义;以及所述控制器控制上述各个单元迭代地基于所述词的词义明显度确定每个词的词义。
8.如权利要求1所述的系统,其中还包括上下文确定装置,用于对所述输入文本中的词确定上下文。
9.一种词义消歧方法,用于对多义词进行词义消歧,包括 输入步骤,输入包括多义词的文本;以及词义消歧步骤,基于所述词的词义明显度来迭代地确定每个词的词义,其中词义明显 度是根据所述词的词义可信度获得的。
10.如权利要求9所述的方法,其中词义消歧步骤包括相似度计算步骤,计算所述词的词义与其上下文之间的相似度; 词义可信度计算步骤,基于获得的相似度计算所述词的词义可信度; 词义明显度计算步骤,基于所述词的词义可信度获得所述词的词义明显度; 选词步骤,根据词义明显度选择满足预定条件的词; 词义确定步骤,确定所述选择的词的词义;以及 重复上述各个步骤直到确定了每个词的词义。
11.如权利要求9或10所述的方法,其中词义明显度等于所述词的词义可信度中最大的值或者等于最大的词义可信度与次大 的词义可信度之间的差与次大的词义可信度的比值。
12.如权利要求10所述的方法,其中选词步骤根据下列方式之一选择满足预定条件的词选择词义明显度最大的词;选择词义明显度大于阈值的词;以及根据词义明显度对所述词进行排序并从中选择前η个词。
13.如权利要求10所述的方法,其中还包括在词义确定步骤之后执行的步骤 猜测词义未确定词的词义;以及根据猜测的词义是否与已确定词义一致获取词义未确定词的词义。
14.如权利要求9所述的方法,其中还包括 上下文确定步骤,对所述输入文本中的词确定上下文。
全文摘要
本发明涉及一种词义消歧系统,用于对多义词进行词义消歧,包括输入装置,用于输入包括多义词的文本;以及词义消歧装置,用于基于所述词的词义明显度来迭代地确定每个词的词义,其中词义明显度是根据所述词的词义可信度获得的。以及本发明还涉及一种词义消歧方法。根据本发明的词义消歧系统和方法,可以提高词义消歧结果的一致性,以及节省了计算时间。
文档编号G06F17/20GK101901210SQ20091014173
公开日2010年12月1日 申请日期2009年5月25日 优先权日2009年5月25日
发明者胡长建, 赵凯 申请人:日电(中国)有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1