基于替换词技术的无指导词义消歧方法

文档序号:6554778阅读:391来源:国知局
专利名称:基于替换词技术的无指导词义消歧方法
技术领域
本发明涉及一种基于替换词技术的无指导词义消歧方法。
背景技术
语言中的歧义现象一直困扰着信息处理技术的研究和发展。词义消歧(WordSense Disambiguation,WSD)技术来解决如何在给定上下文语境中确定多义词词义(Sense)的问题。词义消歧一直是自然语言处理(NLP)领域一个重要的热点研究问题,词义自动消歧在包括信息检索、文本挖掘、文本分类、自动文摘等在内的许多自然语言处理系统中都有重要的应用,特别是在机器翻译系统中词义消歧是一个必不可少的组成部分。
统计学方法是当前主流的词义消歧研究方法,统计词义消歧方法又根据实验语料的不同分为有指导词义消歧和无指导词义消歧两类。
有指导的词义消歧需要对训练语料进行人工词义标注,由于人工标注费时费力,短时间不容易获得大规模高质量的训练语料,难以满足实验的需要。为了解决这个难题,获得规模足够大的实验语料,采用无指导的机器学习方法成为很好的选择。
无指导的词义消歧有很多实现方法,具有代表性的有标注语料自动生成方法、平行语料方法等等。可以说,无指导的词义消歧方法的价值并没有体现在具体的统计学习模型构造的多么巧妙,而是体现在从无词义标注的语料中自动获得词义辨识知识的思想设计得如何新颖和有效。所以在无指导WSD研究上,大家更关注的是知识的获取方法。
其中标注语料的自动生成技术仍然是建立在手工标注语料的基础之上,没有摆脱人工的干预,不是很彻底的无指导方法。2005年Zheng-Yu Niu等人在the 43rdAnnual Meeting of the Association for Computational Linguistics(ACL)发表的论文“Word Sense Disambiguation Using Label Propagation Based Semi-SupervisedLearning”中提到将该方法应用于英语的词义消歧上,目前未见有将该方法用于汉语的词义消歧上的报道。
用平行语料库代替词义标注语料是解决标注语料缺乏和知识获取瓶颈(acquirement bottleneck)问题的一个可行方案,但是很多方法需要将平行语料进行词对齐,众所周知,词语自动对齐也是一个很难解决的问题,使用该方法解决词义消歧问题,是把加工标注语料的难题转移到词对齐的难题上了。所以说,大规模高质量的双语平行语料,尤其是词对齐的双语语料很难获得,限制了双语在WSD上的研究和应用。2004年Mona Diab在the 42nd Annual Meeting of theAssociation for Computational Linguistics(ACL)上发表的论文“Relieving The DataAcquisition Bottleneck In Word Sense Disambiguation”中提到将该方法用于英语的词义消歧研究,目前未见有将该方法用于汉语的词义消歧上的报道。

发明内容
词义消歧是对词的处理,属于自然语言理解技术的底层应用研究,在许多高层次的研究和应用上,词义消歧都大有用武之地,例如有的研究领域把词义消歧作为重要步骤或关键环节。如果词义自动消歧问题得到有效的解决,将对包括机器翻译、文本分类、自动文摘、信息检索、文本挖掘、语音识别、文语转换等在内的许多自然语言问题的研究和应用产生巨大的帮助。
在无标注的语料中自动发掘并获得词义消歧所需的信息和知识,曾被看作不可能的问题,而本发明的目的就是为了克服现有的无指导词义消歧方法存在的缺点,提出一种可以利用没有人工标注词义信息的语料中的信息为歧义词的词义判断的基于替换词技术的无指导词义消歧方法。
本发明包括建立替换词概念、替换词的设计原则、替换词的构造和替换词的统计学习方法等几部分。
建立替换词概念因为单义词没有任何歧义,词义是确定的,属于已知信息、先验知识。单义词的数量在词典中约占词语总数的86%~89%,在语料中出现的频度在50%左右,可谓是半壁江山。由此可见,单义词的数量十分巨大,出现频度也与歧义词的基本持平,其词义的统计分布信息应该很重要,具备潜在的利用价值。
通常,单义词的词义会与某些歧义词的某个词义相同,例如单义词“信守严守 恪守 遵照 遵从 遵循 遵守”与歧义词“保守”的一个词义相同,单义词“康健 强健 健旺 健壮 壮健 强壮 精壮 壮实 敦实 硬朗 康泰 健朗 健硕”与歧义词“健康”的一个词义相同。这样的例子十分普遍。
如果,为歧义词的每个词义都找到具有相同词义的单义词,那么由这些单义词替代歧义词,在无标注语料中就可以自动获取知识了。例如表1,歧义词把握有3个词义,为每个词义都找到几个相同词义单义词,这些单义词包含了歧义词的某些信息,可以为歧义消解提供帮助。
表1歧义词“把握”

用表1中的单义词可以构造出一个人造歧义词(artificial ambiguous word),与通常伪词(pseudoword)的构造方法有些类似,但又有本质上的不同。在这里的人造歧义词需要模拟歧义词的功能,并代替歧义词在语料中获取词义知识,这里的人造歧义词与相对应的歧义词具有等价性,可以替代歧义词充当某些句子成分,所以本发明为了更准确称之为“替换词(Vicarious Word,VW)”。我们把“信心”、“自信心”这样的单义词称为替换词的“词素”。显然,使用替换词代替歧义词为解决无指导知识获取问题提供了一个新的方法。
替换词与歧义词的“等价性”一般理解为语义上的同义或者近似关系。要求替换词与其相对应的歧义词在语义上完全相同或者具有最大限度的相似性。显而易见,歧义词与其对应的替换词的词义数量应该相等,词义也应该相互对应。语义的等价进一步要求在每个词义层面上的等价,即要求每个相互对应的词义应该是相同或者具有最大限度的相似性。显而易见,歧义词与其对应的替换词在词义数量应该相等,词义也应该相互对应,如图1所示,图1中的Si为歧义词的词义,S′i为替换词的词义(词素)。
使用替换词实现无指导WSD方法的出发点是与歧义词对应的替换词可以代替歧义词本身参与WSD模型的训练,获得词义判断所需要的知识。构成替换词的每个词素在训练语料中出现的实例可视为歧义词的实例,所以使用替换词技术,就相当于拥有了规模可以任意增大的标注语料,从而解决了因为训练语料规模过小导致的数据稀疏问题。因为不需要人工标注语料,所以可以实现鲁棒性更好的词义消歧方法。
替换词技术的基础假设替换词能够代替歧义词参与WSD模型的训练,为词义判断提供有效的知识,是基于如下的基础假设。
假设1词义相同的词语在语言中所充当角色和所发挥的作用是一样的。词义是词语的一个重要属性,也是词语功能的一个集中体现。具有相同词义的词语具有相同的功能,是很普通的想法,在本发明可以作为替换词构造的一个基础假设。
假设2词义相同的词语总是出现在相同或者相似的上下文语言环境。这个假设在语义分析上被普遍采用,成为许多相关研究的理论基础。例如有的研究人员对通过对歧义词的上下文聚类来达到词义消解的目的,并获得比较好的实验结果。很多类似的研究也证实了该假设在某些WSD算法设计和实现的有效性。
替换词在语义上与歧义词相同或具有最大限度的相似性,根据这样的假设,替换词在语料中会起到歧义词的作用,并且利用自己的上下文为相应的歧义词提供歧义消解的知识。
替换词的设计原则由于替换词的特殊性,在构造上要比一般人造歧义词受到更多的限制。为了保证构造出来的替换词与对应歧义词语义相同或者具有最大限度的相似性,要求在设计和构造替换词时遵循以下几条原则。
(1)每个替换词必须唯一地与某一个歧义词相对应;(2)替换词的词素要与歧义词的词义一一对应;(3)替换词的每个词义(词素)都与歧义词相对应的词义相同,或者具有最大限度的相似性和相关性;(4)替换词的词义可以由一个或者多个词素组成;(5)替换词的词素一般由单义词来充当。
需要特别指出的是,第四条原则说明在替换词构造上与一般人造歧义词的最大区别。替换词的词义有一个或者多个词素组成,这是替换词的一个鲜明特征,也是为了实现替换词“功能”而导致的一个结果。构造替换词时要保证替换词的每个词义与歧义词对应词义在语义上相同,在功能上也相同。而可作为候选词素的单义词在通常的情况下只是代表了歧义词的对应词义部分功能,为了能够全面地实现该词义的功能,需要选择多个候选词素共同代表一个词义。
其中词义间的相关性是指歧义词的词义与替换词的词义出现的语言环境具有相似性;词语间的相似性是指互为同义词或者近义词。这条原则要求词素的选择不但要考虑语义信息还要考虑语用信息。
替换词的构造构造替换词需要一部适合工作需要的电子词典,目前被广泛使用的《同义词词林》基本符合需要。本发明在对《同义词词林》进行简单的处理,就可以用于替换词的构造。
《同义词词林》按照树状的层次结构把所有收录的词条组织到一起,把词汇分成大、中、小三类。每个小类里都有很多的词,这些词有根据词义的远近和相关性分成了若干个词群(段落),每个段落中的词语有进一步分成了若干个行。小类中的段落可以看作第四级的分类,段落中的行可以看作第五级的分类。这样,词典《同义词词林》就具备了5层结构,见图2。随着层次的递增,词义刻画程度越来越细,到了第五层,每个分类里词语数量已经不大,很多只有一个词语,已经不可再分,可以称为原子词群、原子类或原子节点。第五层中的词语间语义距离最小。
构造替换词时,根据歧义词在《同义词词林》中所处的位置,选择适当的词语作为替换词的词素。几乎每个歧义词都可以构造出与之相对应的替换词。
从根节点到叶结点,词语概念的刻画越来越细,同一节点中的词语相似性或者相关性越来越大。到第五层,同一节点中的词汇具有完全相同的词义和语法功能,要求在句子中可以相互替换而不引起任何语义的转变,这同样也是语义、句法等功能上的要求。
自动构造替换词时先从树形结构的叶子节点(第五层)中确定歧义词的位置。
叶子节点中的词语同义或近似相同。如果歧义词所处的叶子节点中还存在其它的词语(在本项目中称为兄弟词语),并且是单义词,那么这样的兄弟词语就可以作为与该歧义词相对应的替换词的候选词素。如果没有找到这样的兄弟词语,就从叶子节点出发到搜寻到第四层父节点。
如果第四层的父节点中仍然找不到单义的兄弟词语,就搜寻到第三层。第三层的每个节点都包含大量的词汇,能够满足义项词语的选择需要。这是一种自底向上的查找方法。
一般来说,同义词或近义词的查找在第五层就基本可以满足需要,很少要到第四层查找,到第三层的可能性更小。因为根据我们的统计,在《同义词词林》中,如果考虑第五层的分类,有约93%的歧义词词义会有单义词与之对应,如果考虑第四层的分类,有97%的歧义词词义与单义词对应。那剩下的约3%的歧义词词义有112个,其中几乎大部分是虚词词义,还有少部分是罕用词义,即便是语料规模再大,也很难找到应用实例。由此可见,《同义词词林》已经基本能够满足替换词的构造需要。
如果第四层节点或者第三层中搜索到很多单义的兄弟词语,就会有很多的候选词素,需要必要的选择来确定最终的替换词词素。选择的办法是通过计算词义相似度,比较兄弟词语与歧义词之间的语义距离。选择相似度大的作为词素。判断相似度大小需要有一个事先确定好的阈值,而这个阈值可以通过实验来确定。替换词构造的成功与否最终还要由WSD效果确定,即采用间接的评价方法。
替换词的统计学习方法一般来说,为了构造更好的替换词需要多选择几个词素,这样就会使得替换词的每一个词义都可能有多个词素。本发明在处理替换词时,认为词素之间相互独立,不存在相互的影响。替换词在构造上比一般的伪词复杂的多,在形式化表示和语言信息统计上也略有不同。
替换词的表示可以参考如下形式
其中,Wvw为替换词,Si为歧义词的词义,Wik为替换词的词素Wik。
对于替换词的语言信息按如下方法统计(1)Si出现的频度C(Si)C(Si)=ΣkC(Wik)]]>(2)Si与上下文中的特征词Wf共现的频度C(Si,Wf)计算方法如下C(Si,Wf)=ΣkC(Wik,Wf)]]>发明效果本发明通过实验证明是完全成功的。实验中采用国际评测语料Senseval-3中的汉语评测数据,并以有指导学习方法实现的词义消歧方法作为实验对照。采用F-Measure和正确率两种方法进行评价。
F-Measure的计算方法F=2P×RP+R---(1-1)]]>其中P为各个词义标注精确率,按照公式(1-2)计算,R是各个词义的召回率,按照公式(1-3)计算。
P=C(correct)C(tagged)---(1-2)]]>
R=C(correct)C(all)---(1-3)]]>C(tagged)是标注的数目,C(correct)是标注正确的数目,C(all)是应该标注的数目。歧义词的每个词义都有一个P-值,一个R-值和一个F-值。
正确率的计算方法如下

实验结果参见表2。
表2新方法的实验结果

表2的数据表明,基于替换词的词义消歧新方法在汉语评测任务中获得了比较理想的实验结果,无论用正确率还是用F-Measure进行评测,其结果都要比相应的有指导方法高出约10个百分点,效果十分显著。


图1是歧义词与替换词的关系图;图2是《同义词词林》的结构图;图3是无指导WSD的训练过程图;图4是无指导WSD的测试过程图。
具体实施例方式
本发明采用的无指导学习算法的关键就在于语言模型只是从替换词那里获得词义消歧知识,而不必考虑真实的歧义词,所以训练语料不需要人工标注。
在词义消歧过程的训练阶段,统计替换词与上下文环境的之间的语言信息(见图3),如替换词各词素在训练语料中出现的概率,替换词各义项同上下文特征词共现的概率。将得到的概率值存入数据库,以备下一步计算互信息时用。同一个词出现在左面和右面,其作用是不能等同的,所以共现概率的计算要考虑上下文特征词出现在歧义词的左右位置。
在图3中,Vcontext表示歧义词的上下文环境,Wi是上下文词语,Sk代表歧义词的词义,C(Sk,Wi)表示歧义词的词义Sk与某一个上下文词语Wi在训练语料中的共现次数,C(Sk)表示歧义词的词义Sk在训练语料中的频度,P(Sk,Wi)表示歧义词的词义Sk与某一个上下文词语Wi在训练语料中的共现概率,P(Sk)表示歧义词词义Sk在训练语料中出现的概率,I(Sk,Vcontext)表示歧义词的词义Sk与其上下文Vcontext之间的互信息。
在测试阶段,计算歧义词的上下文与替换词各义项的互信息,比较互信息的大小可以确定正确的词义,见图4。
使用替换词技术解决的是词义知识获取问题,把替换词应用于词义消歧没有限制对统计学习方法的选择。许多常用的数学建模方法都可以通过替换词在无标注语料中获取词义判断所需的信息和知识。对于研究和探讨替换词的应用,选择何种机器学习方法并不十分重要,重要的是如何将替换词技术应用到词义消歧的研究上来。所以本发明实现的无指导方法重点集中在替换词的应用方法上,为了说明该技术的应用,在此以互信息的机器学习方法构建词义分类器。
根据假设,具有相同或者相近似语义的词语会经常出现在相同或者相近似的语言环境中。这是一个经验性的结论,可以作为本文无指导机器学习思想的前提或者假设。歧义词和上下文之间的关系表现为存在着强烈的语义制约关系,这种制约关系的强弱可以用互信息(Mutual Information)进行度量。互信息的计算公式如下I(w1,w2)=logP(w1,w2)P(w1)P(w2)---(2-1)]]>P(w1)、P(w2)分别是词语w1、w2在语料库中出现的概率,P(w1,w2)是词语w1、w2在语料库中共现概率。
根据前面的假设,歧义词的当前词义与上下文的互信息比其它词义与该上下文的互信息恒大,即I(S′,Vcontext)>I(Sk,Vcontext) (2-2)其中,I(Sk,Vcontext)表示歧义词的某个词义与上下文环境的互信息,S′是当前上下文环境下的正确词义,Sk是除正确词义外的其它词义。
在词义判断上,只需分别计算歧义词的各个词义与上下文环境的互信息,从中选择最大的一个,S′=arg max I(Sk,Vcontext) (2-3)其中I(Sk,Vcontext)的计算方法如下I(Sk,Vcontext)=I(Sk,Wi|WiinVcontext)=ΣiI(Sk,Wi)---(2-4)]]>其中wi是上下文环境中被选定的特征词,该公式假设上下文特征词之间是独立的,都平等地作用于歧义词。
通过上述论证和计算可以说明本发明方法是一种具有良好的扩展性能和使用性能的汉语词义消歧技术,方便的实用于各个领域的大规模文本词义消歧和标注的工作,为语言分析,特别是机器翻译系统提供高效可靠的词义处理模块等,明显克服统计词义消歧模型训练过程中的数据稀疏问题。
权利要求
1.一种基于替换词技术的无指导词义消歧方法,其特征在于该方法包括建立替换词的概念、替换词的设计原则、替换词的构造和替换词的统计学习方法。
2.根据权利要求1所述的基于替换词技术的无指导词义消歧方法,其特征在于在词义消歧模型的训练阶段通过替换词进行词义信息的采集,建立词义知识库,实现无指导的机器学习,机器学习的对象是替换词,而不是歧义词,由替换词为词义消歧模型提供歧义消解所需的信息和知识。
3.根据权利要求1所述的基于替换词技术的无指导词义消歧方法,其特征在于替换词的设计需要遵循以下原则(1)每个替换词必须唯一地与某一个歧义词相对应;(2)替换词的词素要与歧义词的词义一一对应;(3)替换词的每个词义(词素)都与歧义词相对应的词义相同,或者具有最大限度的相似性和相关性;(4)替换词的词义可以由一个或者多个词素组成;(5)替换词的词素一般由单义词来充当。
4.根据权利要求1所述的基于替换词技术的无指导词义消歧方法,其特征在于替换词技术的实现需要构建一部适合工作需要的电子词典。
5.根据权利要求1至4所述的基于替换词技术的无指导词义消歧方法,其特征在于替换词能够代替歧义词参与词义消歧模型训练是基于如下基础假设假设1词义相同的词语在语言中所充当的角色和发挥的作用是一样的;假设2词义相同的词语总是出现在相同或者相似的上下文语言环境。
6.根据权利要求4所述的基于替换词技术的无指导词义消歧方法,其特征在于为实现替换词技术而构建的电子词典按照五层树状结构组织词汇。
7.根据权利要求1所述的基于替换词技术的无指导词义消歧方法,其特征在于替换词的语言信息按照如下统计学习方法实现(1)Si出现的频度C(Si)C(Si)=ΣkC(Wik);]]>(2)Si与上下文中的特征词Wf共现的频度C(Si,Wf)计算方法如下C(Si,Wf)=ΣkC(Wik,Wf)]]>其中,Wik为替换词的词素。
全文摘要
本发明属于一种基于替换词技术的无指导词义消歧方法,该方法是通过建立替换词概念、设计原则和构建一部实现替换词技术的电子词典,以替代歧义词本身参与WSD模型训练、获得词义判断所需要的知识。该方法是一种具有良好的扩展性能和使用性能的汉语词义消歧技术,方便的实用于各个领域的大规模文本词义消歧和标注的工作,为语言分析,特别是机器翻译系统提供高效可靠的词义处理模块等,明显克服统计词义消歧模型训练过程中的数据稀疏问题。
文档编号G06F17/27GK1916887SQ200610010498
公开日2007年2月21日 申请日期2006年9月6日 优先权日2006年9月6日
发明者卢志茂, 范冬梅 申请人:哈尔滨工程大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1