一种基于依存词汇关联度的形容词词义消歧方法

文档序号:9929512阅读:627来源:国知局
一种基于依存词汇关联度的形容词词义消歧方法
【技术领域】
[0001] 本发明涉及到一种形容词词义消歧方法,特别涉及到一种基于依存词汇关联度的 形容词词义消歧方法,属于自然语言处理技术领域。
【背景技术】
[0002] 自然语言中普遍存在一词多义的现象。词义消歧即指根据多义词所处的上下文环 境自动确定其词义。词义消歧属于自然语言处理领域的底层研究,对机器翻译、信息检索、 信息抽取、情感分析、舆情监测等均具有直接影响。
[0003] 词义消歧方法可划分有监督方法、无监督方法和基于知识库的方法。有监督方法 利用词义分类器来进行词义的判定;无监督方法主要通过对歧义词的上下文词语进行聚类 而对词义进行分类;基于知识库的方法根据上下文环境,利用知识库来判定歧义词的词义。 有监督方法需要大量的词义标注语料以训练词义分类器,这严重制约了其应用范围;无监 督方法本质上是一种词义辨析方法,并不能真正应用于大规模词义消歧任务;基于知识库 的方法需要使用大量的知识库,知识库的优劣直接影响其消歧能力。其中,基于知识库的方 法是目前唯一能够真正应用于大规模词义消歧任务的方法。
[0004] 基于知识库的方法需要结合歧义词的上下文环境,依据其知识库判定歧义词的词 义。现有方法通常利用滑动窗口来进行上下文的选择,这难免会引入一些无关的噪声词;现 有方法使用的知识库通常是人工构建的,其成本高昂,不易于扩展;现有方法往往并不区分 歧义词的词性,未能充分利用不同词性歧义词的自身特征。

【发明内容】

[0005] 本发明的目的是为了克服现有技术的不足,主要解决形容词的词义消歧问题,提 出一种基于依存词汇关联度的形容词词义消歧方法。
[0006] 本发明的目的是通过如下技术方案实现的。
[0007] -种基于依存词汇关联度的形容词词义消歧方法,其具体操作步骤如下。
[0008] 步骤一、根据语义词典,收集目标形容词歧义词wt各个词义si的同义词、近义词、 反义词,构建相应词义的相关词集W si;具体如下。
[0009] 步骤1.1:根据WordNet,取词义概念si的同义词集。
[0010] 步骤1 ? 2:根据WordNe t,取词义概念s i的近义词集。
[0011] 步骤1.3:根据WordNe t,取词义概念s i的反义词集。
[0012] 步骤1.4:将步骤1.1~1.3所得的同义词集、近义词集、反义词集合并,构建相应词 义的相关词集Wsi。
[0013] 步骤二、对目标歧义词所在的句子进行依存句法分析,收集包含目标歧义词的形 容词修饰及副词修饰依存元组,提取相应的依存共现词W_d和Wadvumd ;具体如下。
[0014] 步骤2.1:利用依存句法分析工具对目标歧义词所在的句子进行依存句法分析,获 取其依存元组集合。
[0015]步骤2.2:由步骤2.1所得的依存元组集合,提取包含目标歧义词的形容词修饰及 副词修饰依存元组。
[001 6] 步骤2.3 :由步骤2.2所得的依存元组,提取歧义词的依存共现实词W_d和Wadvumd。
[0017] 步骤三、对大规模语料进行依存句法分析,收集其中的依存共现词对,构建依存共 现词对数据库DB;具体如下。
[0018] 步骤3.1:利用依存句法分析工具对大规模文本语料进行依存句法分析,获取其依 存元组集合DSet。
[0019]步骤3.2:舍弃DSet中依存元组的依存关系类型信息,统计依存共现词对,构建依 存共现词对数据库DB。
[0020] 步骤四、根据DB,计算目标歧义词的各个词义的依存词汇关联度;具体如下。
[0021] 步骤4.1:对于词义si的相关词集WS1中的各个相关词wsl,由公式(1),计算其与 Wamod、Wadvmod白勺 司 7匚耳关,SP re latedneSS ( Wamod,Wsi ) latedneSS ( Wsi , Wadvmod ) 〇
[0022] relatedness(wi,W2) = LLR(wi,W2) = 2[LogL(pi,a,a+b)+LogL(p2,c,c+d)-LogL (p,a,a+b)-LogL(p,c, c+d)] (1) 其中,
a = freq(wi,W2)表示支配词是wi,且从属词是W2的依存元组的总数; b = freq(wi,*) - a表示支配词是wi,但从属词不是W2的依存元组的总数; c = freq(*,W2) _ a表示从属词是W2,但支配词不是wi的依存元组的总数; d = N- a- b- c表示支配词不是抑并且从属词不是《2的依存元组的总数; N表示语料库所包含的全部依存元组的总数。
[0023] 步骤4.2:由公式(2),计算词义8;1与依存共现词¥_(:1和1(:1_]的整体依存词汇关联 度。
[0024] relatedness(si)= relatedness(wam〇d,ffsi)+relatedness(ffsi, wadvm〇d) (2) 其中,
WS1表示由步骤一所获得的词义si的相关词集。
[0025] 步骤五、将整体依存词汇关联度最大的词义判定为正确词义;具体如下。
[0026] 比较由步骤4.2所获得的各个词义的整体依存词汇关联度,将依存词汇关联度最 大的词义判定为歧义词的正确词义。
[0027] 经过以上步骤的操作,即可判定形容词歧义词的词义,完成词义消歧任务。
[0028] 有益效果 本发明提出的基于依存词汇关联度的形容词词义消歧方法,利用依存句法分析为形容 词获取依存共现词,根据自动获取的依存共现词对数据库计算词义的依存词汇关联度,从 而判定形容词的正确词义。与传统的词义消歧方法相比,本发明提出的方法针对形容词的 特点能够更准确地选择依存共现词,有效避免无关噪声词的干扰;能够自动构建依存共现 词对数据库,无需任何人工辅助操作,易于对数据库进行扩展。本发明提出的方法能够改善 形容词词义消歧的效果。
【具体实施方式】
[0029] 下面结合实例对本发明的【具体实施方式】做进一步详细说明。
[0030] 以句子"The large number of mentally ill people tend to commit suicide in most developed countries."为例,对其中的形容词歧义词ill、developed进行消歧处 理。
[0031 ] 根据WordNet 3.0词典,形容词歧义词ill、developed的词义如表1、表2所示。
[0032] 表1形容词ill的词义表
其中,#a表示词性为形容词,#1~#5表示词义序号。
[0033] 表2形容词developed的词义表
其中,#a表示词性为形容词,#1~#3表示词义序号。
[0034]步骤一、根据语义词典,收集目标形容词歧义词Wt各个词义si的同义词、近义词、 反义词,构建相应词义的相关词集Wsi;具体如下。
[0035] 步骤1 ? 1:根据WordNet,取词义概念si的同义词集。
[0036] 在此例中,根据WordNet,可得ill和developed的各词义的同义词如表3、表4所示。
[0037] 步骤1.2:根据WordNet,取词义概念si的近义词集。
[0038] 在此例中,根据WordNet,可得ill和developed的各词义的近义词如表3、表4所示。
[0039] 步骤1.3:根据WordNet,取词义概念si的反义词集。
[0040] 在此例中,根据WordNet,可得ill和developed的各词义的反义词如表3、表4所示。
[0041] 步骤1.4:将步骤1.1~1.3所得的同义词集、近义词集、反义词集合并,构建相应词 义的相关词集Wsi。
[0042] 在此例中,可得ill和developed的各词义的相关词集如表5、表6所示。
[0043] 表3形容词ill的各个词义的相关词_

其中,#a表示词性为形容词,#1~#5表示词义序号。
[0044] 表4形容词developed的各个词义的相关词
其中,#a表示词性为形容词,#1~#3表示词义序号。
[0045] 表5形容词ill的各个词义的的相关词集
其中,#a表示词性为形容词,#1~#5表示词义序号。
[0046] 表6形容词developed的各个词义的相关词集
其中,#a表示词性为形容词,#1~#3表示词义序号。
[0047] 步骤二、对目标歧义词所在的句子进行依存句法分析,收集包含目标歧义词的形 容词修饰及副词修饰依存元组,提取相应的依存共现词W_d和Wadvumd ;具体如下。
[0048] 步骤2.1:利用依存句法分析工具对目标歧义词所在的句子进行依存句法分析,获 取其依存元组集合。
[0049] 此例中,借助斯坦福大学所提供的Stanford Parser句法分析器,使用 engl ishPCFG. ser. gz语言模型,并使用WordNet 3.0进行词形还原,可得到句子的依存元组 集合如下:det(number_3,the_l)、amod(number_3,large-2)、nsub j(tend_8,number-3)、xsubj(commit-10, number-3)、advmod(ill_6, mentally-5)、amod(people_7, ill-6)、prep_of(number-3, people-7)、aux(commit_10, to_9)、xcomp(tend_8, commit-10)、 dobj(commit-10,suicide-11)Nadvmod(developed-14, most-13)、amod(country_15, developed-14)、prep_in(suicide_ll, country-15)〇
[0050]步骤2.2:由步骤2.1所得的依存元组集合,提取包含目标歧义词的形容词修饰及 副词修饰依存元组。
[0051 ]此例中,对于歧义词i 11,可提取出amod(people_7,i 11-6)和advmod( i 11-6, mentally_5);对于歧义词developed,可提取出amod(country-15,developed-14)和 advmod(developed-14,most_13)〇
[0052] 步骤2.3 :由步骤2.2所得的依存元组,提取歧义词的依存共现实词WamcK^PWadv^d。
[0053] 此例中,对于歧义词i 11,可得Wamod为people、wadvm〇d为mental ly ;对于歧义词 developed,可得 Wam〇d 为country、Wad?〇d 为most 〇
[0054] 步骤三、对大规模语料进行依存句法分析,收集其中的依存共现词对,构建依存共 现词对数据库DB;具体如下。
[0055] 步骤3.1:利用依存句法分析工具对大规模文本语料进行依存句法分析,获取其依 存元组集合DSet。
[0056] 此例中,依存句法分析工具采用斯坦福大学所提供的Stanford Parser句法分析 器,使用englishPCFG. ser.gz语言模型,并使用WordNet 3.0进行词形还原。大规模文本语 料米用路透社提供的Reuter Corpus。利用Stanford Parser对Reuter Corpus中的文本语 料逐句进行句法分析,收集得到的依存元组,存入依存元组集合DSet。此例中,最终得到的 DSet共包含93850841个依存元组。
[0057]步骤3.2:舍弃DSet中依存元组的依存关系类型信息,统计依存共现词对,构
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1