一种基于短语结构句法树的英文词义消歧方法
【技术领域】
[0001] 本发明涉及到一种英文词义消歧方法,特别涉及一种基于短语结构句法树的英文 词义消歧方法,属于自然语言处理技术领域。
【背景技术】
[0002] 词义消歧是指根据歧义词所处的上下文环境判断其正确的词义。词义是构成一个 句子含义的基本单位,是理解一个句子的前提。词义消歧属于自然语言处理领域的基础性 任务,在机器翻译、信息检索、文本分类、问答系统等领域具有广泛的应用需求。
[0003] 歧义词的词义由其所处的上下文环境而确定。能否准确地选择上下文词义相关 词,将直接影响词义消歧系统的性能。现有的词义消歧方法通常利用上下文滑动窗口来选 择上下文相关词,即以歧义词为中心选择左右一定距离以内的词语。这种方法只考虑了词 语在句子中的直接距离,而未考虑词语的语法、语义关系。这种方法无法滤除近距离的噪声 词,也容易遗漏远距离的相关词。
[0004] 歧义词的词义通常通过比较各词义与上下文词义相关词的密切程度而确定。能否 准确地计算密切程度,对词义消歧系统的性能具有决定性影响。不同距离的相关词对歧义 词词义的影响程度并不相同,需要赋予适当的消歧权重。现有的词义消歧方法通常将上下 文词义相关词的权重视为同等的,这无法体现不同距离词语的权重差异,难以准确评估词 义与上下文词义相关词的密切程度。
[0005] 鉴于上述问题,本申请提出一种基于短语结构句法树的英文词义消歧方法,该方 法可以充分利用短语结构句法树来进行词义相关词的筛选并为其赋予消歧权重,根据词义 与上下文词义相关词的密切程度而判断正确词义。
【发明内容】
[0006] 本发明的目的是为了克服现有词义消歧技术的不足,主要解决上下文词义相关词 的筛选及赋权和词义相关度的计算问题,提出了一种新的基于短语结构句法树的英文词义 消歧方法。
[0007] 本发明的目的是通过如下技术方案实现的。
[0008] -种基于短语结构句法树的英文词义消歧方法,其具体操作步骤如下。
[0009] 步骤一、通过对句子进行短语结构句法分析,生成其短语结构句法树;具体如下。
[0010] 步骤1.1:用符号S表示待处理的句子。
[0011] 步骤1.2:对句子S进行预处理,主要包括去除乱码字符、特殊符号、英文断词 (Tokenization)等,获得预处理后的句子S'。
[0012] 步骤1.3:使用短语结构句法分析器,对句子S'进行短语结构句法分析,生成短语 结构句法树T。
[0013] 步骤1.4:对短语结构句法树T中的词语进行词形还原。
[0014] 步骤二、以短语结构句法树为依据,计算歧义词与句子中其它词语的层次距离和 路径距离,筛选出词义相关词;具体如下。
[0015] 步骤2.1:用符号wt表示待消歧的歧义词,用符号w表示句子中的其它词语,用符号 W表示句子中除歧义词wt之外的全部实词的集合。
[0016] 步骤2.2:由短语结构句法树T,统计歧义词Wt与其它词语w的层次距离cU,将cU记入 w,并保存到W中。
[0017] 步骤2.3:由短语结构句法树T,统计歧义词Wt与其它词语w的路径距离dP,将心记入 w,并保存到W中。
[0018] 步骤2.4:指定层次距离参数d_layer和路径距离参数d_path,从W中筛选cU不大于 d_layer并且dP不大于d_path的词语,构建歧义词的词义相关词集合R。
[0019]步骤三、构建词义消歧模型,通过评估歧义词的各个词义与词义相关词的密切程 度而判定正确词义;具体如下。
[0020] 步骤3.1:对于词义相关词集合R中的每个词语w,根据其层次距离cU和路径距离dP, 由公式(1)计算其消歧权重。
[0021]
其中,α和β为层次距离cU和路径距离dP的调节参数。
[0022] 步骤3.2:对于歧义词wt的每个词义Sl,由公式(2)计算其与词义相关词集R的密切
程度。
[0023] 其中,Si表示歧义词wt的第i个词义,sense (wt)表示歧义词wt的全部词义的集合,Si e sense(wt),wj表示第j个词义相关词,R表示歧义词wt的全部词义相关词的集合,WjER, weight (Wj)表示由公式⑴计算而得的Wj的消歧权重,wnss( Si, Wj)表示词义Si与词义相关词 Wj的词义相关度。
[0024] 步骤3.3:根据由步骤3.2所得的各个词义81与词义相关词集R的密切程度,选择密 切程度最高的词义作为歧义词的正确词义。
[0025] 步骤四、由词义标注语料库,利用遗传算法,对步骤三中的词义消歧模型的参数进 行优化,获得优化的词义消歧模型;具体如下。
[0026] 步骤4.1:选择适当的词义标注语料库Corpus。
[0027] 步骤4.2:收集语料库Corpus中的每个歧义词、所在的句子及正确词义标注,构建 词义消歧模型训练数据集Ctrain。
[0028] 步骤4.3:将步骤2.4和3.1中的层次距离参数cLlayer、路径距离参数d_path及其 调节参数α、β作为遗传算法的输入向量,将公式⑶作为遗传算法的目标函数,在C train上进 行优化训练,获得最优的d_lay er、d_path、α、β参数。
[0029]
其中,precision为消歧正确率,其值为正确消歧的歧义词的数量与歧义词总数的比 值。
[0030] 步骤4 · 4:将步骤4 · 3所获得的(1_]^5^1·、d_path代入步骤2 · 4,将α、β代入公式(1), 完成词义消歧模型的参数优化。
[0031] 步骤五、对于待消歧词,重复步骤一和二,利用步骤四所获得的优化的词义消歧模 型,判定歧义词的正确词义;具体如下。
[0032] 步骤5.1:根据步骤一,生成待消歧词wt所在句子的短语结构句法树T。
[0033] 步骤5.2:根据步骤二,获得待消歧词wt与句子中其它词语的层次距离和路径距 离,并根据步骤四所获得的d_layer、d_path筛选词义相关词,构建词义相关词集合R。
[0034]步骤5.3:根据步骤四所获得的α、β参数,由步骤3.1,计算词义相关词集合R中的每 个词义相关词的消歧权重。
[0035] 步骤5.4:由步骤3.2,确定歧义词wt的每个词义Si与词义相关词集R的密切程度。 [0036] 步骤5.5:由步骤3.3,确定歧义词wt的正确词义。
[0037]经过以上步骤的操作,即可判定英文歧义语的词义,完成词义消歧任务。
[0038] 有益效果 本发明提出基于短语结构句法树的英文词义消歧方法,使用短语结构句法树作为歧义 词的上下文词义相关词的筛选依据;根据词义相关词与歧义词在短语结构句法树上的层次 距离和路径距离,赋予词义相关词消歧权重;根据歧义词的各个词义与上下文词义相关词 的关联密切程度而判断正确词义。本发明提出的基于短语结构句法树的英文词义消歧方法 与现有的英文词义消歧方法相比,其能够更准确地筛选上下文词义相关词,并为词义相关 词赋予适当的消歧权重,对歧义词词义与上下文词义相关词的密切程度的计算更为精确。 本方法能够有效避免传统方法存在的词义相关词筛选及赋权不准确的问题,改善词义相关 度的计算精度,提高英文词义消歧的正确率。
【附图说明】
[0039] 图1为本发明具体实施中的句子的短语结构句法树。
【具体实施方式】
[0040] 下面结合具体实施例,对本发明做进一步的详细描述。
[0041] 以句子" θ The coaches ' teaching football are standing on the bus@ ·" 为 例,对其中的歧义词coach进行消歧处理。
[0042] 根据WordNet 3.0词典,歧义词coach的词义如表1所示。
[0043] 表1 coach#n的词义表
其中,#n表示词性为名词;#1,#2,#3,#4,#5表示在WordNet 3.0中的词义序号。
[0044] 步骤一、通过对句子进行短语结构句法分析,生成其短语结构句法树;具体如下。
[0045] 步骤1 . 1:用符号S表示待处理的句子,此例中S为" θ The c