专利名称:一种基于语义词典的词语消歧方法
技术领域:
本发明提出了基于语义词典的词语消歧方法,所提出的方法利用对词语概念相关度的计算,实现自动文本摘要的预处理工作一词语消歧,属于语义技术领域。
背景技术:
语义词典的开发基于三个主要假设一是可分离性假设,也就是语言的词汇成分是可以通过一定的方法离析提炼出来并专门针对它们进行研究,二是可模式化假设,一个人不可能掌握他所运用语言所需的所有词汇,除非他能够利用词义之间已经存在的系统的模式和关系,三是广泛性假设,也就是计算语言学如果真如人那样处理自然语言就必须要像人那样尽可能多的存储词汇知识。语义词典利用上述的三个假设,也就是英语语言特点将英语词典提升到了语义高度[1]。语义词典是以同义词集合作为基本构建单位,根据同义词集合所表达的概念之间的语义关系组织起来语义关系图,它允许使用者从不同的途径去访问词典信息。语义词典跟传统的词典相似的地方是它给出了同义词集合的定义以及例句。词义是指一个词所具有的意义,词义消歧是一个重要的语义技术,它是自然语言问答系统、指代消解、机器翻译等的必要组成部分。基于它的目标就是在某个特定的上下文中,确定每个多义词在该上下文中特定义项的过程[2],词义消歧可以说是一种纯粹的语义技术。但作为一种规则,这种技术需要语言处理器作为基础,因为如果不将一个文本分割成一系列词、句子和固定表达,不知道它是否是名词或者动词,要在上下文环境里确定一个词的含义会非常困难。词义消歧一直是自然语言处理领域的难题之一。它的研究从上世纪50 年代初期开始机器翻译研究以后,就一直受到人们的关注。词义消歧任务本身是一个中间任务,是大多数自然语言处理任务的一个重要的中间层次,在自然语言处理中有广泛的用途。当前词语消歧主要通过基于语义词典概念组织方式的词语相关度和基于语义词典概念释义的词语相关度来实现,基于语义词典概念组织方式的词语相关度对概念相关性的度量不够充分,相关度指标更多地反映概念之间的相似性,而词语消歧要考虑上下文词语间的相关性[3],基于语义词典概念释义的词语相关度从概念本身、概念的同义词、概念释义W]、概念的扩展释义[5]和扩展同义词集合角度出发,利用概念之间的相关关系,选取词语的最佳词义和最佳词义组合,实现基于上下文的词语消歧。1. A. Budanitsky, G. Hirst. Evaluating WordNet-based Measures of Lexical Semantic Relatedness,32(1) :13 47,Computational Linguistics,2006.2.黄昌宁,夏莹语言信息处理专论.北京清华大学出版社,1996. 78 — 1013.张燕飞编著.信息组织的主题语言.武汉大学出版社.2005. 114. S. Banerjee, T. Pedersen. An adapted Lesk algorithm for word sense disambiguation using Word-Net,2002.5.S.Banerjee, T.Pedersen. Extended gloss overlaps as a measure ofsemantic relatedness,2003.
发明内容
技术问题本发明的目的是提供一种基于语义词典的词语消歧的实现方法,以往词语消歧主要通过基于语义词典概念组织方式的词语相关度来实现消歧,对概念之间的相关性度量不够。本发明的目的是从概念的相关性出发,综合考虑概念本身,概念释义,概念的同义词,概念的扩展概念,扩展概念同义词之间的关系,从词语的相关度和句子的连贯度出发,利用回溯法选取词语的最佳词义,实现基于上下文的词语消歧。技术方案本发明结合单词的概念释义、概念的同义词集合、扩展释义和扩展同义词集合,从概念之间的相关性和句子的连贯度出发,选取最佳词义组合,从而达到基于上下文的词语消歧的目的。本发明的基于语义词典的词语消歧方法主要分为以下步骤一、获取文本集中句子列表L 步骤11)由计算机读入已程序化的文本集合D ;步骤1 利用分词组件对文本集合D中的每个文本分词,得到标注后的文本集合, 记为D1,步骤1 读入文本集Dl,步骤14)对其中一个文本文件进行处理,读取的句子逐行放入句子列表L中;二、分割文本集中的词和词性标注,用语义词典数据库查找每个单词的释义,同义词集合,扩展释义和扩展同义词集合步骤21)读入虚词表和句子列表中的第一个句子,将句子中的每个单词和虚词表作比较,剔除句子中的虚词;步骤22)将由步骤1)得到的句子按句子中逗号、冒号、分号、句号等标点符号分割句子;步骤2 读入由步骤2 分割后的第一个句子,读到斜杠,将斜杠前的单词和斜杠后的词性依次放在wordPosti],i = 0,1.....n,, i为偶数时数组存放的是单词;步骤24)将数组中单词取出放入sentenceWords中,判定sentenceWords长度;步骤Ml)如果长度不大于11,则转步骤25);步骤M2)如果长度大于11,按长度11重新找分割点,分割完后,转步骤25);步骤25)读入语义词典和分割后句子的第一个单词,查找该词在语义词典中不同词性下的词义个数,确定单词的词性步骤251)如果文本中该单词的词性没有被标记或者标记有错,标记有错指的是语义词典中没有找到该单词的这种词性,在这些情况下,就以语义词典中该单词的词义数最多的词性作为它的词性;步骤252)如果标记正确,单词就用它标记的词性;步骤253)如果语义词典数据库中没有该单词,就不对其进行消歧;步骤沈)由步骤25)确定词性后,利用语义词典数据库查找该单词的同义词和的释义,即概念;步骤2 用语义词典查找数据库与步骤26)确定的各个概念具有直接语义关系的概念的释义,即扩展释义和扩展释义的同义词集合;步骤26)重复步骤25)到步骤27),直至找完句子中每个单词;三、利用回溯法实现基于上下文的语义消歧步骤31)读入由步骤22)分割后第一个句子的第一个单词,将该单词的不同词义依次放入堆栈中;选中栈顶元素并出栈,将该栈顶元素记为Wc ,表示第0个单词的第0个词义,此时,score W] =0,作为第0个单词的相关度;步骤32)将第二个单词的不同词义依次放入堆栈中;步骤3 选中栈顶元素并出栈,将该栈顶元素记为Wltl步骤34)计算Wcitl和Wltl之间的相关度,如公式(1)relatedms^sy Wg Gl0S^SyA ^ ^ +
权利要求
1. 一种基于语义词典的词语消歧方法,其特征在于该方法主要分为以下步骤一、获取文本集中句子列表L:步骤11)由计算机读入已程序化的文本集合D ;步骤1 利用分词组件对文本集合D中的每个文本分词,得到标注后的文本集合,记为Dl,步骤1 读入文本集Dl,步骤14)对其中一个文本文件进行处理,读取的句子逐行放入句子列表L中;二、分割文本集中的词和词性标注,用语义词典数据库查找每个单词的释义,同义词集合,扩展释义和扩展同义词集合步骤21)读入虚词表和句子列表中的第一个句子,将句子中的每个单词和虚词表作比较,剔除句子中的虚词;步骤22)将由步骤1)得到的句子按句子中逗号、冒号、分号、句号等标点符号分割句子;步骤2 读入由步骤2 分割后的第一个句子,读到斜杠,将斜杠前的单词和斜杠后的词性依次放在wordPosti],i = 0,1.....n,, i为偶数时数组存放的是单词;步骤24)将数组中单词取出放入sentenceWords中,判定sentenceWords长度; 步骤Ml)如果长度不大于11,则转步骤25);步骤M2)如果长度大于11,按长度11重新找分割点,分割完后,转步骤25); 步骤25)读入语义词典和分割后句子的第一个单词,查找该词在语义词典中不同词性下的词义个数,确定单词的词性步骤251)如果文本中该单词的词性没有被标记或者标记有错,标记有错指的是语义词典中没有找到该单词的这种词性,在这些情况下,就以语义词典中该单词的词义数最多的词性作为它的词性;步骤252)如果标记正确,单词就用它标记的词性; 步骤253)如果语义词典数据库中没有该单词,就不对其进行消歧; 步骤沈)由步骤25)确定词性后,利用语义词典数据库查找该单词的同义词和的释义, 即概念;步骤2 用语义词典查找数据库与步骤26)确定的各个概念具有直接语义关系的概念的释义,即扩展释义和扩展释义的同义词集合;步骤26)重复步骤2 到步骤27),直至找完句子中每个单词;三、利用回溯法实现基于上下文的语义消歧步骤31)读入由步骤22)分割后第一个句子的第一个单词,将该单词的不同词义依次放入堆栈中;选中栈顶元素并出栈,将该栈顶元素记为Wtltl,表示第0个单词的第0个词义, 此时,score W] =0,作为第0个单词的相关度;步骤32)将第二个单词的不同词义依次放入堆栈中; 步骤3 选中栈顶元素并出栈,将该栈顶元素记为Wltl ; 步骤34)计算Wtltl和Wltl之间的相关度,如公式(1)
全文摘要
一种基于语义词典的词语消歧方法,提出了基于语义词典的词语消歧方法,所提出的方法利用对词语概念相关度的计算,实现自动文本摘要的预处理工作——词语消歧,利用概念的相关关系实现语义消歧的方法,综合考虑概念、概念释义、概念的同义词、概念的扩展释义及扩展概念的同义词集合等因素及句子的连贯度要求,利用概念的相关度计算公式和回溯法选取单词的最佳词义,实现基于上下文的语义消歧。经过实验能够提高语义消歧的召回率和准确率,更好的服务于文本摘要的获取。
文档编号G06F17/27GK102306144SQ20111020032
公开日2012年1月4日 申请日期2011年7月18日 优先权日2011年7月18日
发明者周国强, 张卫丰, 张迎周, 张静, 王慕妮, 许碧欢, 陆柳敏 申请人:南京邮电大学