一种基于词汇注释的领域词典自动扩充方法

文档序号:6586081阅读:353来源:国知局
专利名称:一种基于词汇注释的领域词典自动扩充方法
技术领域
本发明涉及到一种领域词典的自动扩充方法,特别涉及一种基于词汇注释的领域词典自动扩充方法,属于自然语言处理技术领域。
背景技术
领域词典(Domain Dictionary)是指特定领域特有的术语或表达方式的集合。领域词典是自然语言处理的基本资源,领域知识被广泛应用于机器翻译、信息检索、数据挖掘以及文本分类等多种任务的词义消歧、句法分析等环节,领域词典的规模及质量直接关系到相关应用的性能。领域词典的构建和扩充方法按照自动化程度可以分为三类:基于专家知识的人工构建和扩充方法,半自动生成和扩充方法和全自动生成和扩充方法。人工构建和扩充方法准确率高,但是需要大量的领域专家长时间参与,人工成本和时间成本太高,且缺乏实时性。全自动生成和扩充方法通过分析词汇在不同领域语料库中统计特性的差异,判定词汇的领域属性,该方法无需领域专家的参与,节省了大量的人工成本,但是词典收录的准确率不高。半自动的生成和扩充方法介于人工编撰和全自动生成方法之间,通过领域专家指定少量的领域知识,实现领域词典的自动扩充。现有的半自动和全自动的领域词典方法大多需要领域语料库的支持,所生成的领域词典的质量依赖于所采用的领域语料库的质量,领域词典的完备性受到领域语料库规模的限制,同时,考虑到语料库非平衡性的影响,词语的领域标注更容易向语料库规模大的领域偏斜。上述两种方法都未能有效地利用已有的词典资源,并且未考虑领域之间的相关性。

发明内容
本发明的目的是针对目前已有领域词典自动扩充方法存在的不足,提出一种基于词汇注释的领域词典自动扩充方法。本发明的目的是通过如下技术方案实现的。一种基于词汇注释的领域词典自动扩充方法,其具体操作步骤为:步骤一、通过分析领域词典所属领域间的相关度,生成一棵领域分类树。具体为:步骤1.1:用符号D表示待处理节点集合,并设定待处理节点集合的初始状态为空;步骤1.2:将每个待扩充的领域词典分别作为一个节点放入到待处理节点集合中。节点名称为该领域词典的名称,节点内容为该领域词典中的全部词条;所述词条包括词汇及该词汇的解释信息。步骤1.3:通过公式(I)分别计算待处理节点集合中的任意两个节点所代表的领域词典所属领域间的相关度,用符号RW1, d2)表示。
权利要求
1.一种基于词汇注释的领域词典自动扩充方法,其特征在于:其具体操作步骤为: 步骤一、通过分析领域词典所属领域间的相关度,生成一棵领域分类树;具体为: 步骤1.1:用符号D表示待处理节点集合,并设定待处理节点集合的初始状态为空;步骤1.2:将每个待扩充的领域词典分别作为一个节点放入到待处理节点集合中;节点名称为该领域词典的名称,节点内容为该领域词典中的全部词条;所述词条包括词汇及该词汇的解释信息; 步骤1.3:通过公式(I)分别计算待处理节点集合中的任意两个节点所代表的领域词典所属领域间的相关度;
全文摘要
本发明涉及到一种基于词汇注释的领域词典自动扩充方法,属于自然语言处理技术领域。其步骤为①通过分析领域词典所属领域间的相关度,生成一棵领域分类树。②为每一个待扩充的领域词典获取一个训练集。③对训练集进行预处理,得到语料特征集。④统计每个节点对应的语料特征集中每个词汇在该语料特征集中出现的次数以及其子节点对应的语料特征集中包含某一词汇的语料特征集的个数。⑤计算各语料特征集中每个词汇的置信度。⑥将新词汇加入到待扩充的领域词典中。本发明提出的基于词汇注释的领域词典自动扩充方法不需要人工搜集领域语料库,因此避免了受领域语料库的质量和规模的局限以及领域语料库非平衡性的影响。
文档编号G06F17/27GK103116573SQ20131004664
公开日2013年5月22日 申请日期2013年2月6日 优先权日2013年2月6日
发明者黄河燕, 史树敏, 朱朝勇 申请人:北京理工大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1