一种基于决策树的术语判定方法
【技术领域】
[0001] 本发明属于数据挖掘技术领域,尤其是一种基于决策树的术语判定方法。
【背景技术】
[0002] 领域术语或专业术语是以语音或文字为载体来表达或限定专业概念的约定性符 号。随着科学技术的蓬勃发展、新技术的不断涌现以及互联网技术的日新月异,一些特定 领域的专业术语不断扩大与更新,因此按照传统的人工搜集领域术语的方式已无法满足实 际需求,自动抽取领域术语(ATE,Automatic Term Extraction)已成为了必然。实际应用 中,领域术语抽取在构建领域本体、中文分词、信息抽取、词典编纂、信息检索、机器翻译、文 本分类、自动文摘等方面均具有重要意义。
[0003] 目前,业内所采用的领域术语抽取方法仅仅是基于单一方面对词汇进行分析以及 判定,领域术语提取效果比较差。
【发明内容】
[0004] 本发明的目的之一是提供一种基于决策树的术语判定方法,以解决现有技术中对 于领域术语提取效果比较差的问题。
[0005] 在一些说明性实施例中,所述基于决策树的术语判定方法,包括:对原始语料以语 素为单位进行任意长度的切分,获得若干候选术语,其中,每个所述候选术语由至少二个语 素组成;确定影响术语判定的多个特征,计算出每个所述候选术语的每个特征的特征值; 以每个所述候选术语的多个特征值,在用于术语判定的决策树中,依照所述决策树的生成 顺序进行依次判定;将通过所述决策树判定成功的所述候选术语作为新术语。
[0006] 与现有技术相比,本发明的说明性实施例包括以下优点:
[0007] 减少了人工处理的工作量,确保得到的术语可靠性和准确性较高。
【附图说明】
[0008] 此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发 明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
[0009] 图1是按照本发明的说明性实施例的流程图。
【具体实施方式】
[0010] 在以下详细描述中,提出大量特定细节,以便于提供对本发明的透彻理解。但是, 本领域的技术人员会理解,即使没有这些特定细节也可实施本发明。在其它情况下,没有详 细描述众所周知的方法、过程、组件和电路,以免影响对本发明的理解。
[0011] 如图1所示,公开了一种基于决策树的术语判定方法,包括:
[0012] S11、对原始语料以语素为单位进行任意长度的切分,获得若干候选术语,其中,每 个所述候选术语由至少二个语素组成;
[0013] S12、确定影响术语判定的多个特征,计算出每个所述候选术语的每个特征的特征 值;
[0014] S13、以每个所述候选术语的多个特征值,在用于术语判定的决策树中,依照所述 决策树的生成顺序进行依次判定;
[0015] S14、将通过所述决策树判定成功的所述候选术语作为新术语。
[0016] 减少了人工处理的工作量,确保得到的术语可靠性和准确性较高。
[0017] 以下对上述方法进行详细说明:
[0018] 例如:原始语料"中华人民共和国"进行切分,首先以两个语素单位进行切分,可 以获得"中华"、"华人"、"人民"、"民共"、"共和"、"和国"六个候选术语,再以三个语素单位 进行切分,可以获得"中华人"、"华人民"、"人民共"、"民共和"、"共和国"五个候选术语,再 以4个语素单位进行切分,可以获得"中华人民"、"华人民共"、"人民共和"、"民共和国"四 个候选术语,再以5个语素单位进行切分,可以获得"中华人民共"、"华人民共和"、"人民共 和国"三个候选术语,再以6个语素单位进行切分,可以获得"中华人民共和"、"华人民共和 国"两个候选术语,以7个语素单位进行切分,即得到候选术语"中华人民共和国"。以上共 获得21个候选术语。
[0019] 以上的切分过程是为了便于更快的理解本发明的说明性实施例的示例,原始语料 可以是一个文本或一个文本集合,其中由大量的语素组成,切分过程更加复杂,另外,如果 术语过长,该术语就可以理解为一个句子了,所以对术语的长度需要进行限定,限定最大切 分单位,例如最大切分单位为10个语素。
[0020] 在一些说明性实施例中,所述确定影响术语判定的多个特征,包括:
[0021] 候选术语在原始语料中的词频、候选术语被分割为任意长度的两部分,所述任意 两部分的互信息的最小值、候选术语的左熵和右熵两者中较大值、候选术语独立成词的概 率、候选术语的每个语素在所述历史语料库中处于词头位置、词中位置和词尾位置的出现 概率、以及候选术语的领域概率。
[0022] 其中,对上述特征的获取过程,进行详细说明:
[0023] 1)、对候选术语的词频进行分析,即获取候选术语在所述原始语料中的出现次 数;
[0024] 2)、对候选术语进行互信息的分析,得到候选术语被分割为任意长度的两部分,所 述任意两部分的互信息的最小值。
[0025] 例如:分析的候选术语C的长度为1个语素单位,以第k个语素位置,进行拆分,得 到的前部为Ci?c k,后部为ck+1?c i。
[0026] 按照如下公式进行互信息的计算:
[0027]
【主权项】
1. 一种基于决策树的术语判定方法,其特征在于,包括: 对原始语料W语素为单位进行任意长度的切分,获得若干候选术语,其中,每个所述候 选术语由至少二个语素组成; 确定影响术语判定的多个特征,计算出每个所述候选术语的每个特征的特征值; W每个所述候选术语的多个特征值,在用于术语判定的决策树中,依照所述决策树的 生成顺序进行依次判定; 将通过所述决策树判定成功的所述候选术语作为新术语。
2. 根据权利要求1所述的术语判定方法,其特征在于,所述确定影响术语判定的多个 特征,包括: 候选术语在原始语料中的词频、候选术语被分割为任意长度的两部分,所述任意两部 分的互信息的最小值、候选术语的左滴和右滴两者中较大值、候选术语独立成词的概率、候 选术语的每个语素在所述历史语料库中处于词头位置、词中位置和词尾位置的出现概率、 W及候选术语的领域概率。
3. 根据权利要求2所述的术语判定方法,其特征在于,在所述W每个所述候选术语的 多个特征值,在用于术语判定的决策树中,依照所述决策树的生成顺序进行依次判定之前, 还包括: 从术语库中随机选取一定数量、且连续的若干个已认定的术语; 根据选取的所述术语,W及所述多个特征,利用ID3算法或C4. 5算法构建所述决策树。
4. 根据权利要求3所述的术语判定方法,其特征在于,所述根据选取的所述术语,W及 所述多个特征,利用ID3算法或C4. 5算法构建所述决策树的过程中,包括: 将每个所述特征作为所述决策树上的判定结点,并且根据所述多个特征的信息增益或 信息增益比的大小关系,确定所述决策树的生成顺序; 其中,每个判定结点上具有其对应的特征的、用于形成所述决策树的枝干的判定阔值。
5. 根据权利要求4所述的术语判定方法,其特征在于,所述W每个所述候选术语的多 个特征值,在用于术语判定的决策树中,依照所述决策树的生成顺序进行依次判定,具体包 括: 将所述候选术语的每个特征值,依照所述决策树的生成顺序,与决策树的判定结点上 的判定阔值进行比较; 若在所述决策树上作为叶子结点的判定结点上判定成,则将该候选术语标记为新术 语。
【专利摘要】一种基于决策树的术语判定方法,包括:对原始语料以语素为单位进行任意长度的切分,获得若干候选术语,其中,每个所述候选术语由至少二个语素组成;确定影响术语判定的多个特征,计算出每个所述候选术语的每个特征的特征值;以每个所述候选术语的多个特征值,在用于术语判定的决策树中,依照所述决策树的生成顺序进行依次判定;将通过所述决策树判定成功的所述候选术语作为新术语。本发明减少了人工处理的工作量,确保得到的术语可靠性和准确性较高。
【IPC分类】G06F17-27
【公开号】CN104572621
【申请号】CN201510002515
【发明人】江潮, 张芃
【申请人】语联网(武汉)信息技术有限公司
【公开日】2015年4月29日
【申请日】2015年1月5日