一种面向新闻标题的人物关系抽取方法

文档序号:9844091阅读:496来源:国知局
一种面向新闻标题的人物关系抽取方法
【技术领域】
[0001] 本发明属于信息技术领域,具体涉及一种面向新闻标题的人物关系抽取方法。
【背景技术】
[0002] 人物关系抽取是实体关系抽取的重要分支。实体关系是指实体之间存在的语义联 系。Automatic Content Extraction(ACE)会议将实体关系抽取定义为:根据预先给定的实 体关系类型,判定实体之间是否存在语义关系或是否属于给定的关系类型。人物关系抽取 将实体关系抽取中的实体限定为人物,关系类型限定为人物之间的关系进行抽取,目前人 物关系抽取的主要方法包括:模式匹配、语义分析、特征分类等。
[0003] 模式匹配的方法主要是根据对训练数据中实例的观察分析,制定出相应的模版及 其所属类别的集合,再利用测试数据中的实例与集合中的模板匹配,如果匹配成功,则可根 据模板所属类别判定实例所属类别。语义分析的方法是指根据句子的句法结构和句中每个 实词的词义推导出能够反映这个句子意义(即句义)的某种形式化表示。特征分类的方法是 指根据文档中词语的特征,有时也包含一些模板特征、语义分析特征等,利用特征分类器, 将人物关系抽取转化成二分类问题,即判定给定的人物关系是否成立。
[0004]模式匹配的主要问题在于模板大多数为人工制定,除消耗大量的人力资源外,当 数据规模较大时,很难制定出较为全面而精准的模板集合。此外,当领域变更时,原有的模 板将不一定仍然适用,往往需要重新制定模板,领域迀移性较差。
[0005] 语义分析的方法依赖于分词、词性标注、依存关系等分析的准确性,而现有的工具 并不能准确的处理上述问题。同时,新闻标题的句子结构较为精简,句式结构有时并不满足 一般的句法规则,这也影响了语义分析的准确性。
[0006] 特征分类方法的问题一是在于根据整个语料抽取的特征维度往往很高,导致利用 分类器进行训练和测试时效率过低;二是当分类效果不好时,很难发现影响分类效果的具 体实例,能做的仅是调整分类器的参数或修改特征的选择;三是当训练数据与测试数据的 特征分布差距较大时,分类效果很差,很难构建相对完整的训练数据集。

【发明内容】

[0007] 本发明的目的在于能根据给定的新闻标题和人物属性知识库,自动判定给定的人 物及人物间的关系是否正确。
[0008] 本发明采用的技术方案如下:
[0009] 一种面向新闻标题的人物关系抽取方法,包括如下步骤:
[0010] 1)寻找出新闻标题中的关系指示词,用以区分不同类别的人物关系;
[0011] 2)根据人物与关系指示词在新闻标题中的位置特征,建立描述句子的句式模板; 利用训练数据统计每个模板的正/负例个数,根据正负模板的比例判定新闻标题中人物间 关系的正确性;
[0012] 3)从新闻标题与人物属性知识库中提取特征,通过特征分类的方法并结合步骤2) 得到的句式模板的正/负例个数,判定给定的人物关系是否正确。
[0013] 进一步地,在寻找关系指示词之前进行数据清洗,通过制定启发式规则直接判定 不符合条件的新闻标题。
[0014] 进一步地,利用最小覆盖的方法寻找出新闻标题中的关系指示词。
[0015] 进一步地,根据句子中的表达人物关系的〈主语S、谓语P、宾语0>三元组,得到描述 句子的层次句式模板。
[0016] 进一步地,提取句子中人物的知识库特征、关系指示词特征、词间距特征,作为候 选特征,再利用信息增益选择特征,最后利用决策树判定人物关系是否正确。
[0017] 本发明针对新闻标题具有的句式精简、概括性强等特点,基于给定人物属性的知 识库和给定关系,首先利用最小覆盖求关系指示词,根据人物与关系指示词在新闻标题中 的位置特征,按层次结构自动学习了一套句式模板,最后从新闻标题与人物属性知识库中 提取特征弥补句式模板的不足,用于判定给定的人物关系是否正确。利用本发明提供的方 法判定基于给定新闻判定人物关系,具有以下优点:
[0018] (1)在中国人工智能学会机器学习专委会和中国计算机学会模式识别与人工智能 专委会共同发起并主办的中国机器学习会议竞赛CCML Competition 2015制定的任务(基 于新闻标题判定给定的S(Subject,主语)P(Predicate,谓词,此处指人物关系)0(0bject, 宾语)是否正确)中,本系统的判定结果在训练时间、测试时间、测试结果等方面均优于竞赛 的最优结果;
[0019] (2)与传统人工制定模板的方法相比,本文的方法只需极少的人工参与就能生成 针对整个训练集的模板;
[0020] (3)当领域迀移时,只需提供相应领域的训练数据,即可生成新领域的模板,有效 提升了模板方法的迀移性;
[0021 ] (4)在进行查询存储时,由于采用树形结构,训练效率和测试效率都非常高;
[0022] (5)由于人物与人物关系已给定,该方法无需再对句子的其它成分进行分析处理, 从而很好地避免传统句子分析时,分词、词性标注时带来的误差;
[0023] (6)在利用特征分类时,在保证准确率的同时,降低了特征维度,提高了判定效率。
[0024] 本发明可用于挖掘新闻标题中的人物关系,进而发现社会中的焦点人物、热点事 件等,便于及时掌握社会动态,监控舆情。
【附图说明】
[0025] 图1是本发明方法的主要技术流程图。
[0026] 图2表示本发明中N层句式模板树的定义图。
[0027]图3表示人物关系为"经纪人"基于训练集学习的部分N层句式模板树。
【具体实施方式】
[0028] 下面通过具体实施例和附图,对本发明做进一步说明。
[0029] 本发明提供一种基于新闻标题和人物属性知识库,自动判定给定人物及人物间的 关系是否正确的方法,该方法的处理过程如图1所示,主要包括如下步骤:
[0030] (1)数据清洗
[0031] 该步骤首先去除对关系判定影响不大的停用词及标点符号,保留部分标点符号有 助于某些人物关系的判定,如:《、》、"、"等。制定部分启发式规则进行预判定。
[0032] (2)选择关系指示词
[0033] 对于特定的关系,需要寻找出能表达关系的关系指示词,同时,关系指示词还需能 有效区分不同类别的关系。利用最小覆盖的方法可以有效的实现这一目标。
[0034] (3)建立句式模板
[0035]在得到关系指示词之后,本发明提出了一种N层句式模板树用于判定人物关系。若 想通过某个句子判定出人物之间存在的特定关系,则在通常情况下句子中存在表达人物关 系的〈主语S、谓语P、宾语0>三元组。根据给定人物和关系指示词的SP0三元组,逐层增加人 物、字扩展三元组,得到描述句子的层次句式模板。利用训练数据统计每个模板的正/负例 个数。根据从训练数据中统计得到的正负模板的比例判定新闻标题中人物间关系的正确 性。
[0036] (4)判定人物关系
[0037]根据N层句式模板树在判定人物关系中存在的不足,本系统还抽取了人物属性特 征、关系指示词特征、词间距特征结合N层句式模板树的正/负例结果判定人物关系。
[0038]本发明的技术关键点在于:
[0039] 1、基于最小覆盖的关系指示词的选择
[0040] 对于每种关系,需要寻找出关系指示词来区分各种关系,关系指示词的集合要求 尽可能的小,且能有效代表某种关系。利用最小覆盖的方法可以有效的实现这一目标。 [00 41]对于给定的某一种关系类型的数据,记训练集为P= {pi,P2, ...,pn},其中Pi为第i 条文本标题,i = 1,2,…η。通过对P进行分词处理后可以获取一个词典数据W= {W1,w2,..., wm},其中Wl为词典中第i个单词,i = l,2,…m。关系类型的关系指示词提取可以转化为在词 典中寻找一个子集5·'^,并满足:
[0042] S能够覆盖P,即P的每条语料Pi中至少有一个单词在S中出现;S为符合上述条件的 最小子集,即I S | =min{ | Si | },其中Si为所有满足覆盖条件的词典子集,表示集合的元素个 数。显然,词典W是P的一个覆盖,因此s矣Φ。将求解训练集P的最小覆盖单词集S作为关系指 不词。
[0043] 2、基于N层句式模板树的人物关系判定
[0044] 根据关系指示词与人物之间的位置关系及句式特征,结合新闻标题精炼的特点, 提出了一种~层句式模版树(1'|-561^61106?31^61'111'代6,1'|-5?1'),如图2示。句式特征模板树 (N-SPT)的第一层仅考虑人物X与关系指示词Y的位置关系(图1中Y也称为关系特征词),分 为三类:YXX,XYX,XXY〇
[0045] N-SPT的第二层考虑第三个人Μ(除去X以外的人)对于关系判定的影响。对于第一 层的各模板,可产生24个子模板,例如:对于"ΥΧΧ",可产生ΥΧΧ(不包含第三者)、ΜΥΧΧ、ΥΜΧΧ、 YMX、YXXM、MBKX]\^〇
[0046] N
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1