一种基于目标知识点的句群抽取方法及装置的制造方法

文档序号:9750915阅读:414来源:国知局
一种基于目标知识点的句群抽取方法及装置的制造方法
【技术领域】
[0001 ]本发明涉及数字资源加工领域,具体涉及一种基于目标知识点的句群抽取方法及 装置。
【背景技术】
[0002] 自然语言处理是一个当前研究比较热门的领域,而从大量文本语料中抽取知识点 相关信息又是自然语言处理中的一个研究热点。目前,以章节形式存储的知识资源非常的 丰富,但是以句子为单位组织起来的知识片段资源十分的匮乏,知识点的句群挂接实现了 以句子为单位组织起来的知识片段资源。知识点的句群挂接是通过对语料进行内容分析和 处理,将语料中蕴含的与知识点相关的句子逐条抽取出来形成知识片段。句群,又叫句组, 是几个在意义和结构上有密切联系的各自独立的句子组成的言语交际单位。即:由前后连 贯共同表示一个中心意思的几个句子组成。句群抽取是指抽取前后连贯、密切联系,共同阐 述一个概念或主题的若干句子,组成表达一个中心意思的句群。句群抽取是知识抽取的一 种常用方法,但是现有的句群抽取方法抽取的知识点句群准确性不高,因此目前亟需一种 准确性高的句群抽取方法。

【发明内容】

[0003] 因此,本发明要解决的技术问题在于现有的知识点句群抽取方法准确性不高。 [0004]为此,本发明实施例提供了如下技术方案:
[0005] -种基于目标知识点的句群抽取方法,包括如下步骤:
[0006] 获取知识点的精确属性,精确属性是描述知识点具体属性的数据;
[0007] 利用精确属性在待处理数字资源中抽取知识点的模糊属性;
[0008] 利用精确属性和模糊属性在待处理数字资源中进行知识点的句群挂接,获取知识 点句群。
[0009] 优选地,利用精确属性在待处理数字资源中抽取知识点的模糊属性的步骤包括: [0010]在待处理数字资源中获取包含知识点的多个段落,根据精确属性分别计算每个段 落的第一得分;
[0011]根据第一得分将包含知识点的段落降序排序;
[0012]按照排序结果从前提取预设数量的段落;
[0013]对提取的段落进行分句;
[0014] 对包含知识点的分句以及其前后句子进行分词;
[0015] 对分词结果进行过滤;
[0016] 统计过滤后的分词词频并按照词频进行降序排列,并按照排序结果从前提取预设 数量的分词作为该知识点的模糊属性。
[0017] 优选地,包含知识点的段落的第一得分是通过以下公式计算得到的:
[0018]
[0019] 其中,η为知识点在该段落中出现的次数,v为知识点的权重,n i为第i个精确属性 在段落中出现的次数,vi为第i个精确属性的权重。
[0020] 优选地,模糊属性的词性相同。
[0021] 优选地,利用精确属性和模糊属性在待处理数字资源中进行知识点的句群挂接的 步骤包括:
[0022] 根据精确属性和模糊属性计算包含知识点的段落的第二得分,并进行降序排序;
[0023] 按照排序结果从前提取预设数量的段落;
[0024]对提取的段落进行分句;
[0025] 根据分句后的段落获取多个初始句群,初始句群是从段落的第一句开始取前后连 贯的预设数量的句子形成的;
[0026] 根据判断要素确定出需要进行扩展的初始句群并进行扩展以生成句群,判断要素 包括待扩展句群前面或后面句子的得分和句群字符数;
[0027]删除不包含知识点的句群;
[0028] 删除相似度大于相似度阈值的句群组中权重值小的句群,剩下的即为抽取的知识 点句群。
[0029] 优选地,包含知识点的段落的第二得分是通过以下公式计算得到的:
[0030]
j.=\J
[0031] 其中,η为知识点在段落中出现的次数,v为知识点的权重,m为第i个精确属性在 段落中出现的次数,Vl为第i个精确属性的权重,h为第j个模糊属性在段落中出现的次数, lj为第j个模糊属性的权重。
[0032] 优选地,根据判断要素确定出需要进行扩展的初始句群并进行扩展以生成句群的 步骤包括:
[0033]计算权重阈值;
[0034]对于句群字符数小于句群最大长度的待扩展初始句群,如果该待扩展初始句群前 面或后面句子的得分不小于权重阈值,则相应地向前或者向后进行扩展;
[0035] 对于已经进行过向前或向后扩展的句群,如果其句群字符数小于句群最大长度且 没有达到向前或者向后扩展句子的数量限制,并且其前面或者后面的句子的得分不小于权 重阈值,则相应地向前或者向后进行扩展。
[0036] 优选地,待扩展句群前面或者后面句子的得分是通过以下公式计算得到的:
[0037] score3 = s X factor 1,
[0038] 其中,s为该句子中的关键词得分的和,关键词包括知识点、精确属性和模糊属性;
[0039]
[0040]其中,η为句子中知识点出现的次数,m为句子中精确属性出现的次数,lu为句子中 出现的第i个模糊属性的自身得分,Zl为第i个模糊属性在该句子中出现的次数,t为该句子 中出现的不同模糊属性的个数,max为模糊属性中的最高分。
[0041 ]其中,
[0042]
[0043] 其中,nowSize为待扩展句群本身的长度,newSize为该句子的长度,sigema为设定 的调整因子,E为句群期望长度。
[0044] 优选地,句群相似度是通过以下公式计算得到的:
[0045] SimilarVal = sameLen/minLen,
[0046] 其中,minLen为两个句群中字符数最少的句群的字符数,sameLen为该两个句群中 相同句子的字符个数。
[0047] 优选地,句群权重是通过以下公式计算得到的:
[0048] weight = sums/senLenSum*factor2,
[0049] 其中,sums为句群中各句子得分的和,各句子得分的和为句中关键词得分的和, senLenSum为句群的字符数;
[0050]
[0051 ]其中,E为句群期望长度。
[0052] -种基于目标知识点的句群抽取装置,包括:
[0053] 精确属性获取单元:用于获取知识点的精确属性;
[0054] 模糊属性抽取单元:用于利用精确属性在待处理数字资源中抽取知识点的模糊属 性;
[0055] 知识点句群获取单元,用于利用精确属性和模糊属性在待处理数字资源中进行知 识点的句群挂接,获取知识点句群。
[0056] 优选地,模糊属性抽取单元包括:
[0057] 第一得分计算单元,用于在待处理数字资源中获取包含知识点的多个段落,根据 精确属性分别计算每个段落的第一得分;
[0058] 第一排序单元,用于根据第一得分将包含知识点的段落降序排序;
[0059]第一提取单元,用于按照排序结果从前提取预设数量的段落;
[0060]第一分句单元,用于对提取的段落进行分句;
[0061 ]分词单元,用于对包含知识点的分句以及其前后句子进行分词;
[0062] 过滤单元,用于对分词结果进行过滤;
[0063] 模糊属性确定单元,用于统计过滤后的分词词频并按照词频进行降序排列,并按 照排序结果从前提取预设数量的分词作为该知识点的模糊属性。
[0064] 优选地,知识点句群获取单元包括:
[0065] 第二得分计算和排序单元,用于根据精确属性和模糊属性计算包含知识点的段落 的第二得分,并进行降序排序;
[0066] 第二提取单元,用于按照排序结果从前提取预设数量的段落;
[0067] 第二分句单元,用于对提取的段落进行分句;
[0068] 初始句群获取单元,用于根据分句后的段落获取多个初始句群,初始句群是从段 落的第一句开始取前后连贯的预设数量的句子形成的;
[0069] 句群扩展单元,用于根据判断要素确定出需要进行扩展的初始句群并进行扩展以 生成句群,判断要素包括待扩展句群前面或后面句子的得分和句群字符数;
[0070] 句群筛选单元,用于删除不包含知识点的句群;
[0071] 知识点句群确定单元,用于删除相似度大于相似度阈值的句群组中权重值小的句 群,剩下的即为抽取的知识点句群。
[0072]本发明技术方案,具有如下优点:
[0073] 1.本发明实施例提供的基于目标知识点的句群抽取方法及装置,通过加入知识点 的精确属性和模糊属性,提高了知识点句群抽取的准确性。
[0074] 2.本发明实施例提供的基于目标知识点的句群抽取方法及装置,在知识点模糊属 性抽取中加入了知识点精确属性和对模糊属性的词性约束,提高了知识点模糊属性抽取的 准确度。
【附图说明】
[0075] 为了更清楚地说明本发明【具体实施方式】或现有技术中的技术方案,下面将对具体 实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的 附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出
当前第1页1 2 3 4 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1