一种基于目标知识点的句群抽取方法及装置的制造方法

文档序号：9750915阅读：414来源：国知局

一种基于目标知识点的句群抽取方法及装置的制造方法
【技术领域】
[0001 ]本发明涉及数字资源加工领域，具体涉及一种基于目标知识点的句群抽取方法及装置。
【背景技术】
[0002] 自然语言处理是一个当前研究比较热门的领域，而从大量文本语料中抽取知识点相关信息又是自然语言处理中的一个研究热点。目前，以章节形式存储的知识资源非常的丰富，但是以句子为单位组织起来的知识片段资源十分的匮乏，知识点的句群挂接实现了以句子为单位组织起来的知识片段资源。知识点的句群挂接是通过对语料进行内容分析和处理，将语料中蕴含的与知识点相关的句子逐条抽取出来形成知识片段。句群，又叫句组，是几个在意义和结构上有密切联系的各自独立的句子组成的言语交际单位。即：由前后连贯共同表示一个中心意思的几个句子组成。句群抽取是指抽取前后连贯、密切联系，共同阐述一个概念或主题的若干句子，组成表达一个中心意思的句群。句群抽取是知识抽取的一种常用方法，但是现有的句群抽取方法抽取的知识点句群准确性不高，因此目前亟需一种准确性高的句群抽取方法。

【发明内容】

[0003] 因此，本发明要解决的技术问题在于现有的知识点句群抽取方法准确性不高。 [0004]为此，本发明实施例提供了如下技术方案：
[0005] -种基于目标知识点的句群抽取方法，包括如下步骤：
[0006] 获取知识点的精确属性，精确属性是描述知识点具体属性的数据；
[0007] 利用精确属性在待处理数字资源中抽取知识点的模糊属性；
[0008] 利用精确属性和模糊属性在待处理数字资源中进行知识点的句群挂接，获取知识点句群。
[0009] 优选地，利用精确属性在待处理数字资源中抽取知识点的模糊属性的步骤包括： [0010]在待处理数字资源中获取包含知识点的多个段落，根据精确属性分别计算每个段落的第一得分；
[0011]根据第一得分将包含知识点的段落降序排序；
[0012]按照排序结果从前提取预设数量的段落；
[0013]对提取的段落进行分句；
[0014] 对包含知识点的分句以及其前后句子进行分词；
[0015] 对分词结果进行过滤；
[0016] 统计过滤后的分词词频并按照词频进行降序排列，并按照排序结果从前提取预设数量的分词作为该知识点的模糊属性。
[0017] 优选地，包含知识点的段落的第一得分是通过以下公式计算得到的：
[0018]
[0019] 其中，η为知识点在该段落中出现的次数，v为知识点的权重，n i为第i个精确属性在段落中出现的次数，vi为第i个精确属性的权重。
[0020] 优选地，模糊属性的词性相同。
[0021] 优选地，利用精确属性和模糊属性在待处理数字资源中进行知识点的句群挂接的步骤包括：
[0022] 根据精确属性和模糊属性计算包含知识点的段落的第二得分，并进行降序排序；
[0023] 按照排序结果从前提取预设数量的段落；
[0024]对提取的段落进行分句；
[0025] 根据分句后的段落获取多个初始句群，初始句群是从段落的第一句开始取前后连贯的预设数量的句子形成的；
[0026] 根据判断要素确定出需要进行扩展的初始句群并进行扩展以生成句群，判断要素包括待扩展句群前面或后面句子的得分和句群字符数；
[0027]删除不包含知识点的句群；
[0028] 删除相似度大于相似度阈值的句群组中权重值小的句群，剩下的即为抽取的知识点句群。
[0029] 优选地，包含知识点的段落的第二得分是通过以下公式计算得到的：
[0030]
j.=\J
[0031] 其中，η为知识点在段落中出现的次数，v为知识点的权重，m为第i个精确属性在段落中出现的次数，Vl为第i个精确属性的权重，h为第j个模糊属性在段落中出现的次数， lj为第j个模糊属性的权重。
[0032] 优选地，根据判断要素确定出需要进行扩展的初始句群并进行扩展以生成句群的步骤包括：
[0033]计算权重阈值；
[0034]对于句群字符数小于句群最大长度的待扩展初始句群，如果该待扩展初始句群前面或后面句子的得分不小于权重阈值，则相应地向前或者向后进行扩展；
[0035] 对于已经进行过向前或向后扩展的句群，如果其句群字符数小于句群最大长度且没有达到向前或者向后扩展句子的数量限制，并且其前面或者后面的句子的得分不小于权重阈值，则相应地向前或者向后进行扩展。
[0036] 优选地，待扩展句群前面或者后面句子的得分是通过以下公式计算得到的：
[0037] score3 = s X factor 1,
[0038] 其中，s为该句子中的关键词得分的和，关键词包括知识点、精确属性和模糊属性；
[0039]
[0040]其中，η为句子中知识点出现的次数，m为句子中精确属性出现的次数，lu为句子中出现的第i个模糊属性的自身得分，Zl为第i个模糊属性在该句子中出现的次数，t为该句子中出现的不同模糊属性的个数，max为模糊属性中的最高分。
[0041 ]其中，
[0042]
[0043] 其中，nowSize为待扩展句群本身的长度，newSize为该句子的长度，sigema为设定的调整因子，E为句群期望长度。
[0044] 优选地，句群相似度是通过以下公式计算得到的：
[0045] SimilarVal = sameLen/minLen,
[0046] 其中，minLen为两个句群中字符数最少的句群的字符数，sameLen为该两个句群中相同句子的字符个数。
[0047] 优选地，句群权重是通过以下公式计算得到的：
[0048] weight = sums/senLenSum*factor2,
[0049] 其中，sums为句群中各句子得分的和，各句子得分的和为句中关键词得分的和， senLenSum为句群的字符数；
[0050]
[0051 ]其中，E为句群期望长度。
[0052] -种基于目标知识点的句群抽取装置，包括：
[0053] 精确属性获取单元:用于获取知识点的精确属性；
[0054] 模糊属性抽取单元:用于利用精确属性在待处理数字资源中抽取知识点的模糊属性；
[0055] 知识点句群获取单元，用于利用精确属性和模糊属性在待处理数字资源中进行知识点的句群挂接，获取知识点句群。
[0056] 优选地，模糊属性抽取单元包括：
[0057] 第一得分计算单元，用于在待处理数字资源中获取包含知识点的多个段落，根据精确属性分别计算每个段落的第一得分；
[0058] 第一排序单元，用于根据第一得分将包含知识点的段落降序排序；
[0059]第一提取单元，用于按照排序结果从前提取预设数量的段落；
[0060]第一分句单元，用于对提取的段落进行分句；
[0061 ]分词单元，用于对包含知识点的分句以及其前后句子进行分词；
[0062] 过滤单元，用于对分词结果进行过滤；
[0063] 模糊属性确定单元，用于统计过滤后的分词词频并按照词频进行降序排列，并按照排序结果从前提取预设数量的分词作为该知识点的模糊属性。
[0064] 优选地，知识点句群获取单元包括：
[0065] 第二得分计算和排序单元，用于根据精确属性和模糊属性计算包含知识点的段落的第二得分，并进行降序排序；
[0066] 第二提取单元，用于按照排序结果从前提取预设数量的段落；
[0067] 第二分句单元，用于对提取的段落进行分句；
[0068] 初始句群获取单元，用于根据分句后的段落获取多个初始句群，初始句群是从段落的第一句开始取前后连贯的预设数量的句子形成的；
[0069] 句群扩展单元，用于根据判断要素确定出需要进行扩展的初始句群并进行扩展以生成句群，判断要素包括待扩展句群前面或后面句子的得分和句群字符数；
[0070] 句群筛选单元，用于删除不包含知识点的句群；
[0071] 知识点句群确定单元，用于删除相似度大于相似度阈值的句群组中权重值小的句群，剩下的即为抽取的知识点句群。
[0072]本发明技术方案，具有如下优点：
[0073] 1.本发明实施例提供的基于目标知识点的句群抽取方法及装置，通过加入知识点的精确属性和模糊属性，提高了知识点句群抽取的准确性。
[0074] 2.本发明实施例提供的基于目标知识点的句群抽取方法及装置，在知识点模糊属性抽取中加入了知识点精确属性和对模糊属性的词性约束，提高了知识点模糊属性抽取的准确度。
【附图说明】
[0075] 为了更清楚地说明本发明【具体实施方式】或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施方式，对于本领域普通技术人员来讲，在不付出

完整全部详细技术资料下载

当前第1页1 2 3 4

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：成洪甲;叶茂;徐剑波;
技术所有人：北大方正集团有限公司;北京方正阿帕比技术有限公司;北京大学;
我是此专利的发明人

上一篇：一种数据库数据推送方法和装置的制造方法
上一篇：一种复杂结构的数据导入系统的利记博彩app

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。