一种基于文献内容知识图谱的多层引文推荐方法_3

文档序号:9887806阅读:来源:国知局
隐马尔科夫模型的命名实体识别"的论文,提取其研 究对象"命名实体"的上位概念"实体",则可构建检索扩展词"实体识别"、"实体检测"和"实 体提取",并将它们添加到检索词集合中。
[0087] 第五,利用知识图谱中的部分整体关系子网络,提取论文的研究对象词语u和研究 行为词语v的部分概念和整体概念。若u的整体概念为 81^2,一^。(〇为自然数),1!的部分概 念为hi,h2,···,h r(r为自然数),v的整体概念为ki,k2,···,kw(w为自然数),v的部分概念为li, I2,…,lz(z为自然数),则构建如下的检索扩展词。
[0088] u+kj(j = 1,2,…,w),u+lj (j = 1,2,…,z),
[0089] ai+kj(i = l,2,··· ,m, j = l,2,··· ,w) ,ai+lj(i = l ,2,··· ,m, j = l ,2,··· ,z),
[0090] gi+v (i = l,2,···,〇), hi+v (i = l,2,---,r),
[0091] gi+bj(i = l,2,··· ,〇, j = l,2,··· ,n) ,hi+bj(i = l ,2,··· ,r, j = l ,2,··· ,n),
[0092] gi+kj (i = l, 2,···,〇,』· = 1,2,···,《〇, gi+lj (i = l, 2,···,〇,j = l, 2,···,ζ),
[0093] hi+kj (i = l,2,???.r.j = 1,2,= = 1,2,
[0094] 例如,对于标题为"一种基于隐马尔科夫模型的命名实体识别"的论文,提取"命名 实体"的整体概念"实体信息",则可构建检索扩展词"实体信息提取"、"实体信息识别"和 "实体信息检测",将它们添加到检索词集合中。
[0095] 第六,利用知识图谱中的并列关系子网络,提取论文的研究对象词语u和研究行为 词语v的并列概念。若u的并列概念为χι,Χ2,…,xki(kl为自然数),v的并列概念为yi,y2,···, yk2(k2为自然数),则构建如下的检索扩展词。
[0096] u+yj( j = 1,2, ··· ,k2) ,Xi+v(i = 1,2, ··· ,kl).
[0097] 例如,对于标题为"一种基于隐马尔科夫模型的命名实体识别"的论文,提取其研 究行为词语"识别"的并列概念"链接"和"消歧",则可构建检索扩展词"实体消歧"和"实体 链接",将它们添加到检索词集合中。
[0098] 步骤3,构建文献的倒排索引。
[0099] 根据数据集中的文献的标题和摘要构建倒排索引,包括预处理、构建索引和存储 索引。预处理包括词根提取和词形还原,去掉标点符号和停用词。构建索引包括构建词语到 文档的映射词典,对词语按照字典顺序排序,合并相同词语的文档映射信息,构建文档倒排 链表即文档倒排索引。
[0100] 步骤4,选取候选引文集。
[0101] 首先,根据扩展后的检索词集合,在数据集中检索出在标题和摘要中包括任一检 索词的论文。然后,计算查询与这些论文的相似度。将相似度最高的前N(N为自然数)篇论文 作为候选引文集。其中,查询与论文的相似度采用Lucene中的向量空间模型进行计算。查询 和论文由查询向量和论文向量来表示,查询和论文的相似度为查询向量和论文向量的余弦 相似度。
[0102] 步骤5,提取候选引文与查询的相似度特征。
[0103] 候选引文与查询的相似度特征分为如下两种特征。第一种是基于Lucene的候选引 文与查询的相似度特征。第二种是候选引文与查询的主题分布的KL距离(1(1111&&^ Leibler Divergence)。首先,采用隐含狄利克雷分布模型获取查询和候选引文的主题分 布。然后,计算这两个主题分布的KL距离。
[0104]步骤6,构建引文推荐的训练数据。
[0105] 第一,对训练数据集中每篇训练论文,根据其标题和摘要,利用搜索引擎Lucene检 索出候选引文。
[0106] 第二,对于每一篇候选引文p,构建一个训练样本。训练样本特征包括候选引文p的 引用次数特征、候选引文P和根据训练论文构建的查询的相似度特征。如果训练论文引用了 候选引文P,则该样本的分类标签为1,否则为〇。若训练论文包含m个参考文献,则可以构建m 个正样本和n-m个负样本,其中η为候选引文的篇数。
[0107] 步骤7,基于梯度渐进回归树进行引文推荐。
[0108] 第一,采用梯度渐进回归树GBRT(Gradient Boost Regression Tree)来训练分类 模型,实现引文推荐。分类特征包括候选引文与查询的相似度特征、论文引用次数特征。梯 度渐进回归树的输出值一般为0~1之间的实数,将GBRT的输出值作为候选引文的推荐度。 推荐度越大表示该候选引文分类为"推荐"的可能性就越大。进一步,将推荐度最高的M(M为 自然数)篇候选引文作为当前论文的引文推荐结果。
[0109] 第二,对推荐的每一篇引文p,从其标题和摘要中识别研究对象词语X和研究行为 词语y。对于当前论文,构建每一篇引文P与它的多层语义关联关系。若u和v分别为当前论文 的研究对象词语和研究行为词语;
[0110]情形1:若X为u的整体概念,或ySv的整体概念,则引文p的研究内容包括当前论文 的研究内容。若X为u的部分概念,或y为v的部分概念,则当前论文的研究内容包括引文p的 研究内容。
[0111] 情形2:若X为u的上位概念,或ySv的上位概念,则引文p的研究方法可应用于解决 当前论文的研究问题。若X为u的下位概念,或 7为¥的下位概念,则当前论文的研究方法可应 用于解决引文P的研究问题。
[0112] 情形3:若X为u的并列概念,或ySv的并列概念,则当前论文的研究方法可借鉴引 文P的研究方法。
[0113] 本发明的实施过程选用物理学领域的科技论文进行实验测试。采用平均准确率AP (Average Precision)来评估引文推荐的实验结果。
[0114]对于论文q,设Xq是论文q的参考文献集合,yq是一个有序二元组集合,表示论文q的 引文推荐结果。7<1(1)=以,8)为有序二元组集合7<1中第1个位置的元素,其中4为论文10,8表 示该论文是否被引用,1表示被引用,0表示没有被引用。y q是对引文按照梯度渐进回归树 GBRT输出值的降序方式进行排序的。采用下面式子计算yq在第k个位置上的准确率Pk(y q),k 为自然数。
[0115]
[0116] 其中,表示yq(i)中的论文是否属于论文q的参考文献集合,具体计算如下: 若yq( i)中的论文属于论文q的参考文献集合,贝1ji.vWj = 1 若yq( i)中的论文不属于论文q 的参考文献集合,则^^=〇。
[0117] 进一步,利用下面式子计算yq的平均准确率AP(yq),其中η为二元组集合yq二元组 个数。
[0118]
[0119]以标题为"More Confining N=1 SUSY Gauge Theories from Non-Abelian Duality"的论文为例,利用Lucene在数据集中进行查询获得的前10篇引文依次为 (9811119,1),(9610139,1),(9804038,0),(9807222,0),(9603206,0),(9411149,1), (9607200,0),(9408155,0),(9810014,1),(9605113,0)。利用本发明的方法获得的前 10篇 引文依次为(9411149,1),(9407087,0),(9408099,0),(9610139,1),(9811119,1), (9510101,0),(9503179,1),(9510148,1),(9408155,0),(9602031,0)。基于Lucene的引文 推荐实验结果的平均准确率约为0.29,采用本发明方法的引文推荐实验结果的平均准确率 约为0.33。通过实验结果表明,本发明的引文推荐方法提高了用户获取引文的效率。另外, 该引文推荐方法不涉及相似用户,因此不受限于相似用户的数量;它通过利用文献内容的 知识图谱能够推荐与论文具有多层语义关联关系的文献。
【主权项】
1. 一种基于文献内容知识图谱的多层引文推荐方法,其特征
当前第3页1 2 3 4 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1