在于包括以下步骤: 步骤1,获取查询需求; 步骤2,利用文献内容的知识图谱进行查询扩展; 步骤3,构建文献的倒排索引; 步骤4,选取候选引文集; 步骤5,提取候选引文与查询的相似度特征; 步骤6,构建引文推荐的训练数据; 步骤7,基于梯度渐进回归树进行引文推荐。2. 根据权利要求1所述的多层引文推荐方法,其特征在于,所述步骤1中,包括:获取需 要推荐引文的论文的标题和摘要,进行词根提取和词形还原,去掉标点符号和停用词;提取 关键词作为搜索引擎Lucene查询需求的检索词。3. 根据权利要求1所述的多层引文推荐方法,其特征在于,所述步骤2中,包括: 第一,对查询需求的检索词进行扩充,利用同义词词典和近义词词典获得检索词的同 义词和近义词,扩充检索词集合; 第二,根据论文的标题和摘要,识别论文的研究对象词语u和研究行为词语v; 第三,利用同义词词典和近义词词典,提取论文的研究对象词语u和研究行为词语v的 同义词和近义词,构建检索扩展词,将其添加到检索词集合中; 若u的同义词和近义词为ai,a2,…,am(m为自然数),v的同义词和近义词为bi,b2,…,bn U为自然数),则构建如下的检索扩展词,其中"+"是指两个词语的连接;例如,"u+h"是指 词语u和词语匕的连接;"实体+检测"是指词语"实体"和词语"检测"的连接,8卩"实体检测"; U+bl,U+b2,…,U+bn, ai+v,ai+bi,ai+b2,…,ai+bn, a2+v,a2+bi,a2+b2,…,a2+bn, y £lm+V,£lm+bl,£lm+b2,. · ·,£lm+bn · 第四,利用知识图谱中的上下位关系子网络,提取论文的研究对象词语U和研究行为词 语V的上位概念和下位概念; 若u的上位概念为C1,C2,···,cP(p为自然数),u的下位概念为di,d2,···,dq(q为自然数),v 的上位概念为ei,e2,…,es (s为自然数),v的下位概念为f 1,f 2,…,f t (t为自然数),则构建如 下的检索扩展词: u+ej(j = l,2,...,s),u+fj(j = l,2, ···,!:), ai+ej(i = l,2,---,m,j = 1,2,= Ci+v(i = l,2,---,p),di+v(i = l,2,---,q), ci+bj(i = l,2,...,p, j = 1,2, ···,]!),di+bj(i = 1,2, = 1,2, ···,]!), ci+ej(i = l,2,...,p,j = 1,2, ··sshci+fjQi 1,2, ···,?,]· = 1,2, ···,!:), di+ej (i = l,2,???.q.j = 1,2,---,8), di+f j (i = l,2,---,q,j = l,2,---,t). 第五,利用知识图谱中的部分整体关系子网络,提取论文的研究对象词语u和研究行为 词语v的部分概念和整体概念;若u的整体概念为gl,g2,…,%(〇为自然数),u的部分概念为 hi,h2,···,hr(r为自然数),v的整体概念为ki,k2,···,k w(w为自然数),v的部分概念为li, 12,…,lz (Z为自然数),则构建如下的检索扩展词; u+kj( j = 1,2,j = 1,2, ai+kj( i = l,2,= 1,2, gi+v(i = l,2,---,o),hi+v(i = l,2,---,r), gi+bj( i = l,2, ···,〇, j = 1,2,= 1,2, gi+kj(i = l,2,···,〇,j = l,2,···,《〇,gi+lj(i = l,2,···,〇,]· = 1,2,···,z), hi+kj(i = l,2,···,!·,j = 1,2, ···,《〇,hi+lj(i = 1,2, ···,!,j = 1,2,…,乙). 第六,利用知识图谱中的并列关系子网络,提取论文的研究对象词语u和研究行为词语 V的并列概念;若U的并列概念为X1,X2,···,xki(kl为自然数),v的并列概念为yi,y2,···,yk2(k2 为自然数),则构建如下的检索扩展词: u+yj (j = 1,2,…,k2),xi+v (i = l,2,.",kl)。4. 根据权利要求1所述的多层引文推荐方法,其特征在于,所述步骤3中,包括: 根据数据集中的文献的标题和摘要构建倒排索引,包括预处理、构建索引和存储索引; 预处理包括词根提取和词形还原,去掉标点符号和停用词;构建索引包括构建词语到文档 的映射词典,对词语按照字典顺序排序,合并相同词语的文档映射信息,构建文档倒排链表 即文档倒排索引。5. 根据权利要求1所述的多层引文推荐方法,其特征在于,所述步骤4中,包括: 首先,根据扩展后的检索词集合,在数据集中检索出在标题和摘要中包括任一检索词 的论文;然后,计算查询与这些论文的相似度;将相似度最高的前N(N为自然数)篇论文作为 候选引文集;其中,查询与论文的相似度采用搜索引擎Lucene中的向量空间模型进行计算; 查询和论文由查询向量和论文向量来表示,查询和论文的相似度为查询向量和论文向量的 余弦相似度。6. 根据权利要求1所述的多层引文推荐方法,其特征在于,所述步骤5中,包括: 候选引文与查询的相似度特征分为如下两种特征;第一种是基于搜索引擎Lucene的候 选引文与查询的相似度特征;第二种是候选引文与查询的主题分布的KL距离(如^&(^-Leibler Divergence);首先,采用隐含狄利克雷分布模型LDA获取查询和候选引文的主题 分布;然后,计算这两个主题分布的KL距离。7. 根据权利要求1所述的所述的多层引文推荐方法,其特征在于,所述步骤6中,包括: 第一,对训练数据集中每篇训练论文,根据其标题和摘要,利用搜索引擎Lucene检索出 候选引文; 第二,对于每一篇候选引文P,构建一个训练样本;训练样本特征包括候选引文P的引用 次数特征、根据训练论文构建的查询和候选引文P的相似度特征;如果训练论文引用了候选 引文P,则该样本的分类标签为1,否则为0;若训练论文包含m个参考文献,则可以构建m个正 样本和n-m个负样本,其中η为候选引文的篇数。8. 根据权利要求1所述的所述的多层引文推荐方法,其特征在于,所述步骤7中,包括: 第一,采用梯度渐进回归树GBRT来训练分类模型,实现引文推荐;分类特征包括候选引 文与查询的相似度特征、论文引用次数特征;梯度渐进回归树的输出值一般为0~1之间的 实数,将GBRT的输出值作为候选引文的推荐度;推荐度越大表示候选引文分类为"推荐"的 可能性就越大;进一步,将推荐度最高的Μ(Μ为自然数)篇候选引文作为当前论文的引文推 荐结果; 第二,对推荐的每一篇引文P,从其标题和摘要中识别研究对象词语X和研究行为词语 y;对于当前论文,构建每一篇引文P与它的多层语义关联关系;若u和v分别为当前论文的研 究对象词语和研究行为词语, 情形1:若X为u的整体概念,或ySv的整体概念,则引文p的研究内容包括当前论文的研 究内容;若X为u的部分概念,或y为v的部分概念,则当前论文的研究内容包括引文p的研究 内容; 情形2:若X为u的上位概念,或ySv的上位概念,则引文p的研究方法可应用于解决当前 论文的研究问题;若X为u的下位概念,或y为v的下位概念,则当前论文的研究方法可应用于 解决引文P的研究问题; 情形3:若X为u的并列概念,或7为¥的并列概念,则当前论文的研究方法可借鉴引文p的 研究方法。
【专利摘要】本发明公开了一种基于文献内容知识图谱的多层引文推荐方法,属于信息推荐和智能信息处理领域。本方法首先获取用户的查询需求,查询需求由需要推荐引用论文或引用文献的论文的标题和摘要的关键词构成。然后,基于文献内容的知识图谱扩展查询检索词语,知识图谱由文献的研究对象词语和研究行为词语结点,以及表示同义、近义、上下位、部分整体、并列等各种语义关系的边构成。最后,构建数据集中文献的倒排索引,选取候选引文,计算候选引文和查询的相似度,采用梯度渐进回归树来进行引文推荐。本方法基于文献内容知识图谱进行多层次的引文推荐,扩大了候选引文的范围,准确地表达了论文的研究对象和内容,提高了用户获取相关文献的效率,具有广阔的应用前景。
【IPC分类】G06F17/30
【公开号】CN105653706
【申请号】
【发明人】张春霞, 陈俊鹏, 王森, 王树良, 赵小林
【申请人】北京理工大学
【公开日】2016年6月8日
【申请日】2015年12月31日