一种基于文献内容知识图谱的多层引文推荐方法
【技术领域】
[0001] 本发明涉及信息推荐技术领域,特别是涉及一种基于文献内容知识图谱的多层引 文推荐方法。本发明在信息推荐、信息检索、网络舆情监控等领域具有广阔的应用前景。
【背景技术】
[0002] 目前,信息推荐方法可以分为三大类,基于内容的推荐、基于协同过滤的推荐、以 及混合的方法。
[0003] 在基于内容的推荐方法中,首先构建推荐对象的内容特征模型和用户兴趣模型, 然后计算推荐对象与用户兴趣的相似度,最后将相似度较大的推荐对象推荐给用户。推荐 对象和用户模型通常采用关键词表示特征。该方法的优点是可以根据用户的历史记录来构 建用户兴趣模型,反映用户的需求和偏好。其特点是,第一,推荐性能依赖于推荐对象的特 征提取方法和内容特征模型,也就是依赖于推荐对象的内容特征的准确性和完整性;第二, 推荐对象和用户兴趣模型基于关键词进行表示和相似度计算,停留在字符串层面,限制用 户对高层次概念的认知,难以满足用户的真正需求。
[0004] 基于协同过滤的推荐方法是基于推荐对象之间的相关性或用户之间的相关性来 进行推荐。基于协同过滤的推荐方法可以分为基于用户的协同推荐、基于物品的协同推荐, 以及基于模型的协同推荐。该方法的优点是可以处理结构化和非结构化的复杂对象。其特 点是存在稀疏性问题和冷启动问题。稀疏性问题是指对于涉及推荐对象较少的用户,在庞 大的用户集中难以发现与该用户兴趣相似的用户。冷启动问题是指当新用户或者新推荐对 象第一次出现在推荐系统中,系统难以获知新用户的兴趣偏好,难以对新推荐对象进行推 荐。
[0005] 引文推荐是信息推荐的重要研究内容,其目的是在海量的文献中找出当前论文需 要引用的论文。现有引文推荐方法主要利用文献的引用关系来进行推荐,基于关键词来表 示论文的内容和用户的兴趣。
【发明内容】
[0006] 本发明的目的是为了解决上述现有技术中推荐方法受限于相似用户的数量,难以 检索字符不同语义相似的文献,难以检索与论文的研究对象和研究行为具有不同语义关联 关系的文献,以及现有技术中的引用论文推荐结果不能很好满足用户需求的问题,提供一 种基于文献内容知识图谱的多层引文推荐方法。
[0007] 本发明的目的是通过下述技术方案实现的。
[0008] -种基于文献内容知识图谱的多层引文推荐方法,包括如下步骤:
[0009] 步骤1,获取查询需求
[0010] 提取需要推荐引文的论文的标题和摘要,进行词根提取(Stemming)和词形还原 (Lemmatization),去掉标点符号和停用词。停用词是指不具有实际意义的词语,主要包括 助词、介词、连词等。进一步,提取关键词作为搜索引擎Lucene查询需求的检索词。
[0011] 步骤2,利用文献内容的知识图谱进行查询扩展
[0012] 第一,对查询需求的检索词进行扩充,利用同义词词典和近义词词典获得检索词 的同义词和近义词,扩充检索词集合;
[0013] 第二,根据论文的标题和摘要,识别论文的研究对象词语u和研究行为词语v;
[0014]第三,利用同义词词典和近义词词典,提取论文的研究对象词语和研究行为词语 的同义词和近义词,构建检索扩展词,将其添加到检索词集合中。
[0015] 若论文的研究对象词语u的同义词和近义词为&1,&2,-_,&?(!11为自然数),研究行为 词语v的同义词和近义词为bi,b 2,…,bn(n为自然数),则构建如下的检索扩展词,其中"+"是 指两个词语的连接。例如,W是指词语u和词语匕的连接。
[0016] u+bi ,u+b2, ·' ,u+bn,
[0017] ai+v,ai+bi,ai+b2,…,ai+bn,
[0018] a2+v,a2+bi,a2+b2,···,a2+bn,
[0019] …,
[0020] am+v,am+bi,am+b2,···,am+bn·
[0021] 第四,利用知识图谱中的上下位关系子网络,提取论文的研究对象词语u和研究行 为词语v的上位概念和下位概念;
[0022] 若u的上位概念为ci,C2,···,cP(p为自然数),u的下位概念为di,d2,···,dq(q为自然 数),v的上位概念为ei,e 2,…,es(s为自然数),v的下位概念为fi,f2,···,ft(t为自然数),则 构建如下的检索扩展词:
[0023] u+ej( j = l ,2,··· ,s) ,u+fj( j = 1,2, ···, t),
[0024] ai+e j (i = l,2,...,m,j = l,2,...,s), ai+fj(i = l,2,...,m,j = l,2,.",t),
[0025] ci+v(i = 1,2,···,p),di+v(i = l,2,---,q),
[0026] ci+bj(i = l,2,··· ,p, j = l,2,··· ,n) ,di+bj(i = l ,2,··· ,q, j = l ,2,··· ,n),
[0027] ci+ej(i = l,2,---,P,j = 1,2,=
[0028] di+ej (i = l,2,???.q.j = 1,2,---,8), di+f j (i = l,2,---,q,j = l,2,---,t).
[0029] 第五,利用知识图谱中的部分整体关系子网络,提取论文的研究对象词语u和研究 行为词语v的部分概念和整体概念。若u的整体概念为 81^2,一^。(〇为自然数),1!的部分概 念为hi,h2,···,h r(r为自然数),v的整体概念为ki,k2,···,kw(w为自然数),v的部分概念为li, I2,…,lz(z为自然数),则构建如下的检索扩展词:
[0030] u+kj(j = 1,2,…,w),u+lj (j = 1,2,…,z),
[0031 ] ai+kj(i = l,2,··· ,m, j = l,2,··· ,w) ,ai+lj(i = l ,2,··· ,m, j = l ,2,··· ,ζ),
[0032] gi+v (i = l,2,···,〇), hi+v (i = l,2,---,r),
[0033] gi+bj(i = l,2,··· ,0, j = l,2,··· ,n) ,hi+bj(i = l ,2,··· ,r, j = l ,2,··· ,n),
[0034] gi+kj (i = l, 2,···,〇,』· = 1,2,···,《〇, gi+lj (i = l, 2,···,〇,j = l, 2,···,ζ),
[0035] hi+kj (i = l,2,???.r.j = 1,2,= = 1,2,
[0036] 第六,利用知识图谱中的并列关系子网络,提取论文的研究对象词语u和研究行为 词语v的并列概念。若u的并列概念为χι,Χ2,…,xki(kl为自然数),v的并列概念为yi,y2,···, yk2(k2为自然数),则构建如下的检索扩展词。
[0037] u+yj(j = 1,2,···,k2),xi+v(i = l,2,---,kl).
[0038] 步骤3,构建文献的倒排索引
[0039] 根据数据集中的文献的标题和摘要构建倒排索引,包括预处理、构建索引和存储 索引。预处理包括词根提取和词形还原,去掉标点符号和停用词。构建索引包括构建词语到 文档的映射词典,对词语按照字典顺序排序,合并相同词语的文档映射信息,构建文档倒排 链表即文档倒排索引。
[0040] 步骤4,选取候选引文集
[0041] 首先,根据扩展后的检索词集合,在数据集中检索出在标题和摘要中包括任一检 索词的论文。然后,计算查询与这些论文的相似度。将相似度最高的前N(N为自然数)篇论文 作为候选引文集。其中,查询与论文的相似度采用搜索引擎Lucene中的向量空间模型进行 计算。查询和论文由查询向量和论文向量来表示,查询和论文的相似度为查询向量和论文 向量的余弦相似度。
[0042] 步骤5,提取候选引文与查询的相似度特征
[0043] 候选引文与查询的相似度特征分为如下两种特征。第一种是基于搜索引擎Lucene 的候选引文与查询的相似度特征。第二种是