候选引文与查询的主题分布的KL距离 (Kullback-Leibler Divergence)。首先,采用隐含狄利克雷分布模型获取查询和候选引文 的主题分布。然后,计算这两个主题分布的KL距离。
[0044]步骤6,构建引文推荐的训练数据
[0045] 第一,对训练数据集中每篇训练论文,根据其标题和摘要,利用搜索引擎Lucene检 索出候选引文。
[0046] 第二,对于每一篇候选引文p,构建一个训练样本。训练样本特征包括候选引文p的 引用次数特征、候选引文P和根据训练论文构建的查询的相似度特征。如果训练论文引用了 候选引文P,则该样本的分类标签为1,否则为〇。若训练论文包含m个参考文献,则可以构建m 个正样本和n-m个负样本,其中η为候选引文的篇数。
[0047] 步骤7,基于梯度渐进回归树进行引文推荐
[0048] 第一,采用梯度渐进回归树GBRT(Gradient Boost Regression Tree)来训练分类 模型,实现引文推荐。分类特征包括候选引文与查询的相似度特征、论文引用次数特征。梯 度渐进回归树的输出值一般为0~1之间的实数,将GBRT的输出值作为候选引文的推荐度。 推荐度越大表示该候选引文分类为"推荐"的可能性就越大。进一步,将推荐度最高的M(M为 自然数)篇候选引文作为当前论文的引文推荐结果;
[0049] 第二,对推荐的每一篇引文p,从其标题和摘要中识别研究对象词语X和研究行为 词语y。对于当前论文,构建每一篇引文P与它的多层语义关联关系。若u和v分别为当前论文 的研究对象词语和研究行为词语;
[0050] 情形1:若X为u的整体概念,或7为¥的整体概念,则引文p的研究内容包括当前论文 的研究内容。若X为u的部分概念,或y为v的部分概念,则当前论文的研究内容包括引文p的 研究内容;
[0051] 情形2:若X为u的上位概念,或ySv的上位概念,则引文p的研究方法可应用于解决 当前论文的研究问题。若X为u的下位概念,或 7为¥的下位概念,则当前论文的研究方法可应 用于解决引文P的研究问题;
[0052] 情形3:若X为u的并列概念,或7为¥的并列概念,则当前论文的研究方法可借鉴引 文P的研究方法。
[0053]至此,就完成了本方法的全部过程。
[0054] 有益效果
[0055] 本发明方法,针对现有引文推荐方法难以检索字符不同语义相似的文献、难以检 索与论文的研究对象和研究行为具有不同语义关联关系的文献、受限于相似用户数量等问 题,引入不同文献的内容语义关联的知识,采用一种基于文献内容知识图谱的多层引文推 荐方法。该方法利用文献内容中研究对象词语和研究行为词语的各种语义关系来获取检索 扩展词,基于梯度渐近回归树来进行多层次的引文推荐,提高了用户获取引文的效率。具体 体现在如下方面:
[0056] (1)本发明一方面通过提取论文的标题和摘要的关键词来表示论文的研究内容, 另一方面通过提取论文的研究对象词语和研究行为词语来表示论文的研究内容,对论文的 研究问题和研究内容进行了语义表征,更加准确地表达了论文的研究主题和内容,从而提 高引文推荐的效果。
[0057] (2)利用文献内容的知识图谱来获取检索扩展词,也就是,利用论文的研究对象词 语和研究行为词语的同义关系、近义关系、上下位关系、部分整体关系、并列关系来获取检 索扩展词,扩大了候选引文的范围,从而解决引用文献漏检的问题和推荐系统初期的冷启 动问题。
[0058] (3)本发明采用梯度渐进回归树GBRT进行引文推荐,将引文推荐看作分类问题,每 个训练样本引文的类别标签为1或〇,即表示"推荐"或"不推荐",不但保证了引文推荐结果 的效果,而且保证了引文推荐方法的运行效率。
[0059] (4)在文献内容的知识图谱中,可以动态添加与论文的研究对象词语和研究行为 词语具有不同语义关系的词语,不断扩充文献内容的知识图谱网络,从而提高引文推荐方 法的实时性和灵活性。
【附图说明】
[0060] 图1为本发明方法的流程图。
【具体实施方式】
[0061 ]下面结合实施例对本发明方法进行详细说明。
[0062] 实施例
[0063] -种基于文献内容知识图谱的多层引文推荐方法,包括如下步骤:
[0064]步骤1,获取查询需求。
[0065] 提取需要推荐引文的论文的标题和摘要,进行词根提取(Stemming)和词形还原 (Lemmat izat ion),去掉标点符号和停用词。例如,单词"enti t ies"通过词根提取转化为 "entity"。单词"identified"通过词形还原转化为"identify"。停用词是指不具有实际意 义的词语,主要包括助词、介词、连词等。例如,"is" "with"和"and"都是停用词。进一步,提 取关键词作为搜索引擎Lucene查询需求的检索词。
[0066] 步骤2,利用文献内容的知识图谱进行查询扩展。
[0067] 第一,对查询需求的检索词进行扩充,利用同义词词典和近义词词典获得检索词 的同义词和近义词,扩充检索扩展词集合。
[0068] 例如,从标题为"一种基于隐马尔科夫模型的命名实体识别"的论文中提取关键词 "隐马尔科夫模型"和"命名实体识别"作为检索词。通过同义词词典和近义词词典获得检索 扩展词"HMM(隐马尔科夫模型)"和"NER(命名实体识别)"。
[0069] 第二,根据论文的标题和摘要,识别论文的研究对象词语u和研究行为词语V。例 如,对于标题为"一种基于隐马尔科夫模型的命名实体识别"的论文,识别其论文的研究对 象词语为"命名实体",研究行为词语为"识别"。
[0070] 第三,利用同义词词典和近义词词典,提取论文的研究对象词语和研究行为词语 的同义词和近义词,构建检索扩展词,将其添加到检索词集合中。
[0071]若论文的研究对象词语u的同义词和近义词为&1,&2,-_, &?(!11为自然数),研究行为 词语v的同义词和近义词为bi,b2,…,bn(n为自然数),则构建如下的检索扩展词,其中"+"是 指两个词语的连接。例如,W是指词语u和词语h的连接。"实体+检测"是指词语"实体" 和词语"检测"的连接,即"实体检测"。
[0072] u+bi,u+b2,…,u+bn,
[0073] ai+v,ai+bi,ai+b2,…,ai+bn,
[0074] a2+v,a2+bi,a2+b2,···,a2+bn,
[0075] ···,
[0076] am+v,am+bi,am+b2,···,a m+bn·
[0077] 例如,对于标题为"一种基于隐马尔科夫模型的命名实体识别"的论文,提取研究 行为词语"识别"的近义词为"检测"和"提取",因此,构建检索扩展词"命名实体检测"和"命 名实体提取",并将它们添加到检索词集合中。
[0078] 第四,利用知识图谱中的上下位关系子网络,提取论文的研究对象词语u和研究行 为词语v的上位概念和下位概念。
[0079] 若u的上位概念为ci,C2,···,cP(p为自然数),u的下位概念为di,d2,···,dq(q为自然 数),v的上位概念为ei,e 2,…,es(s为自然数),v的下位概念为fi,f2,···,ft(t为自然数),则 构建如下的检索扩展词。
[0080] u+ej (j = 1,2,…,s),u+fj (j = 1,2,…,t),
[0081 ] ai+e j (i = l,2,...,m,j = l,2,...,s),ai+fj(i = l,2,...,m,j = l,2,···,!:),
[0082] ci+v(i = 1,2,···,p),di+v(i = l,2,---,q),
[0083] ci+bj(i = l,2,··· ,p, j = l,2,··· ,n) ,di+bj(i = l ,2,··· ,q, j = l ,2,··· ,n),
[0084] ci+ej(i = l,2,---,P,j = 1,2,=
[0085] di+ej (i = l,2,???.q.j = 1,2,---,8), di+f j (i = l,2,---,q,j = l,2,---,t).
[0086] 例如,对于标题为"一种基于