一种基于关键词的评审专家智能检索与推荐方法

文档序号:6516606阅读:667来源:国知局
一种基于关键词的评审专家智能检索与推荐方法
【专利摘要】本发明公开了一种基于关键词的评审专家智能检索与推荐方法。本发明具体包括如下步骤:步骤1:将专家信息主要文本切分成子串序列并进行中科院ICTCLAS分词,对分词结果进行停用词过滤得到词语集合;步骤2:分字段提取每个专家信息的特征词;步骤3:基于特征词所在字段和权值构建专家知识表示模型,并建立专家信息索引库;步骤4:当用户输入关键词时会根据检索词库进行自动提示,同时利用检索词统计器实时更新检索词词库;步骤5:基于语义等信息计算关键词和专家信息间的检索相关度;步骤6:根据匹配度从高到低列出相关的专家。本发明通过输入关键词实现专家信息的智能全文检索以及推荐,更准确地检索出与待审科技项目相匹配的专家。
【专利说明】 —种基于关键词的评审专家智能检索与推荐方法
【技术领域】
[0001]本发明属于信息检索【技术领域】,尤其涉及一种基于关键词的评审专家智能检索与推荐方法,用于检索科技项目评审专家。
【背景技术】
[0002]随着科技项目申报管理系统在我国的迅速普及,科技项目的评审工作从以往的集中会议模式发展到当前的网络模式。评审专家根据领域知识和资助机构的资助标准,对项目申请书进行评议,资助机构依据评审专家的评议情况决定是否资助。科技项目管理系统的规模越来越大,形成大量的专家库信息。由于科技项目评审必须做到客观性、公正性和权威性,因此,如何快速准确地、智能地检索并遴选出与待审项目领域相匹配的评审专家,变得十分重要和关键。
[0003]现有的科技项目评审专家信息检索大多以字符精确匹配或模糊匹配的方式,从单字段或多字段进行筛选,检索过程只注重关键词的机械匹配,检索相关度计算忽略语义相关性的分析,不是针对专家信息的全文检索。在计算检索相关性时,缺乏考虑专家信息各字段具有不同的重要性;同时,由于没有建立专门的索引库,在专家信息量庞大的情况下,不能快速检索出结果,而且不能按照相关度进行排序。另外现有技术在输入关键词时大多缺乏智能联想提示功能。这些都会导致检索结果查全率和查准率不高,限制了在科技项目评审专家检索领域的自动分析和智能化处理的能力,直接约束了科技项目评审工作的社会服务能力。现今通用的全文检索技术在很多领域得到的应用,可有效缓解上述问题,但鲜有在专家信息领域的运用。

【发明内容】

[0004]本发明针对现有技术的不足,提出一种基于关键词的评审专家智能检索与推荐方法。
[0005]本发明解决问题所采用的技术方案包括如下步骤:
[0006]步骤1.评审专家信息的采集是专家智能检索的第一步,从科技项目申报管理系统后台数据库中收集评审专家知识信息。
[0007]步骤2.把评审专家信息中的通用词和惯用词作为专业停用词库;把标点符号、非汉字作为切分标记库。
[0008]步骤3.对评审专家信息进行分词:首先根据评审专家信息中切分标记抽取专家信息,获奖情况、发明情况、发表论文情况、课题承担过的项目及完成情况、研究方向等信息,切分成子串序列,一个子串序列即一个字段信息;利用中科院ICTCLAS对子串序列进行分词。
[0009]步骤4.根据通用停用词库和专业停用词库进行停用词过滤,提取每个专家的特征词集合。通用停用词库采用哈工大停用词表,专业停用词库的构建是一个自学习不断完善的过程,设计了一个专业停用词库统计器,在不断进行的专家信息分词过程中统计词语的词频,词语在文本出现的概率大于一定阀值,将它纳入到专业停用词库,这些词语不是反映信息主题的特征词。
[0010]步骤5.构建专家知识表示模型:本发明利用专家信息的“半结构化”特征,对空间向量模型和物元知识集模型的扩展,建立知识表示模型TM = (id, F,WF, T,V),其中,id表示在专家库中的标识字段^表示评审专家中字段类别集合;WF为字段的权重集合,定义wf为字段权重集合的元素;T为特征词语集合…表示字段所对应的特征词语及其权重集合,Vi={vn, f (Vil), vi2, f (vi2),...,vin, f (Vin)}, Vij 表示第 i 个字段中的第 j 个特征词语,f (Vij)
表示Vij特征词语在所对应的字段内的出现频率权重,计算公式如下:
[0011]
【权利要求】
1.一种基于关键词的评审专家智能检索与推荐方法,其特征在于该方法的具体步骤是: 步骤1.从科技项目申报管理系统后台数据库中收集评审专家信息; 步骤2.把评审专家信息中的通用词和惯用词作为专业停用词库;把标点符号、非汉字作为切分标记库; 步骤3.对评审专家信息进行分词:首先根据评审专家信息中切分标记抽取专家信息,获奖情况、发明情况、发表论文情况、课题承担过的项目及完成情况、研究方向;切分成子串序列,一个子串序列即一个字段信息;利用中科院ICTCLAS对子串序列进行分词; 步骤4.根据通用停用词库和专业停用词库进行停用词过滤,提取每个专家的特征词集合,所述的通用停用词库采用哈工大停用词表; 步骤5.构建专家知识表示模型:利用专家信息的“半结构化”特征,对空间向量模型和物元知识集模型的扩展,建立知识表示模型TM = (id, F,WF, T,V),其中,id表示在专家库中的标识字段;F表示评审专家中字段类别集合;WF为字段的权重集合,定义Wf为字段权重集合的元素;T为特征词语集合;V表示字段所对应的特征词语及其权重集合,Vi=Ivil, f (Viι),Vi2, f (Vi2),...,vin, f (Vin)},Vij表示第i个字段中的第j个特征词语,f (Vij)表示Vij特征词语在所对应的字段内的出现频率权重,计算公式如下:
2.根据权利要求1所述的方法,其特征在于:步骤7中所述的自动提示关键词,其关键词词库的构建过程如下: 设计一个关键词统计器,统计已检索过的关键词词频,以键值对〈key, value)的方式索引入库;其中键key是历史关键词,值value是关键词的历史检索次数;若用户首次输入关键词 term,则以〈term, one〉保存;否则,更新〈term, num> 为〈term, num+l> ;其中,one为检索次数初始值1,num为当前的关键词被检索次数;同时用户在检索输入框中输入关键词时,关键词统计器获取当前已输入的关键词语素S,从关键词词库中筛选关键词开头语素为S的相关关键词,设置历史检索次数阀值,以历史检索次数降序的方式,自动地添加到检索输入框的下拉条目做关键词推荐。
3.根据权利要求1所述的方法,其特征在于:步骤8中所述的关键词与专家信息特征词语的语义相似度的计算过程如下: 在评审专家知识表示模型中,字段内的特征词词频统计向量包括特征词、经过位置重要性优化的词频权重,其表示为Vi=Ivil, f (vn), vi2, f (vi2),...,vin, f (Vin)},特征词频率权重越大,表示这个特征词越能够反映该字段的主题,定义关键词与专家信息的某个字段信息的语义相关度计算公式为:

4.根据权利要求1所述的方法,其特征在于:步骤8中所述的关键词与专家信息特征词语的语素相似度的计算过程如下: 汉语中绝大多数词语的同义词、含有相同语素这一特点,语素相似度占重要的部分,比较两个词语中相同语素的个数,若相同语素的个数越多,则相似度就越大;引入语素相似度,将汉语的构词特征和计算机检索技术结合起来,它是辅助识别同义词的有效方法,在计算个别词语语义相似度不好的情况下,改善语义相似度的计算;语素相似度的计算公式为:
5.根据权利要求3所述的方法,其特征在于:所述的语义相似度计算过程如下: 在知网语义词典中,如果对于两个词语W1和WyW1有η个概念:S11,S12,...,Sln7W2有m个概念:S21,S22,...,S2n ;词语W1和W2的相似度SimSEM (Wl,W2)等于各个概念的相似度之最大值:
【文档编号】G06F17/30GK103605665SQ201310511342
【公开日】2014年2月26日 申请日期:2013年10月24日 优先权日:2013年10月24日
【发明者】徐小良, 吴仁克, 郑杨, 潘翔 申请人:杭州电子科技大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1