一种行业网站的发现整理方法及装置的制造方法
【技术领域】
[0001] 本发明涉及信息检索技术领域,特别是涉及一种行业网站的发现整理方法及装 置。
【背景技术】
[0002] 电网企业在进行技术创新时,需要进行新技术、新方法等技术信息的收集,并以收 集到的技术信息作为基础进行创造性的革新和拓展。基于搜索引擎,使用者在输入查询内 容后,搜索引擎可以根据查询内容将相关网站的信息提供给用户查阅。
[0003] 目前搜索引擎一般需要抓取整个广域网或局域网内的网站,并将所有网站中包含 的内容与所述查询内容进行比对,不但费时费力,而且抓取得到的网站的质量也参差不齐, 例如用户需要查询电网的相关技术内容,并输入查询内容"高压",通过上述方法获得网站 往往包含大量无关网站例如卖高压锅的电商网站以及报道高压线故障的新闻门户网站等, 其包含的信息很容易干扰用户的检索工作,造成检索效率低下。
【发明内容】
[0004] 本发明实施例中提供了一种行业网站的发现整理方法及装置,以解决现有技术中 的检索效率低的问题。
[0005] 为了解决上述技术问题,本发明实施例公开了如下技术方案:
[0006] 本发明实施例公开了一种行业网站的发现整理方法,该方法包括:
[0007] 获取用户的网络访问记录;
[0008] 根据所述网络访问记录访问网络页面,获取所述网络页面中的链接地址;
[0009] 从所述链接地址中,获取网站域名地址;
[0010] 根据所述网站域名地址对应的网站中出现的行业词汇数,计算所述网站的网站行 业相关度;
[0011] 根据所述网站行业相关度,整理网站。
[0012] 优选地,根据所述网站域名对应的网站中出现的行业词汇数,计算所述网站的网 站行业相关度之前,还包括:
[0013] 获取行业类别信息,所述行业类别信息为包括电力、航天、能源以及医学的一个或 多个的类别信息;
[0014] 根据所述行业类别信息,获得相应行业的行业词汇。
[0015] 优选地,所述根据所述网站域名地址对应的网站中出现的行业词汇数,计算所述 网站的网站行业相关度,包括:
[0016] 对比网站域名地址对应网站的标题与行业词汇,确定标题行业词汇数;
[0017] 对比网站域名地址对应网站的网页内容与行业词汇,确定网页内容行业词汇数;
[0018] 通过所述标题行业词汇数和所述网页内容行业词汇数,计算获得网站行业相关 度。
[0019] 优选地,所述通过所述标题行业词汇数和所述网页内容行业词汇数,计算获得网 站行业相关度,还包括:
[0020] 预设标题权重系数;
[0021] 根据所述标题权重系数、标题行业词汇数以及网页内容行业词汇数,加权计算获 得网站行业相关度。
[0022] 优选地,所述根据所述网站行业相关度,整理网站,包括:
[0023]预设网站行业相关度阈值;
[0024]判断所述网站行业相关度是否大于所述网站行业相关度阈值;
[0025]判断所述网站域名地址是否存在于行业网站库中;
[0026] 如果所述网站行业相关度大于所述网站行业相关度阈值,且所述网站域名地址不 存在于所述行业网站库中,将所述网站域名地址整理加入到行业网站库。
[0027]本发明实施例还公开了一种行业网站的发现整理装置,包括:
[0028] 网络访问记录获取模块,用于获取用户的网络访问记录;
[0029] 链接地址抓取模块,用于根据所述网络访问记录访问网络页面,获取所述网络页 面中的链接地址;
[0030] 网站域名地址获取模块,用于从所述链接地址中,获取网站域名地址;
[0031] 网站行业相关度计算模块,用于根据所述网站域名地址对应的网站中出现的行业 词汇数,计算所述网站的网站行业相关度;
[0032]网站库整理模块,用于根据所述网站行业相关度,整理网站。
[0033]优选地,所述行业网站的发现整理装置还包括:
[0034] 行业类别信息获取模块,用于获取行业类别信息,所述行业类别信息为包括电力、 航天、能源以及医学的一个或多个的类别信息;
[0035] 行业词汇获取模块,用于根据所述行业类别信息,获得相应行业的行业词汇。
[0036] 优选地,所述网站行业相关度计算模块包括:
[0037] 标题行业词汇数确定模块,用于对比网站域名地址对应网站的标题与行业词汇, 确定标题行业词汇数;
[0038] 网页内容行业词汇数确定模块,用于对比网站域名地址对应网站的网页内容与行 业词汇,确定网页内容行业词汇数;
[0039] 网站行业相关度获得模块,用于通过所述标题行业词汇数和所述网页内容行业词 汇数,计算获得网站行业相关度。
[0040] 优选地,所述网站行业相关度获得模块包括:
[0041 ]标题权重系数预设模块,用于预设标题权重系数;
[0042]网站行业相关度加权模块,用于根据所述标题权重系数、标题行业词汇数以及网 页内容行业词汇数,加权计算获得网站行业相关度。
[0043]优选地,所述网站库整理模块包括:
[0044] 网站行业相关度预设模块,用于预设网站行业相关度阈值;
[0045] 网站行业相关度判断模块,用于判断所述网站行业相关度是否大于所述网站行业 相关度阈值;
[0046] 网站域名地址判断模块,用于判断所述网站域名地址是否存在于行业网站库中;
[0047]行业网站入库模块,用于如果所述网站行业相关度大于所述网站行业相关度阈 值,且所述网站域名地址不存在于所述行业网站库中,将所述网站域名地址整理加入到行 业网站库。
[0048]由以上技术方案可见,本发明实施例提供的一种行业网站的发现整理方法及装 置,通过获取用户的网络访问记录,根据所述网络访问记录访问网络页面,获取所述网络页 面中的链接地址;然后,从所述连接地址中获取网站域名地址;根据所述网站域名地址对应 的网站出现的行业词汇数,计算所述网站的网站行业相关度;最好根据所述网站行业相关 度,整理网站。通过上述方法,能够有效获得与待检索行业紧密相关的网站,用户通过整理 出的网站继续进行检索,有效防止其他无关信息的干扰,保证检索的专业度,提高检索效 率。同时,通过所述方法对网站进行整理,有效减轻了用户寻找和维护行业网站的工作量, 方便检索。
【附图说明】
[0049] 为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现 有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而 言,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0050] 图1为本发明实施例提供的一种行业网站的发现整理方法的流程示意图;
[0051] 图2为本发明实施例提供的另一种行业网站的发现整理方法的流程示意图;
[0052]图3为本发明实施例提供的一种网站行业相关度计算方法的流程示意图;
[0053]图4为本发明实施例提供的另一种网站行业相关度计算方法的流程示意图;
[0054]图5为本发明实施例提供的一种行业网站库加入方法的流程示意图;
[0055]图6为本发明实施例提供的一种行业网站的发现整理装置的结构示意图;
[0056]图7为本发明实施例提供的另一种行业网站的发现整理装置的结构示意图;
[0057] 图8为本发明实施例提供的一种网站行业相关度计算模块的结构示意图;
[0058] 图9为本发明实施例提供的另一种网站行业相关度计算模块的结构示意图;
[0059]图10为本发明实施例提供的一种网站库整理模块的结构示意图。
【具体实施方式】
[0060] 为了使本技术领域的人员更好地理解本发明中的技术方案,下面将结合本发明实 施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施 例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通 技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护 的范围。
[0061] 技术创新主要分为三种模式:自主创新、模仿创新和合作创新。目前,电网企业技 术创新以模仿创新为主将新技术、新方法与当前电网生产实践相结合。模仿创新是指在率 先创新