一种行业网站的发现整理方法及装置的制造方法_4

文档序号:9887752阅读:来源:国知局
重系数;
[0128] 网站行业相关度加权模块145,用于根据所述标题权重系数、标题行业词汇数以及 网页内容行业词汇数,加权计算获得网站行业相关度。
[0129] 参见图10,为本发明实施例提供的一种网站库整理模块的结构示意图,所述网站 库整理模块15包括:
[0130] 网站行业相关度阈值预设模块151,用于预设网站行业相关度阈值;
[0131] 网站行业相关度判断模块152,用于判断所述网站行业相关度是否大于所述网站 行业相关度阈值;
[0132] 网站域名地址判断模块153,用于判断所述网站域名地址是否存在于行业网站库 中;
[0133] 行业网站入库模块154,用于如果所述网站行业相关度大于所述网站行业相关度 阈值,且所述网站域名地址不存在于所述行业网站库中,将所述网站域名地址整理加入到 行业网站库。
[0134] 由上述实施例可见,本发明实施例提供的行业网站的发现整理装置,通过获取用 户的网络访问记录,根据所述网络访问记录访问网络页面,获取所述网络页面中的链接地 址;然后,从所述连接地址中获取网站域名地址;根据所述网站域名地址对应的网站出现的 行业词汇数,计算所述网站的网站行业相关度;最好根据所述网站行业相关度,整理网站。 通过上述方法,能够有效获得与待检索行业紧密相关的网站,用户通过整理出的网站继续 进行检索,有效防止其他无关信息的干扰,保证检索的专业度,提高检索效率。同时,通过所 述方法对网站进行整理,有效减轻了用户寻找和维护行业网站的工作量,方便检索。
[0135] 另外,需要说明的是,本发明实施例提供的信息搜集方法及系统,以预定周期从用 户的网络访问记录中提取网站域名地址,并整理网站;其中,所述周期为本领域技术人员根 据业务需求设定周期,例如所述周期为固定周期1天即1天整理一次,或者动态周期例如设 置工作时间的整理周期为3小时,休息时间的整理周期为10小时等;当然技术人员可以随时 触发进行网站整理。
[0136] 为了描述的方便,描述以上装置时以功能分为各种单元分别描述。当然,在实施本 发明时可以把各单元的功能在同一个或多个软件和/或硬件中实现。
[0137] 本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部 分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置或 系统实施例而言,由于其基本相似于方法实施例,所以描述得比较简单,相关之处参见方法 实施例的部分说明即可。以上所描述的装置及系统实施例仅仅是示意性的,其中所述作为 分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或 者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根 据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术 人员在不付出创造性劳动的情况下,即可以理解并实施。
[0138]以上所述仅是本发明的【具体实施方式】,使本领域技术人员能够理解或实现本发 明。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的,本文中所定义的 一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明 将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一 致的最宽的范围。
【主权项】
1. 一种行业网站的发现整理方法,其特征在于,包括以下步骤: 获取用户的网络访问记录; 根据所述网络访问记录访问网络页面,获取所述网络页面中的链接地址; 从所述链接地址中,获取网站域名地址; 根据所述网站域名地址对应的网站中出现的行业词汇数,计算所述网站的网站行业相 关度; 根据所述网站行业相关度,整理网站。2. 根据权利要求1所述的行业网站的发现整理方法,其特征在于,根据所述网站域名地 址对应的网站中出现的行业词汇数,计算所述网站的网站行业相关度之前,还包括: 获取行业类别信息,所述行业类别信息为包括电力、航天、能源以及医学的一个或多个 的类别信息; 根据所述行业类别信息,获得相应行业的行业词汇。3. 根据权利要求1所述的行业网站的发现整理方法,其特征在于,所述根据所述网站域 名对应的网站中出现的行业词汇数,计算所述网站的网站行业相关度,包括: 对比网站域名地址对应网站的标题与行业词汇,确定标题行业词汇数; 对比网站域名地址对应网站的网页内容与行业词汇,确定网页内容行业词汇数; 通过所述标题行业词汇数和所述网页内容行业词汇数,计算获得网站行业相关度。4. 根据权利要求3所述的行业网站的发现整理方法,其特征在于,所述通过所述标题行 业词汇数和所述网页内容行业词汇数,计算获得网站行业相关度,还包括: 预设标题权重系数; 根据所述标题权重系数、标题行业词汇数以及网页内容行业词汇数,加权计算获得网 站行业相关度。5. 根据权利要求1所述的行业网站的发现整理方法,其特征在于,所述根据所述网站行 业相关度,整理网站,包括: 预设网站行业相关度阈值; 判断所述网站行业相关度是否大于所述网站行业相关度阈值; 判断所述网站域名地址是否存在于行业网站库中; 如果所述网站行业相关度大于所述网站行业相关度阈值,且所述网站域名地址不存在 于所述行业网站库中,将所述网站域名地址整理加入到行业网站库。6. -种行业网站的发现整理装置,其特征在于,包括: 网络访问记录获取模块,用于获取用户的网络访问记录; 链接地址抓取模块,用于根据所述网络访问记录访问网络页面,获取所述网络页面中 的链接地址; 网站域名地址获取模块,用于从所述链接地址中,获取网站域名地址; 网站行业相关度计算模块,用于根据所述网站域名地址对应的网站中出现的行业词汇 数,计算所述网站的网站行业相关度; 网站库整理模块,用于根据所述网站行业相关度,整理网站。7. 根据权利要求6所述的行业网站的发现整理装置,其特征在于,所述行业网站的发现 整理装置还包括: 行业类别信息获取模块,用于获取行业类别信息,所述行业类别信息为包括电力、航 天、能源以及医学的一个或多个的类别信息; 行业词汇获取模块,用于根据所述行业类别信息,获得相应行业的行业词汇。8. 根据权利要求6所述的行业网站的发现整理装置,其特征在于,所述网站行业相关度 计算模块包括: 标题行业词汇数确定模块,用于对比网站域名地址对应网站的标题与行业词汇,确定 标题行业词汇数; 网页内容行业词汇数确定模块,用于对比网站域名地址对应网站的网页内容与行业词 汇,确定网页内容行业词汇数; 网站行业相关度获得模块,用于通过所述标题行业词汇数和所述网页内容行业词汇 数,计算获得网站行业相关度。9. 根据权利要求8所述的行业网站的发现整理装置,其特征在于,所述网站行业相关度 获得模块包括: 标题权重系数预设模块,用于预设标题权重系数; 网站行业相关度加权模块,用于根据所述标题权重系数、标题行业词汇数以及网页内 容行业词汇数,加权计算获得网站行业相关度。10. 根据权利要求6所述的行业网站的发现整理装置,其特征在于,所述网站库整理模 块包括: 网站行业相关度阈值预设模块,用于预设网站行业相关度阈值; 网站行业相关度判断模块,用于判断所述网站行业相关度是否大于所述网站行业相关 度阈值; 网站域名地址判断模块,用于判断所述网站域名地址是否存在于行业网站库中; 行业网站入库模块,用于如果所述网站行业相关度大于所述网站行业相关度阈值,且 所述网站域名地址不存在于所述行业网站库中,将所述网站域名地址整理加入到行业网站 库。
【专利摘要】本发明实施例公开了一种行业网站的发现整理方法及装置,通过获取用户的网络访问记录,根据所述网络访问记录访问网络页面,获取所述网络页面中的链接地址;然后,从所述连接地址中获取网站域名地址;根据所述网站域名地址对应的网站出现的行业词汇数,计算所述网站的网站行业相关度;最后根据所述网站行业相关度,整理网站。通过上述方法,能够有效获得与待检索行业紧密相关的网站,用户通过整理出的网站继续进行检索,有效防止其他无关信息的干扰,保证检索的专业度,提高检索效率。同时,通过所述方法对网站进行整理,有效减轻了用户寻找和维护行业网站的工作量,方便检索。
【IPC分类】G06F17/30
【公开号】CN105653651
【申请号】
【发明人】闫永梅, 张林山, 潘侃, 常亚东, 李月梅, 毛天, 马瑞, 高吉明, 刘增传, 刘世泽
【申请人】云南电网有限责任公司电力科学研究院, 昆明能讯科技有限责任公司
【公开日】2016年6月8日
【申请日】2015年12月29日
当前第4页1 2 3 4 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1