一种行业网站的发现整理方法及装置的制造方法_2

文档序号:9887752阅读:来源:国知局
的示范影响和利益诱导之下,创新主体通过合法方式引进创新成果,并在此基础上 进行改进的一种创新形式。模仿创新过程中前沿新技术、新方法收集及其电网生产实践的 结合可抽象为固有模式;在新技术、新方法的收集过程中,用户一般借助搜索引擎,在搜索 引擎中查询整个Intel网内的网站以获得相应的检索结果,而网站作为技术信息的提供者 是决定收集效率的重要因素。
[0062]参见图1,为本发明实施例提供的一种行业网站的发现整理方法的流程示意图,所 述行业网站的发现整理方法包括以下步骤:
[0063] 步骤S101:获取用户的网络访问记录。
[0064] 所述网络访问记录为系统中记录的用户的网络访问记录,或者用户授权许可访问 的浏览器、操作系统等记录的用户的网络访问记录;所述网络访问记录还包括用户在商用 的搜索引擎如百度、谷歌等,输入查询内容获得的网络检索记录。所述网络访问记录包括网 络页面的URL地址信息、网络页面的标题和页面内容索引等信息。
[0065] 步骤S102:根据所述网络访问记录访问网络页面,获取所述网络页面中的链接地 址。
[0066] 通过所述网络访问记录中的URL地址信息,访问网络页面;所述网络页面为HTML (Hyper Text Markup Language,超文本标记语言)格式的网络页面,通过对HTML网络页面 的解析;网页页面中一般包括多个次级链接地址,以及相关链接地址,从所述网络页面中提 取出所有上述链接地址;根据所述链接地址,继续深入访问与所述链接地址对应的网络页 面,从网络页面中继续提取其中的链接地址,直至一个网络页面中不包含链接地址为止。当 然,在具体实施时,为了保证链接地址提取效率,可以设置抓取深度,所述抓取深度可以理 解为从开始抓取的网络页面开始计算,只抓取到固定层数的次级链接地址或相关链接地 址。如表一所示,为本发明实施例提供的一种获取到的链接地址结果。
[0067] 表一:
[0068]
L〇〇69」步骤S103:从所述链接地址中,获取N站域名地址。
[0070] 从上述步骤S102获取的链接地址中包括协议头、网站域名以及网站域名之后的网 站路径信息,所述网站路径信息为网站的二级链接,而所述协议头和所述网站域名的组合 就能唯一确定网站,因此只需获得所述网站域名之前的部分即可,所述网站域名地址可以 理解为由协议头和网站域名构成的地址。在具体实施时,获取网站域名地址的方法包括:根 据域名后缀确定网站域名地址截取位置,所述域名后缀为"com"、"cn"、"net"、"org"等后 缀,并确定域名后缀对应位置为网站域名地址截取位置;在所述网站域名地址截取位置截 取所述链接地址,从而获取网站域名地址。在实际应用时,例如对于表一所示的第一链接地 址,确定域名后缀"com"对应位置为截取位置,将"com"之后的内容删掉从而获得相应的第 一网站域名地址为"https: //www. baidu. com" ;同样,可以对表一中的其他链接地址按照上 述步骤进行处理,从而获得相应的第二网站域名地址、第三网站域名地址、第四网站域名地 址以及第五网站域名地址,如表二所示,为本发明实施例提供的一种网站域名地址结果。
[0071] 表二: 「00721
[0073] ~优选地,在获取到所述网站域名地址之后,还包括去除重复网站域名地址,在表二-所示的结果中,第一网站域名地址、第二网站域名地址和第三网站域名地址重复,第四网站 域名地址和第五网站域名地址重,将重复的网站域名地址删除;具体地删除过程包括:根据 "WWW"万维网标识以及网站域名后缀,从网站域名地址中提取所述万维网标识与所述网站 域名后缀之间的字符串;比对所述字符串是否相等,如果相等,则认为所述网站域名地址重 复,将重复的网站域名地址删除,确保在网站域名地址结果中只保留一条网站域名地址,例 如在本发明实施例中去除第二网站域名地址、第三网站域名地址以及第五网站域名地址。
[0074] 步骤S104:根据所述网站域名地址对应的网站中出现的行业词汇数,计算所述网 站的网站行业相关度。
[0075] 在利用搜素引擎检索的过程中,用户往往会检索出大量与行业无关的网站,导致 检索效率低下;为了提高检索的专业性,提高检索效率,本发明实施例对步骤S103确定的网 站域名地址对应的网站进行网站行业相关度的计算,通过所述网站行业相关度筛选出与行 业紧密相关的网站。
[0076]由于用户的行业领域不同,在图1所示的行业网站的发现整理方法的基础上,在计 算所述网站行业相关度之前,本发明实施例还包括如图2所述的步骤;参见图2,为本发明实 施例提供的另一种行业网站的发现整理方法的流程示意图,该方法包括:
[0077]步骤S201:获取行业类别信息,所述行业类别信息为包括电力、航天、能源以及医 学的一个或多个行业的类别信息。
[0078]用户的行业领域包括但不限于电力、航天、能源以及医学领域;因此,所述行业类 别信息标识用户的行业领域,在具体使用过程中,例如用户的行业领域为电力,且用户需要 整理电力领域的网站,则可以设定所述行业类别信息为电力;为了提高网站整理效率,用户 可以同时整理多个行业领域的网站,例如如果用户需要同时整理航天和能源领域的网站, 则可以设定所述行业类别信息为航天+能源。
[0079]步骤S202:根据所述行业类别信息,获得相应行业的行业词汇。
[0080] 每个行业均对应各自的行业词汇,例如电力行业对应电力行业词汇"电力"、"高 压"、"断路器"等,航天行业对应航天行业词汇"推进器"、"遥感"等。所述行业词汇可以组织 为行业词汇库,例如电力行业词汇库、航天行业词汇库、能源行业词汇库和医学行业词汇库 等;根据步骤S201确定的行业类别信息,选择需要加载的行业词汇库,例如如果行业类别信 息为电力,则加载电力行业词汇库;如果行业类别信息为航天+能源,则加载航天行业词汇 库和能源行业词汇库。
[0081] 参见图3,为本发明实施例提供的一种网站行业相关度计算方法的流程示意图,所 述计算方法包括:
[0082] 步骤S1041:对比网站域名地址对应网站的标题与行业词汇,确定标题行业词汇 数。
[0083] 根据步骤S103确定的网站域名地址,所述网站域名地址对应有相应的网站标题; 例如 "https: //www. baidu. com" 对应的网站标题为百度,"http: //www. b jX. com. cn" 对应的 网站标题为北极星电力网;将所述网站标题进行分词,以及过滤"一种"、"的"等无意义词; 比对分词、过滤处理后的网站标题与行业词汇,例如在具体实施时,用户需要整理电力行业 网站,则比对网站标题与电力行业词汇,统计标题中出现电力行业词汇的数目,从而确定标 题行业词汇。在本发明实施例中,网站"https: //www. baidu. com"的标题中包括电力行业词 汇数为0,因此确定标题行业词汇数为0;网站"http: //www. b jx. com. cn"的标题中包括电力 行业词汇"电力",因此确定标题行业词汇数为1。
[0084] 步骤S1042:对比网站域名地址对应网站的网页内容与行业词汇,确定网页内容行 业词汇数。
[0085]在具体实施时,用户检索电力相关技术信息,从而确定所述行业词汇为电力行业 词汇,获取网页内容行业词汇数的过程与步骤S1041的过程类似,具体地对网站"https:// WWW .baidu.com"的网页内容进行分词、过滤无意义词,比对电力行业词汇,上述网站中不包 括电力行业词汇,因此确定网页内容词汇数为〇;而在网站"http: //www. b jx. com. cn"的网 页内容中,包括"火力发电"、"风力发电"、"光伏太阳能"等10个电力行业词汇,从而确定网 页内容词汇数为10。
[0086] 步骤S1043:通过所述标题行业词汇数和所述网页内容行业词汇数,计算获得网站 行业相关度。
[0087]所述网站行业相关度的计算公式如下所示:
[0088]网站行业相关度=标题行业词汇数· 3+网页内容行业词汇数
[0089] 根据上述公式计算各网站对应的网站行业相关度,如表三所示,为本发明实施例 提供的网站行业相关度的计算结果。网站"https: //www.baidu. com"对应的标题行业词汇 数为〇、网页内容行业词汇数为〇,计算获得的网站行业相关度为〇;网站"http:// WWW. bjx. com. cn"对应的标题行业词汇数为1、网页内容行业词汇数为10,计算获得网站行
当前第2页1 2 3 4 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1