批量获取网页内容的方法

文档序号：6561608阅读：2431来源：国知局

专利名称：批量获取网页内容的方法
技术领域：
本发明涉及网络技术，特别涉及网页内容的获取方法。
背景技术：
目前，海量的网页内容信息(包括文字、图片等)的获取主要是通过网络爬虫技术得以实现，而由于互联网信息繁多、网页形态千变万化，传统的爬虫技术存在着抓取效率低下，网页解析难度大、内容获取准确度低等诸多问题。

发明内容
本发明目的是克服目前网络爬虫技术获取网页内容效率低下的缺点，提供一种批量获取网页内容的方法。本发明为解决上述技术问题所采用的技术方案是，批量获取网页内容的方法，其特征在于，包括以下步骤a.任务添加系统创建关系数据库；b.用户向该关系数据库输入需要访问的各网站各栏目的种子URL及其解析规则；c.在关系数据库中为需要访问的每个网页建立与其相对应的表；d.采用多线程的方式，各线程从关系数据库中获取种子URL加入到其各自的待处理任务队列中；e.网页下载系统根据各线程的待处理任务进行批量网页下载；f.网页解析系统对所下载网页进行内容分析，根据给定的网页内容解析规则提取该网页的有效信息；g.将这些有效信息填入对应的表中；h.用户根据关系数据库提供的对应网页的表读取该网页内容。具体的，步骤b所述解析规则包括是否解析链接。进一步的，步骤f包括以下步骤Π.网页解析系统对所下载网页进行内容分析，根据给定的网页内容解析规则提取该网页的有效信息，判断解析规则中是否需要解析链接，若需要解析链接且该网页具有链接则进入下一步，若不需要解析链接或该网页没有链接则进入g步骤；f2.提取各链接的URL，并将其加入到关系数据库中，并与该网页中的各链接名称相关联；f3.在关系数据库中为各链接网页建立与其相对应的表；f4.采用多线程的方式，各线程从关系数据库中获取URL加入到其各自的待处理任务队列中；f5.网页下载系统根据各线程的待处理任务进行批量网页下载；f6.网页解析系统对所下载链接网页进行内容分析，提取该网页的有效信息，进入 g步骤。
本发明的有益效果是，通过上述批量获取网页内容的方法，采用多线程的方式，根据用户输入的需要访问的各网站各栏目的种子URL及其解析规则，批量下载这些网页，再根据解析规则判断是否需要解析链接，从而在需要解析链接时，批量下载该网页上的链接网页并获取这些链接网页内容，在用户访问这些链接的时候不再需要下载，提高网页内容的获取效率，方便用户。
具体实施例方式本发明的批量获取网页内容的方法为首先任务添加系统创建关系数据库，当用户向该关系数据库输入需要访问的各网站各栏目的种子URL及其解析规则后，任务添加系统在关系数据库中为需要访问的每个网页建立与其相对应的表，再采用多线程的方式，各线程从关系数据库中获取种子URL加入到其各自的待处理任务队列中，然后网页下载系统根据各线程的待处理任务进行批量网页下载，网页解析系统再对所下载网页进行内容分析，根据给定的网页内容解析规则提取该网页的有效信息，然后将这些有效信息填入对应的表中，最后用户根据关系数据库提供的对应网页的表读取该网页内容。实施例本例的解析规则包括是否解析链接。首先任务添加系统创建关系数据库，当用户向该关系数据库输入需要访问的各网站各栏目的种子URL及其解析规则，解析规则是根据网页的结构进行手动设定的，比如新闻类的信息，待选取的因子包括标题、发布时间、来源、作者、关键词、正文、插图、插图说明等，这些因子的组合就构成了待匹配模型，解析规则用于解析待匹配模型，是一种模式匹配，以获取用户所需的数据，无关的数据会被自动过滤掉，其中，还包括是否解析链接，然后任务添加系统在关系数据库中为需要访问的每个网页建立与其相对应的表，再采用多线程的方式，各线程从关系数据库中获取种子URL加入到其各自的待处理任务队列中，然后网页下载系统根据各线程的待处理任务进行批量网页下载，网页解析系统对所下载网页进行内容分析，根据给定的网页内容解析规则提取该网页的有效信息，判断解析规则中是否需要解析链接，若需要解析链接且该网页具有链接则由网页解析系统提取各链接的URL，并通过任务添加系统将其加入到关系数据库中，并与该网页中的各链接名称相关联，再在关系数据库中为各链接网页建立与其相对应的表，然后采用多线程的方式，各线程从关系数据库中获取URL加入到其各自的待处理任务队列中，再由网页下载系统根据各线程的待处理任务进行批量网页下载，然后网页解析系统对所下载链接网页进行内容分析，提取该网页的有效信息，再将这些有效信息填入对应的表中，最后用户根据关系数据库提供的对应网页的表读取该网页内容，若不需要解析链接或该网页没有链接则直接将这些有效信息填入对应的表中，最后用户根据关系数据库提供的对应网页的表读取该网页内容。
权利要求
1.批量获取网页内容的方法，其特征在于，包括以下步骤a.任务添加系统创建关系数据库；b.用户向该关系数据库输入需要访问的各网站各栏目的种子URL及其解析规则；c.在关系数据库中为需要访问的每个网页建立与其相对应的表；d.采用多线程的方式，各线程从关系数据库中获取种子URL加入到其各自的待处理任务队列中；e.网页下载系统根据各线程的待处理任务进行批量网页下载；f.网页解析系统对所下载网页进行内容分析，根据给定的网页内容解析规则提取该网页的有效信息；g.将这些有效信息填入对应的表中；h.用户根据关系数据库提供的对应网页的表读取该网页内容。
2.根据权利要求1所述批量获取网页内容的方法，其特征在于，步骤b所述解析规则包括是否解析链接。
3.根据权利要求2所述批量获取网页内容的方法，其特征在于，步骤f包括以下步骤 fl.网页解析系统对所下载网页进行内容分析，根据给定的网页内容解析规则提取该网页的有效信息，判断解析规则中是否需要解析链接，若需要解析链接且该网页具有链接则进入下一步，若不需要解析链接或该网页没有链接则进入g步骤；f2.提取各链接的URL，并将其加入到关系数据库中，并与该网页中的各链接名称相关联；f3.在关系数据库中为各链接网页建立与其相对应的表；f4.采用多线程的方式，各线程从关系数据库中获取URL加入到其各自的待处理任务队列中；f5.网页下载系统根据各线程的待处理任务进行批量网页下载；f6.网页解析系统对所下载链接网页进行内容分析，提取该网页的有效信息，进入g步
全文摘要
本发明涉及网络技术。本发明解决了现有网络爬虫技术获取网页内容效率低下的问题，提供了一种批量获取网页内容的方法，其技术方案可概括为根据用户输入的需要访问的各网站各栏目的种子URL及其解析规则，批量下载各网页内容。本发明的有益效果是，提高网页内容的获取效率，适用于网页内容的获取。
文档编号G06F17/30GK102254027SQ20111021579
公开日2011年11月23日申请日期2011年7月29日优先权日2011年7月29日
发明者刘东, 孟庆康, 李强, 谌烜申请人:四川长虹电器股份有限公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：李强;谌烜;刘东;孟庆康
技术所有人：四川长虹电器股份有限公司
我是此专利的发明人

上一篇：处理器指令编码可重定义的方法
上一篇：基于融合思想的视频时空联合增强方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。