一种测试网络爬虫的方法及系统的利记博彩app

文档序号：9891250阅读：361来源：国知局

一种测试网络爬虫的方法及系统的利记博彩app
【技术领域】
[0001]本申请涉及互联网搜索引擎技术领域，特别涉及一种测试网络爬虫的方法及系统。
【背景技术】
[0002]随着互联网信息爆炸式的增长，搜索引擎扮演着越来越重要的角色。搜索引擎技术中，网络爬虫是重要的组成部分。网络爬虫可以按照一定的规则，自动地抓取页面信息。
[0003]网络爬虫工作的基本步骤包括:将需要抓取的URL (Uniform Resource Locator,统一资源定位符)放入待抓取队列；从待抓取队列中取出一个URL ;从所述URL指向的网站上抓取相关页面信息；将抓取到的页面信息保存至页面库中；将已经抓取完的URL放入已抓取URL队列。一些网络爬虫每天需要抓取数万甚至百万、千万级别的网站，其抓取的页面数量更是可以达到亿级。为了检测网络爬虫在抓取海量网站页面时的工作性能，需要对其进行测试。
[0004]现有技术在测试网络爬虫工作性能时，会准备少量的测试网站提交给网络爬虫抓取；也可以直接提供大量的真实网站给网络爬虫进行抓取。
[0005]在实现本申请过程中，发明人发现现有技术至少存在如下问题:
[0006]上述现有技术的测试网络爬虫工作性能的方法，若只通过对少量的测试网站进行抓取测试，由于网络爬虫测试抓取少量测试网站时负荷较低，检测到的性能仅能代表低负荷时的性能，即无法代表网络爬虫在处理海量网站时处于较高负荷状态下的工作性能；若使用大量的真实网站进行测试，那么将对这些真实网站形成打扰，可能会被真实网站屏蔽访问。

【发明内容】

[0007]本申请提供一种测试网络爬虫的方法及系统，目的在于不对真实网站形成打扰前提下，检测网络爬虫抓取海量网站页面时的工作性能。
[0008]为解决上述技术问题，本申请实施例提供的一种测试网络爬虫的方法及系统是这样实现的:
[0009]一种测试网络爬虫的方法，包括:
[0010]第一服务器配置预设数量的顶级域名，并将所述顶级域名设置为指向第二服务器的IP地址；
[0011]网络爬虫服务器读取所述顶级域名并根据所述顶级域名扩展出海量域名；
[0012]网络爬虫服务器将存储的DNS服务器地址设置为所述第一服务器的地址；
[0013]网络爬虫服务器遍历所述海量域名，并针对每个域名向第一服务器发起所述域名到第二服务器IP地址的转换请求；
[0014]网络爬虫服务器接收第一服务器发来的根据所述域名转换的第二服务器IP地址，并根据所述第二服务器的IP地址对第二服务器发起抓取请求；
[0015]第二服务器选取网站，并将所述网站提供给网络爬虫服务器抓取。
[0016]一种测试网络爬虫的方法，包括:
[0017]网络爬虫服务器建立海量域名，并将所述海量域名设置为指向第二服务器的IP地址；
[0018]网络爬虫服务器遍历所述海量域名，并针对每个域名对第二服务器发起抓取请求；
[0019]第二服务器选取网站，并将所述网站提供给网络爬虫服务器抓取。
[0020]一种测试网络爬虫的方法，包括:
[0021]网络爬虫服务器读取由第一服务器配置的预设数量的顶级域名并根据所述顶级域名扩展出海量域名；
[0022]网络爬虫服务器将存储的DNS服务器地址设置为所述第一服务器的地址；
[0023]网络爬虫服务器遍历所述海量域名，并针对每个域名向第一服务器发起所述域名到第二服务器IP地址的转换请求；
[0024]网络爬虫服务器接收第一服务器发来的根据所述域名转换的第二服务器IP地址，并根据所述第二服务器的IP地址对第二服务器发起抓取请求；
[0025]网络爬虫服务器对第二服务器选取的网站进行抓取。
[0026]一种测试网络爬虫的方法，包括:
[0027]网络爬虫服务器建立海量域名，并将所述海量域名设置为指向第二服务器的IP地址；
[0028]网络爬虫服务器遍历所述海量域名，并针对每个域名对第二服务器发起抓取请求；
[0029]网络爬虫服务器对第二服务器选取的网站进行抓取。
[0030]一种测试网络爬虫的方法，包括:
[0031]第二服务器接收网络爬虫服务器发来的网站抓取请求；
[0032]第二服务器选取预先建立的网站模板并对所述选取的网站模板填充内容后提供给网络爬虫服务器抓取。
[0033]一种测试网络爬虫的方法，包括:
[0034]第二服务器接收网络爬虫服务器发来的网站抓取请求；
[0035]第二服务器在预先建立的海量网站中按预设条件调用其中的一套网站，并将所述调用的网站提供给网络爬虫服务器抓取。
[0036]一种测试网络爬虫的系统，包括第一服务器，网络爬虫服务器，第二服务器，其中:
[0037]所述第一服务器，用来配置预设数量的顶级域名，并将所述顶级域名设置为指向第二服务器的IP地址；
[0038]所述网络爬虫服务器，用来读取所述顶级域名并根据所述顶级域名扩展出海量域名，将存储的DNS服务器地址设置为所述第一服务器的地址，遍历所述海量域名，并针对每个域名通过第一服务器获取第二服务器的IP地址，根据所述第二服务器的IP地址对第二服务器发起网站抓取请求；
[0039]所述第二服务器，用来选取网站，并将所述网站提供给网络爬虫服务器抓取。
[0040]一种测试网络爬虫的系统，包括第一服务器，网络爬虫服务器，第二服务器，其中:
[0041]所述网络爬虫服务器，用来建立海量域名，将所述海量域名设置为指向第二服务器的IP地址，遍历所述海量域名，并针对每个域名对第二服务器发起抓取请求；
[0042]所述第二服务器，用来选取网站，并将所述网站提供给网络爬虫服务器抓取。
[0043]本申请实施例的技术方案模拟出海量的网站提供给网络爬虫进行功能测试，能够在不对真实网站形成打扰的情况下，检测网络爬虫抓取海量网站页面时的工作性能。
【附图说明】
[0044]为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请中记载的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。
[0045]图1是本申请测试网络爬虫方法一个实施例的流程图；
[0046]图2是本申请以网络爬虫服务器为主体的测试网络爬虫的方法的一个实施例的流程图；
[0047]图3是本申请以网络爬虫服务器为主体的测试网络爬虫的方法的另一实施例的流程图；
[0048]图4是本申请以第二服务器为主体的测试网络爬虫的方法的一个实施例的流程图；
[0049]图5是本申请以第二服务器为主体的测试网络爬虫的方法的另一实施例的流程图；
[0050]图6是本申请以第二服务器为主体的测试网络爬虫的方法的另一实施例的流程图；
[0051]图7是本申请一种测试网络爬虫的系统第一实施例的功能模块图；
[0052]图8是本申请一种测试网络爬虫的系统第一实施例中第一服务器的功能模块图；
[0053]图9是本申请一种测试网络爬虫的系统第一实施例中网络爬虫服务器的功能模块图；
[0054]图10是本申请一种测试网络爬虫的系统第二实施例的功能模块图；
[0055]图11是本申请一种测试网络爬虫的系统第二实施例中网络爬虫服务器的功能模块图；
[0056]图12是本申请一种测试网络爬虫的系统中第二服务器第一实现方式的功能模块图；
[0057]图13是本申请一种测试网络爬虫的系统中第二服务器第二实现方式的功能模块图；
[0058]图14是本申请一种测试网络爬虫的系统中第二服务器第三实现方式的功能模块图。
【具体实施方式】
[0059]本申请实施例提供一种测试网络爬虫的方法及系统。
[0060]为了使本技术领域的人员更好地理解本申请中的技术方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本申请保护的范围。
[0061]图1是本申请测试网络爬虫方法一个实施例的流程图。如图1所示，测试网络爬虫的方法可以包括以下步骤:
[0062]S1:第一服务器配置预设数量的顶级域名，并将所述顶级域名设置为指向第二服务器的IP地址。
[0063]第一服务器可以配置预设数量的顶级域名与IP地址的映射关系。例如，第一服务器可以以test-1000, com和test-1001, com作为顶级域名，并且建立test-1000, com和test-1001, com到第二服务器IP地址的映射关系。进一步地，假设第二服务器的IP地址为10.125.227.1，那么第一服务器就可以建立test-1000, com和test-1001, com到
10.125.227.1的映射关系，例如:
[0064]address = /.test-1000, com/10.125.227.1
[0065]address = /.test-1001, com/10.125.227.1
[0066]这样，只要以test-1000, com或test-1001, com作为顶级域名的子域名均可以指向第二服务器的 IP 地址 10.125.227.1。例如，www.test-1000, com, tl.test-1001, com,t

完整全部详细技术资料下载

当前第1页1 2 3 4

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：王辉;
技术所有人：阿里巴巴集团控股有限公司;
我是此专利的发明人

上一篇：单板测试方法及装置的制造方法
上一篇：业务数据的处理方法及设备的制造方法