件部件,而对其内包括的用于实现各种功能的装置也可以视为硬件部件内的结构。或者甚至,可以将用于实现各种功能的装置视为既可以是实现方法的软件模块又可以是硬件部件内的结构。
[0170]上述实施例阐明的系统、装置、模块或单元,具体可以由计算机芯片或实体实现,或者由具有某种功能的产品来实现。
[0171]为了描述的方便,描述以上装置时以功能分为各种单元分别描述。当然,在实施本申请时可以把各单元的功能在同一个或多个软件和/或硬件中实现。
[0172]通过以上的实施方式的描述可知,本领域的技术人员可以清楚地了解到本申请可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如R0M/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例或者实施例的某些部分所述的方法。
[0173]本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
[0174]本申请可用于众多通用或专用的计算机系统环境或配置中。例如:个人计算机、月艮务器计算机、手持设备或便携式设备、平板型设备、多处理器系统、基于微处理器的系统、置顶盒、可编程的消费电子设备、网络PC、小型计算机、大型计算机、包括以上任何系统或设备的分布式计算环境等等。
[0175]本申请可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本申请,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
[0176]虽然通过实施例描绘了本申请,本领域普通技术人员知道,本申请有许多变形和变化而不脱离本申请的精神,希望所附的权利要求包括这些变形和变化而不脱离本申请的精神。
【主权项】
1.一种测试网络爬虫的方法,其特征在于,包括: 第一服务器配置预设数量的顶级域名,并将所述顶级域名设置为指向第二服务器的IP地址; 网络爬虫服务器读取所述顶级域名并根据所述顶级域名扩展出海量域名; 网络爬虫服务器将存储的DNS服务器地址设置为所述第一服务器的地址; 网络爬虫服务器遍历所述海量域名,并针对每个域名向第一服务器发起所述域名到第二服务器IP地址的转换请求; 网络爬虫服务器接收第一服务器发来的根据所述域名转换的第二服务器IP地址,并根据所述第二服务器的IP地址对第二服务器发起抓取请求; 第二服务器选取网站,并将所述网站提供给网络爬虫服务器抓取。2.一种测试网络爬虫的方法,其特征在于,包括: 网络爬虫服务器建立海量域名,并将所述海量域名设置为指向第二服务器的IP地址; 网络爬虫服务器遍历所述海量域名,并针对每个域名对第二服务器发起抓取请求; 第二服务器选取网站,并将所述网站提供给网络爬虫服务器抓取。3.如权利要求1或2所述的一种测试网络爬虫的方法,其特征在于,所述第二服务器选取网站,并将所述网站提供给网络爬虫服务器抓取具体包括: 第二服务器选取预先建立的网站模板并对所述选取的网站模板填充内容后提供给网络爬虫服务器抓取。4.如权利要求3所述的一种测试网络爬虫的方法,其特征在于,所述第二服务器选取预先建立的网站模板并对所述选取的网站模板填充内容后提供给网络爬虫服务器抓取具体包括: 第二服务器在预先建立的至少两套网站模板中按预设条件调用其中的一套网站模板; 第二服务器将所述调用的网站模板填充内容后提供给网络爬虫服务器抓取。5.如权利要求1或2所述的一种测试网络爬虫的方法,其特征在于,所述第二服务器选取网站,并将所述网站提供给网络爬虫服务器抓取具体包括: 第二服务器在预先建立的海量网站中按预设条件调用其中的一套网站,并将所述调用的网站提供给网络爬虫服务器抓取。6.一种测试网络爬虫的方法,其特征在于,包括: 网络爬虫服务器读取由第一服务器配置的预设数量的顶级域名并根据所述顶级域名扩展出海量域名; 网络爬虫服务器将存储的DNS服务器地址设置为所述第一服务器的地址; 网络爬虫服务器遍历所述海量域名,并针对每个域名向第一服务器发起所述域名到第二服务器IP地址的转换请求; 网络爬虫服务器接收第一服务器发来的根据所述域名转换的第二服务器IP地址,并根据所述第二服务器的IP地址对第二服务器发起抓取请求; 网络爬虫服务器对第二服务器选取的网站进行抓取。7.一种测试网络爬虫的方法,其特征在于,包括: 网络爬虫服务器建立海量域名,并将所述海量域名设置为指向第二服务器的IP地址; 网络爬虫服务器遍历所述海量域名,并针对每个域名对第二服务器发起抓取请求; 网络爬虫服务器对第二服务器选取的网站进行抓取。8.一种测试网络爬虫的方法,其特征在于,包括: 第二服务器接收网络爬虫服务器发来的网站抓取请求; 第二服务器选取预先建立的网站模板并对所述选取的网站模板填充内容后提供给网络爬虫服务器抓取。9.如权利要求8所述的一种测试网络爬虫的方法,其特征在于,所述第二服务器选取预先建立的网站模板并对所述选取的网站模板填充内容后提供给网络爬虫服务器抓取具体包括: 第二服务器在预先建立的至少两套网站模板中按预设条件调用其中的一套网站模板; 第二服务器将所述调用的网站模板填充内容后提供给网络爬虫服务器抓取。10.一种测试网络爬虫的方法,其特征在于,包括: 第二服务器接收网络爬虫服务器发来的网站抓取请求; 第二服务器在预先建立的海量网站中按预设条件调用其中的一套网站,并将所述调用的网站提供给网络爬虫服务器抓取。11.一种测试网络爬虫的系统,其特征在于,包括第一服务器,网络爬虫服务器,第二服务器,其中: 所述第一服务器,用来配置预设数量的顶级域名,并将所述顶级域名设置为指向第二服务器的IP地址; 所述网络爬虫服务器,用来读取所述顶级域名并根据所述顶级域名扩展出海量域名,将存储的DNS服务器地址设置为所述第一服务器的地址,遍历所述海量域名,并针对每个域名通过第一服务器获取第二服务器的IP地址,根据所述第二服务器的IP地址对第二服务器发起网站抓取请求; 所述第二服务器,用来选取网站,并将所述网站提供给网络爬虫服务器抓取。12.—种测试网络爬虫的系统,其特征在于,包括网络爬虫服务器,第二服务器,其中: 所述网络爬虫服务器,用来建立海量域名,将所述海量域名设置为指向第二服务器的IP地址,遍历所述海量域名,并针对每个域名对第二服务器发起抓取请求; 所述第二服务器,用来选取网站,并将所述网站提供给网络爬虫服务器抓取。13.如权利要求11所述的一种测试网络爬虫的系统,其特征在于,所述第一服务器具体包括: 顶级域名配置模块,用来配置预设数量的顶级域名; 顶级域名指向模块,用来将所述顶级域名设置为指向第二服务器的IP地址。14.如权利要求11所述的一种测试网络爬虫的系统,其特征在于,所述网络爬虫服务器具体包括: 海量域名配置模块,用来读取所述顶级域名并根据所述顶级域名扩展出海量域名; DNS服务器设置模块,用来将存储的DNS服务器地址设置为所述第一服务器的地址; IP地址获取模块,用来针对每个所述海量域名,通过第一服务器获取第二服务器的IP地址; 抓取请求发起模块,用来根据所述第二服务器的IP地址对第二服务器发起网站抓取请求。15.如权利要求12所述的一种测试网络爬虫的系统,其特征在于,所述网络爬虫服务器具体包括: 海量域名建立模块,用来建立海量域名; 海量域名指向模块,用来将所述海量域名设置为指向第二服务器的IP地址; 抓取请求发起模块,用来针对每个所述海量域名,对第二服务器发起抓取请求。16.如权利要求11或12所述的一种测试网络爬虫的系统,其特征在于,所述第二服务器具体包括: 网站模板建立模块,用来预先建立一套网站模板; 内容填充模块,用来对所述网站模板填充内容; 网站提供模块,用来将填充内容后的网站提供给网络爬虫服务器抓取。17.如权利要求11或12所述的一种测试网络爬虫的系统,其特征在于,所述第二服务器具体包括: 网站模板建立模块,用来预先建立至少两套网站模板; 网站模板调用模块,用来按照预设条件调用所述网站模板中的一套网站模板; 内容填充模块,用来对所述调用的网站模板填充内容; 网站提供模块,用来将填充内容后的网站提供给网络爬虫服务器抓取。18.如权利要求11或12所述的一种测试网络爬虫的系统,其特征在于,所述第二服务器具体包括: 网站建立模块,用来预先建立海量网站; 网站调用模块,用来按照预设条件调用所述海量网站中的一套网站; 网站提供模块,用来将所述调用的网站提供给网络爬虫服务器抓取。
【专利摘要】本申请实施例公开了一种测试网络爬虫的方法及系统,所述方法包括:第一服务器配置预设数量的顶级域名,并将所述顶级域名设置为指向第二服务器的IP地址;网络爬虫服务器读取所述顶级域名并根据所述顶级域名扩展出海量域名;网络爬虫服务器遍历所述海量域名,并针对每个域名向第二服务器发起抓取请求;第二服务器选取网站,并将所述网站提供给网络爬虫服务器抓取。本申请实施例公开的测试网络爬虫的方法及系统,可以在不对真实网站形成打扰的情况下,检测网络爬虫抓取海量网站页面时的工作性能。
【IPC分类】H04L12/26
【公开号】CN105656707
【申请号】
【发明人】王辉
【申请人】阿里巴巴集团控股有限公司
【公开日】2016年6月8日
【申请日】2014年11月18日