网页内容的抓取方法及装置、电子设备的制造方法

文档序号:8223562阅读:222来源:国知局
网页内容的抓取方法及装置、电子设备的制造方法
【技术领域】
[0001]本公开涉及互联网技术领域,尤其涉及网页内容的抓取方法及装置、电子设备。
【背景技术】
[0002]爬虫(spider/crawler)是搜索引擎的重要组成部分,用于自动抓取网页内容。爬虫包括爬虫引擎和抓取处理组件。其中,爬虫引擎是通用的,用于实现调度和下载等功能,并驱动抓取处理组件完成抓取操作;而抓取处理组件则需要针对每一网页进行单独生成,用于实现网页分析、抓取内容入库等功能。

【发明内容】

[0003]本公开提供网页内容的抓取方法及装置、电子设备,以解决相关技术中的不足。
[0004]根据本公开实施例的第一方面,提供一种网页内容的抓取方法,包括:
[0005]获取对应于当前目标网页的抓取处理组件的内容,并将所述抓取处理组件的内容展示于终端屏幕上的第一显示区域;
[0006]调取第一服务器中预存储的爬虫引擎,并由所述爬虫引擎驱动所述抓取处理组件来抓取所述当前目标网页的内容;
[0007]接收所述第一服务器的返回数据并展示于所述终端屏幕上的第二显示区域,其中所述返回数据包括:对所述当前目标网页的内容抓取结果的信息。
[0008]可选的,所述获取对应于当前目标网页的抓取处理组件的内容,包括:
[0009]读取存储于本地的所述抓取处理组件的内容;
[0010]或者,向存储所述抓取处理组件的第二服务器发起访问请求,并接收所述第二服务器返回的所述抓取处理组件的内容。
[0011]可选的,还包括:
[0012]根据所述第一显示区域内检测到的用户操作,对所述抓取处理组件进行编辑处理。
[0013]可选的,所述第一显示区域采用WebDAV协议实现所述编辑处理。
[0014]可选的,还包括:
[0015]提取所述返回数据中包含的对应于所述当前目标网页的已抓取内容;
[0016]将所述已抓取内容存储至数据库。
[0017]根据本公开实施例的第二方面,提供一种网页内容的抓取装置,包括:
[0018]组件展示单元,用于获取对应于当前目标网页的抓取处理组件的内容,并将所述抓取处理组件的内容展示于终端屏幕上的第一显示区域;
[0019]引擎调取单元,用于调取第一服务器中预存储的爬虫引擎,并由所述爬虫引擎驱动所述抓取处理组件来抓取所述当前目标网页的内容;
[0020]数据展示单元,用于接收所述第一服务器的返回数据并展示于所述终端屏幕上的第二显示区域,其中所述返回数据包括:对所述当前目标网页的内容抓取结果的信息。
[0021]可选的,所述组件展示单元包括本地读取子单元或内容请求子单元,其中:
[0022]所述本地读取子单元,用于读取存储于本地的所述抓取处理组件的内容;
[0023]所述内容请求子单元,用于向存储所述抓取处理组件的第二服务器发起访问请求,并接收所述第二服务器返回的所述抓取处理组件的内容。
[0024]可选的,还包括:
[0025]组件编辑单元,用于根据所述第一显示区域内检测到的用户操作,对所述抓取处理组件进行编辑处理。
[0026]可选的,所述第一显示区域采用WebDAV协议实现所述编辑处理。
[0027]可选的,还包括:
[0028]内容提取单元,用于提取所述返回数据中包含的对应于所述当前目标网页的已抓取内容;
[0029]内容存储单元,用于将所述已抓取内容存储至数据库。
[0030]根据本公开实施例的第三方面,提供一种电子设备,包括:
[0031]处理器;
[0032]用于存储处理器可执行指令的存储器;
[0033]其中,所述处理器被配置为:
[0034]获取对应于当前目标网页的抓取处理组件的内容,并将所述抓取处理组件的内容展示于终端屏幕上的第一显示区域;
[0035]调取第一服务器中预存储的爬虫引擎,并由所述爬虫引擎驱动所述抓取处理组件来抓取所述当前目标网页的内容;
[0036]接收所述第一服务器的返回数据并展示于所述终端屏幕上的第二显示区域,其中所述返回数据包括:对所述当前目标网页的内容抓取结果的信息。
[0037]本公开的实施例提供的技术方案可以包括以下有益效果:
[0038]本公开通过在终端屏幕上生成第一显示区域和第二显示区域,分别用于展示抓取处理组件的内容以及内容抓取结果的信息,使得针对当前目标网页进行抓取时,能够实时查看抓取状况,并对抓取处理组件进行实时调整,确保抓取结果满足用户需求。
[0039]应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
【附图说明】
[0040]此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。
[0041]图1是根据一示例性实施例示出的一种网页内容的抓取方法的流程图。
[0042]图2是根据一示例性实施例示出的另一种网页内容的抓取方法的流程图。
[0043]图3是根据一示例性实施例示出的屏幕界面示意图。
[0044]图4-7是根据一示例性实施例示出的一种网页内容的抓取装置的框图。
[0045]图8是根据一示例性实施例示出的一种用于网页内容的抓取的装置的结构示意图。
【具体实施方式】
[0046]这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。
[0047]图1是根据一示例性实施例示出的一种网页内容的抓取方法的流程图,如图1所示,该方法用于终端中,包括以下步骤。
[0048]在步骤102中,获取对应于当前目标网页的抓取处理组件的内容,并将所述抓取处理组件的内容展示于终端屏幕上的第一显示区域。
[0049]在本实施例中,抓取处理组件可以存储在任意位置,与爬虫引擎的存储位置无关。比如作为一示例性实施例,抓取处理组件可以存储于终端本地的存储空间,则可以直接读取存储于本地的所述抓取处理组件的内容。
[0050]或者,作为另一示例性实施例,抓取处理组件可以存储于服务器中,比如用于存储爬虫引擎的第一服务器中,或者作为另一服务器的第二服务器中;其中,当抓取处理组件存储于第二服务器中时,可以向存储所述抓取处理组件的第二服务器发起访问请求,并接收所述第二服务器返回的所述抓取处理组件的内容。
[0051]在步骤104中,调取第一服务器中预存储的爬虫引擎,并由所述爬虫引擎驱动所述抓取处理组件来抓取所述当前目标网页的内容。
[0052]在本实施例中,若抓取处理组件存储于终端本地,则需要将该抓取处理组件或其内容发送至第一服务器,以配合于爬虫引擎的内容抓取操作;若抓取处理组件存储于第二服务器,则终端可以向第一服务器发起对应的请求,使得第一服务器从第二服
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1