文档收集系统和方法

文档序号：6426776阅读：319来源：国知局

专利名称：文档收集系统和方法
技术领域：
本发明涉及一种在网站上收集文档的系统和方法，更详细地讲，涉及一种在作为搜索对象的文档中收集发生更新的文档的文档收集系统和方法。
背景技术：
一般来讲，搜索服务商利用网络机器人(web robot)在存在于互联网上的多个网站中收集文档的内容。此时，网络机器人利用随机访问方法(random access method)的爬行(crawling)技术来收集包含于文档中的内容。具体来讲，搜索服务商随机地提取种子网址(Seed URL)，基于提取的ked URL通过网络机器人收集文档。因此，与文档各自的独有 URL无关地收集文档。当以上述的方式收集文档时，存在这种问题，S卩，由于网络机器人的随机访问，网络网站发生大的负荷。另外，由于网络机器人的随机收集，搜索服务商将与搜索请求无关的文档作为搜索结果来提供。即，因没有归一化的URL和文档内容，搜索服务商难以分析文档收集结果。因此，需要避免给网络网站加重负荷的同时，能够收集正确的网络文档的系统和方法。

发明内容
本发明提供了一种通过识别信息来收集发生更新的文档，从而能够减少随机爬行引起的网站负荷的系统和方法。本发明提供了一种内容提供者将与文档的更新关联的识别信息传递给搜索商，从而在搜索结果中仅能够反映内容提供者所期望的文档的系统和方法。本发明提供了一种以XML形式收集发生更新的文档，从而标题、内容、标签(tag) 等文档的结构能够正确地反映到搜索结果的系统和方法。根据本发明的一实施例的一种文档收集系统包括识别信息接收部，从至少一个网站接收发生更新的文档的识别信息；收集请求传递部，根据所述识别信息，向所述网站传递所述文档的收集请求；以及，更新信息收集部，收集响应于所述文档的收集请求从所述网站传送的文档的更新信息。根据本发明的一实施例的一种文档收集方法包括步骤从至少一个网站接收发生更新的文档的识别信息；根据所述识别信息向所述网站传递所述文档的收集请求；收集响应于所述文档的收集请求从所述网站传送的文档的更新信息。根据本发明的一实施例，通过识别信息来收集发生更新的文档，所以能够减少随机爬行引起的网站的负荷。根据本发明的一实施例，内容提供者将与文档的更新关联的识别信息传递给搜索商，所以仅内容提供者希望的文档能够被反映到搜索结果。根据本发明的一实施例，以XML形式收集发生更新的文档，所以标题、内容、标签等文档的结果能够正确地反映到搜索结果。

图1是用于说明根据本发明的一实施例的收集文档的过程的示图；图2是示出根据本发明的一实施例的文档收集系统的详细结构的框图；图3是示出本发明中使用的资源(resource)的结构的示图；图4是示出根据本发明的一实施例的文档收集方法的流程图；图5是根据本发明的另一实施例对收集的文档进行搜索的系统的一示例。主要符号的说明210为识别信息接收部，220为收集请求传递部，230为更新信息接收部，240为搜
索结果提供部。
具体实施例方式以下，将参照附图详细描述本发明的实施例。根据本发明的一实施例的文档收集方法可由文档收集系统执行。图1是用于说明根据本发明的一实施例的收集文档的过程的示图。参照图1，当发生更新时，网站110将诸如因特网包搜索器(Ping，packet internet grope)协议的识别信息传送给文档收集系统120。例如，文档的更新表示包含于文档中的内容发生注册/修改/删除等。还有，Ping表示文档发生更新的一种信号。据此，响应于所接收识别信息，文档收集系统120向网站110请求发生更新的文档。此时，文档收集系统120请求满足“Atom Syndication Format”的联合(syndication) 文档。响应于文档收集系统120的请求，网站110可将发生更新的文档传递给文档收集系统120。具体地讲，文档收集系统120可从网站110收集以XML结构构成的联合文档。此时，网站110将与希望搜索到的文档关联的识别信息传送给文档收集系统120，从而可以防止不需要的文档被文档收集系统120收集。此时，当在希望搜索到的文档发生内容的注册、删除、修改等的更新时，网站110将诸如Ping的识别信息传送给文档收集系统 120，从而可以减少随机爬行引起的负荷。图2是示出根据本发明的一实施例的文档收集系统的详细结构的框图。参照图2，文档收集系统120可包括识别信息接收部210、收集请求传递部220、更新信息收集部230和搜索结果提供部M0。识别信息接收部210可从网站110接收发生更新的文档的识别信息。在此，识别信息可包括与发生诸如内容的注册/修改/删除的更新的文档关联的Ping协议。此时，识别信息接收部210可接收包括与发生更新的文档关联的链接信息的识别信息。在此，链接信息可包括表示发生更新的文档在网站110上的位置的URL。S卩，网站110 通过包括链接信息的识别信息将希望收集到的文档发送给文档收集系统120。收集请求传递部220可根据识别信息将文档的收集请求传递给网站110。具体地讲，收集请求传递部220使用包括在识别信息中的链接信息所指定的路径，向网站110传递收集请求。作为一示例，收集请求传递部220利用链接信息向网站110请求以XML形式构成的联合文档。包括在作为识别信息的Ping协议中的链接信息可如下构成。http // [DOMAIN] /atom, cgi ？ id = [RES0URCE_ID] &type = [RESOURCE. TYPE]&&st￡irt_time = [START_TIME] &end_time = [END_TIME] &max-entry = [MAX. ENTRY]&page = [PAGE]作为一示例，可根据如下表1定义包括在链接信息中的参数。[表 1]
权利要求
1.一种文档收集系统，其特征在于，包括识别信息接收部，从至少一个网站接收发生更新的文档的识别信息；收集请求传递部，根据所述识别信息向所述至少一个网站传递所述文档的收集请求；更新信息收集部，收集响应于所述文档的收集请求从所述至少一个网站传送的文档的更新信息；搜索结果提供部，响应于从网站接收的搜索请求，将从所述文档的更新信息中提取的搜索结果提供给所述网站。
2.如权利要求1所述的文档收集系统，其特征在于，所述识别信息接收部接收包括与所述文档关联的链接信息的识别信息。
3.如权利要求1所述的文档收集系统，其特征在于，所述更新信息接收部从所述至少一个网站以包括至少一个元素的XML形式收集所述文档的更新信息。
4.如权利要求3所述的文档收集系统，其特征在于，当所述元素为多个时，所述更新信息收集部将多个元素设置为元素组来进行收集。
5.如权利要求3所述的文档收集系统，其特征在于，所述更新信息收集部基于所述识别信息所包括的分配期间收集所述文档的更新信息。
6.如权利要求1所述的文档收集系统，其特征在于，所述至少一个网站根据网站接口对所述搜索结果进行渲染并进行显示。
7.一种搜索服务器，其特征在于，包括文档系统发送部，从至少一个网站接收发生更新的文档的识别信息，并向根据所述识别信息收集文档的更新信息的文档收集系统传送从网站接收的搜索请求；文档系统接收部，从所述文档收集系统接收与所述搜索请求对应的搜索结果；网站发送部，将所述搜索结果提供给所述至少一个网站。
8.如权利要求7所述的搜索服务器，其特征在于，所述至少一个网站根据网站接口对所述搜索结果进行渲染并显示。
9.如权利要求7所述的搜索服务器，其特征在于，所述文档收集系统从所述至少一个网站以包括至少一个元素的XML文档形式收集所述文档的更新信息。
10.如权利要求7所述的搜索服务器，其特征在于所述文档收集系统基于所述识别信息所包括的分配期间收集所述文档的更新信息。
11.一种文档收集方法，其特征在于，包括步骤从至少一个网站接收发生更新的文档的识别信息；根据所述识别信息向所述至少一个网站传递所述文档的收集请求；收集响应于所述文档的收集请求从所述至少一个网站传送的文档的更新信息；以及对应于从所述至少一个网站接收的搜索请求，将从所述文档的更新信息提取的搜索结果提供给所述至少一个网站。
12.如权利要求11所述的文档收集方法，其特征在于，所述接收识别信息的步骤是接收包括与所述文档关联的链接信息的识别信息。
13.如权利要求11所述的文档收集方法，其特征在于，所述收集更新信息的步骤是从所述至少一个网站以包括至少一个元素的XML文档形式收集所述文档的更新信息。
14.如权利要求13所述的文档收集方法，其特征在于，所述收集更新信息的步骤是当所述元素为多个时，将多个元素设置为元素组来进行收集。
15.如权利要求13所述的文档收集方法，其特征在于，所述收集更新信息的步骤是基于所述识别信息所包括的分配期间收集所述文档的更新信息。
16.如权利要求11所述的文档收集方法，其特征在于，还包括步骤所述至少一个网站根据网站接口对所述搜索结果进行渲染并显示。
17.一种搜索方法，其特征在于，包括如下步骤从至少一个网站接收发生更新的文档的识别信息并向根据所述识别信息收集文档的更新信息的文档收集系统传送从网站接收的搜索请求；从所述文档收集系统接收与所述搜索请求对应的搜索结果；将所述搜索结果提供给所述至少一个网站。
18.如权利要求17所述的搜索方法，其特征在于，所述至少一个网站根据所述网站接口对所述搜索结果进行渲染并显示。
19.如权利要求17所述的搜索方法，其特征在于，所述文档收集系统从所述至少一个网站以包括至少一个元素的XML文档形式收集所述文档的更新信息。
20.如权利要求17所述的搜索方法，其特征在于，基于所述识别信息所包括的分配期间收集所述文档的更新信息。
全文摘要
本发明公开了一种文档收集系统和方法。文档收集系统包括识别信息接收部，从至少一个网站接收发生更新的文档的识别信息；收集请求传递部，根据所述识别信息向所述网站传递所述文档的收集请求；更新信息收集部，收集响应于所述文档的收集请求从所述至少一个网站传送的文档的更新信息；搜索结果提供部，响应于从网站接收的搜索请求将从所述文档的更新信息提取的搜索结果提供给所述至少一个网站。根据文档收集系统，能够减少网络网站的负荷的同时提高收集的文档的准确度。
文档编号G06F17/30GK102298609SQ20111016889
公开日2011年12月28日申请日期2011年6月17日优先权日2010年6月24日
发明者徐祯佑, 韩承烨, 高永受申请人:Nhn株式会社

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：高永受;韩承烨;徐祯佑
技术所有人：NHN株式会社
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。