即时索引方法及系统的利记博彩app

文档序号:6335476阅读:178来源:国知局
专利名称:即时索引方法及系统的利记博彩app
技术领域
本发明涉及搜索引擎应用技术,尤其涉及一种应用于搜索引擎的即时索引方法及 系统。
背景技术
传统搜索引擎目前的实现机制主要是基于关键词匹配,相关度计算模型,网页重 要性模型等进行搜索结果的排序。但是,信息产生的时间或信息的时间类属性往往对于信 息的有效性有重要影响。当信息源发生重大变化,产生大量信息的时候,如何在极短的时间内对这些大 量信息进行索引,使这些信息被用户搜索到,则是一个需要解决的问题。例如,对于例如 twitter 一类的实时服务,则需要即时索引这些实时产生的信息,以便用户能够即时搜索到 这些实时信息。

发明内容
本发明的目的是提出一种即时索引方法及系统,能够实现对新获取的大量信息进 行快速索引,以支持新获取信息的搜索服务。为实现上述目的,本发明提供了一种即时索引方法,包括在获取新的即时信息时,获取所述即时信息的时间要素;建立所述时间框序列处理流程,并在所述即时信息的时间框序列处理流程中建立 多个待索引信息处理库;对所述待索引信息处理库中的即时信息进行时间要素标注,并分别对每个待索引 信息处理库建立包括时间要素的索引;将索引好的即时信息存入针对实时搜索的实时索引库,以提供时间要素作为重要 搜索排序依据的索引调用。为实现上述目的,本发明提供了一种即时索引系统,包括信息获取单元,用于获取新的即时信息,同时获取所述即时信息的时间要素;时间框序列建立单元,用于建立所述时间框序列处理流程,并在所述即时信息的 时间框序列处理流程中建立多个待索引信息处理库;信息处理库建立单元,用于在所述即时信息的时间框序列处理流程中建立多个待 索引信息处理库;时间要素标注单元,用于对所述待索引信息处理库中的即时信息进行时间要素标 注;索引建立单元,用于分别对每个待索引信息处理库建立包括时间要素的索引;实时索引保存单元,用于将索引好的即时信息存入针对实时搜索的实时索引库, 以提供时间要素作为重要搜索排序依据的索引调用。基于上述技术方案,本发明对新获取的大量即时信息采用定时和定长相结合的方式,细分成多个信息处理单元,对即时信息进行时间要素的标注,并分别对各个信息处理单 元中的即时信息建立索引,从而提供即时信息的快速索引和搜索功能。


此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发 明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中图1为本发明即时索引方法的一实施例的流程示意图。图2为本发明即时索引方法的另一实施例的流程示意图。图3为本发明即时索引系统的一实施例的结构示意图。图4为本发明即时索引系统的另一实施例的结构示意图。
具体实施例方式下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。传统的搜索引擎的索引更新频率是衡量搜索引擎服务能力的重要指标。“更新”有 多种解释如加入新数据的索引,或是对同一个服务器的再次检查及索引等。不同的搜索引 擎的更新频率从每天几次次到一周一次、再到一年一次而不同。由于Internet上的信息资 源变化性非常大,所以一个更新频率高的引擎,能提供准确及时的信息服务,接近实时的反 映网上资源的动态变化,在查询结果中的无效链接将大大减少,在未来的信息服务中也将 越来越重要,及时获得有用信息将会是未来信息服务的核心之一。更新的及时性能反映搜索引擎的服务性能。其中,如何对新的信息资源建立索引, 并且如何能同时处理大量的信息,使新出现的信息能够最快速的被用户搜索到。这其中涉 及到几个技术,一个是新建立的索引如何能够加入到正在服务的系统中被用调用,而同时 不影响正在服务信息的功能和性能。第二,在数据更新量小的情况下,有些技术方案很容易 实现。但当出现大量的信息,如何处理大量的信息,随时加入到搜索服务中,将是对技术开 发的核心考验。第三,如何判别新加入的信息,是否与已有的索引信息相互重复,即排重技 术,是信息服务客户体验的重要保证。使得最终呈现在用户面前的是及时的,可以以时间维 度划分的,信息重复率很低的可供用户使用的信息。因此本发明从索引的更新角度,和时间要素标准角度,时间要素在搜索中的使用 角度来建立搜索引擎服务。如图1所示,为本发明即时索引方法的一实施例的流程示意图。在本实施例中,即 时索引方法的流程包括以下步骤步骤101、在获取新的即时信息时,获取所述即时信息的时间要素;步骤102、建立所述时间框序列处理流程,并在所述即时信息的时间框序列处理流 程中建立多个待索引信息处理库;步骤103、对所述待索引信息处理库中的即时信息进行时间要素标注,并分别对每 个待索引信息处理库建立包括时间要素的索引;步骤104、将索引好的即时信息存入针对实时搜索的实时索引库,以提供时间要素 作为搜索排序依据的索引调用。在本实施例中,在获取的即时信息的同时,也对即时信息的时间要素进行了获取,这里的即时信息可以为通过信息爬取系统(如网络蜘蛛)抓取的发生剧烈变化的大量的信 息资源,也可以是一些即时类服务(例如twitter等)所产生的即时信息。通过对时间要 素的获取快速建立索引,使即时消息能够被搜索到,同时也通过时间要素的标注,使得信息 在搜索过程中,增加时间要素对结果排序的影响。这里所提到的时间要素可以包括信息采集的频度、信息产生的时间和信息被用户 搜索选择使用的时间及次数等,但不限于这里描述的几种。这几种时间要素均是在获取即 时信息的同时获取的,但其中信息被用户搜索选择使用的时间会随着信息的使用量(例如 被用户搜索点击)的增加而变化。下面分别对几种时间要素的作用进行说明1、信息采集的频度信息采集频度通常是由信息爬取系统(如网络蜘蛛等)控制的,但主要由整体的 搜索策略决定。在初始阶段,通常是根据信息资源的更新时间、或是对某种信息资源的偏好 决定的;当知道信息资源的更新时间时,爬取系统可以相应的设定信息爬取时间。当不知道 信息资源的更新时间,则是根据信息资源的重要性分类,由系统设定,例如对重要的信息资 源可以采取每小时爬取更新一次,不重要的信息资源半个月爬取更新一次。在本发明的即时索引方法实施例中,可以采用索引建立完成时间控制爬取时间, 即当索引系统处于空闲状态时,向信息爬取系统发出指令,爬取系统根据预先设定,按照信 息的重要级别更新爬取信息。这样方式可以保证系统一直处于合理的进程之中,保证被抓 取的信息都能被及时的索引、被搜索到,同时不会由于索引模块处理能力的问题,造成大量 需要被索引的信息堆积,也不会造成不合理的抓取策略,抓取大量重复的信息,而这些重复 信息不能被索引处理和搜索到。信息采集频度的另一个作用是,给搜索结果排序提供必要的参数输入,信息源的 重要程度是表现在信息采集频度上,而这个采集频度在做索引的时候,会加入到索引相关 的参数里,在进行搜索结果排序时,考虑到采集频度所代表的信息源重要程度上,因此采集 频度越高的信息资源不但表现在引擎会频繁的更新信息资源上,还表现在搜索结果的计算 和排序上。这说明如果搜索结果计算上要用到信息采集频度所代表的信息资源重要性参 数,就必须在索引中加入相关参数,并进行索引。2、信息产生的时间在本发明的即时索引方法实施例中,信息产生的时间将被应用到信息相关度计算 中,主要是在排序过程中的计算。与信息更新频度类似,信息产生的时间只是在计算权重上 有所不同,也是首先需要被索引到索引文件中,然后被搜索模块所调用进行计算。 3、信息被用户搜索选择使用的时间及次数信息被用户选择使用,在本发明中可理解为通常意义的用户点击操作,代表一个 关键词按照一定搜索算法所计算的搜索结果中,不同信息条目被用户选择使用的差异性, 通过大规模的用户使用,可以分辨出这些信息对于这个关键词的相关程度。根据用户点击 的不同,反作用于信息的排序。产生的效果是,当用户输入一个关键词,搜索结果排序将会 随着时间的不同而存在细微的差异。那些经常被用户点击选择的信息随着用户的使用,排 名可能会逐渐靠前。这里所说的这三个时间要素,作用基本是在搜索排序中被使用,在索引时需要被建立到索引中。在获得了大量的即时信息后,需要对这些数量庞大的即时消息进行处理,使这些 信息能够被索引到,进而被快速搜索到。在时间框序列处理流程中,需要建立若干个信息处理库。目的是应对大量信息的 及时索引和搜索。如果同时由几千万或是上亿的信息需要索引和搜索时,是不可能在一个 信息库完成的,需要采用定长处理,把传统的串行处理转化成多个、小的、可控的并行处理 过程。这种方式首先可以通过处理流程和处理流程内信息处理库的扩展,来实现大量的 信息的处理,进一步的可根据需要处理的信息量自动扩展处理流程的个数,实现大量的信 息的同时并行处理。在建立待索引信息处理库时,可以选择定长与定时相结合的维度来建立信息处理 库。其中,当即时信息的信息量超过预设阈值时,在即时信息的时间框序列处理流程中建立 定长模式的多个待索引信息处理库,定长模式为每个时序处理框中支持预设数量的待索引 信息处理库。举例来说,如果每个时间框序列处理流程最大支持100个信息处理库,而每个 信息处理库最大支持1万条信息处理时,如果出现了 1千万的信息需要处理,则要为该即时 信息分配10个时间框序列处理流程来处理。当即时信息的信息量未超过预设阈值,在即时信息的时间框序列处理流程中建立 定时模式的多个待索引信息处理库,定时模式为每隔预设时间启动一个时序处理框。举例 来说,如果每小时只有10万条信息需要处理,则可以每个小时启动一个时间框序列处理流 程来处理信息。启动时序处理框的具体需求可以根据系统服务的具体目标设定,如服务的 信息即时性非常强,那么也可以每5分钟或是每一分钟地启动时序处理框,来完成所需任 务。通过以上两种模式,可以对某一时刻的不同数量级别的信息处理进行模式选择。 当某一时刻有大量信息需要处理时,可以以定长模式为主建立多个时间框序列处理流程, 而每个时间框序列处理流程其中包含多个独立的信息处理库,分别对这些处理信息库进行 时间要素的标注和索引建立操作。而当产生的信息不多时,则以定时为主,建立时间框序列 处理流程,在时间框序列处理流程中包含若干个独立的信息处理库。这种定长和定时模式的选择可以很好的适应网络中信息的不均勻性,如果只采用 某一种模式,例如只依靠定时处理,如每5分钟截取这期间产生的信息,则会由于信息分布 的不均勻,造成不同5分钟内需要处理的信息量不同,造成需要被处理的信息排队。可能后 5分钟较少的信息处理完成,而前一个5分钟较多的信息还没处理完。前文提到的信息处理库即待索引信息处理库,在进行时间要素标注后,每个待索 引信息处理库分别独立地进行索引的建立,而建立的索引中包括了时间要素。这些索引好 的即时信息被存入针对实时搜索的实时索引库,此时并不与索引数据库中的索引合并,而 是直接为用户提供快速索引和搜索功能。这里的索引包括多级索引,首先是对每个时间框 序列处理流程中各个待索引信息处理库的即时信息进行索引,之后对时间框序列处理流程 所管理的每个待索引信息处理库建立索引,就是所说的二级索引。可选的,在信息量较大, 且没有进行索引合并的情况下,搜索引擎系统的总控制单元还可以对各个时间框序列处理 流程建立索引,即三级索引。
如图2所示,为本发明即时索引方法的另一实施例的流程示意图。与上一实施例 相比,本实施例在步骤104之后,还包括步骤105、将实时索引库中的索引与索引数据库中的索引进行合并,统一存放到所 述索引数据库中。在时间框序列处理流程完成之后,可以在每日的固定时刻,或者在系统访问较低、 负担较小的时候,将实时索引库中的索引与索引数据库中的搜索用的正常索引合并,同时 移除实时索引库中的索引,释放实时索引库的资源空间,以存放新的即时信息的索引。用户在信息搜索过程中,为了避免新信息与旧信息之间的重复,还包括排重的步 骤,即可针对互联网信息资源,考察信息的链接地址,如地址一致则进行排重处理,展现时 间要素权重最大的信息,也可以针对数据库内部的信息,如企业内部信息,则采用三重计算 规则进行排重,参数为名称、地址、电话。名称、地址、电话相同的完全排重,只展现时间要素 权重最大的信息。如果名称相同,地址、电话有任意一个不同的,则做展现排重,即只展现时 间要素权重最大的,其余的隐藏在展现信息之下。在实现上,还可以考虑名称权重,如果名 称权重最大的,则展现名称权重大的信息。在实际应用中,可以根据具体需求,选择不同的 排重要素来建立排重规则。本领域普通技术人员可以理解实现上述方法实施例的全部或部分步骤可以通过 程序指令相关的硬件来完成,前述的程序可以存储于一计算机可读取存储介质中,该程序 在执行时,执行包括上述方法实施例的步骤;而前述的存储介质包括R0M、RAM、磁碟或者 光盘等各种可以存储程序代码的介质。如图3所示,为本发明即时索引系统的一实施例的结构示意图。在本实施例中,即 时索引系统包括信息获取单元1、时间框序列建立单元2、信息处理库建立单元3、时间要 素标注单元4、索引建立单元5和实时索引保存单元6。信息获取单元1负责获取新的即时信息,同时获取所述即时信息的时间要素。时 间框序列建立单元2负责建立所述时间框序列处理流程,并在所述即时信息的时间框序列 处理流程中建立多个待索引信息处理库。信息处理库建立单元3负责在所述即时信息的时 间框序列处理流程中具体建立多个待索引信息处理库4。时间要素标注单元5负责对所述 待索引信息处理库中4的即时信息进行时间要素标注。索引建立单元6负责分别对每个待 索引信息处理库4建立包括时间要素的索引。实时索引保存单元7负责将索引好的即时信 息存入针对实时搜索的实时索引库8,以提供时间要素作为搜索排序依据的索引调用。搜索单元9可以直接访问实时索引库8来获取快速索引的实时信息。在信息获取 单元1获取的即时信息的时间要素可以包括信息采集的频度、信息产生的时间和信息被 用户搜索选择使用的时间及次数等。在另一实施例中,时间框序列建立单元可具体包括定长模式建立模块,用于在所述即时信息的信息量超过预设阈值时,在即时信息 的时间框序列处理流程中建立定长模式的多个待索引信息处理库,所述定长模式为每个时 序处理框中支持预设数量的待索引信息处理库;定时模式建立模块,用于当所述即时信息的信息量未超过预设阈值,在即时信息 的时间框序列处理流程中建立定时模式的多个待索引信息处理库,所述定时模式为每隔预 设时间启动一个时序处理框。
如图4所示,为本发明即时索引系统的另一实施例的结构示意图。与上一实施例 相比,本实施例还包括索引合并单元10,该单元在实时索引保存单元7将索引好的即时信 息存入针对实时搜索的实时索引库8之后,将实时索引库8中的索引与索引数据库11中的 索引进行合并,统一存放到索引数据库11中。通过上述的多个实施例的描述,可以看出本发明的即时索引方法可以对建立的多 个待索引信息处理库进行独立快速索引,并将索引好的信息提供给搜索模块进行即时调 用。而在时间框序列处理流程结束的时候,这些索引被合并到正常的索引中供基础搜索调 用。系统支持把时间要素进行信息重要性标注,支持大量信息的即时索引和搜索。最后应当说明的是以上实施例仅用以说明本发明的技术方案而非对其限制;尽 管参照较佳实施例对本发明进行了详细的说明,所属领域的普通技术人员应当理解依然 可以对本发明的具体实施方式
进行修改或者对部分技术特征进行等同替换;而不脱离本发 明技术方案的精神,其均应涵盖在本发明请求保护的技术方案范围当中。
权利要求
一种即时索引方法,包括在获取新的即时信息时,获取所述即时信息的时间要素;建立所述时间框序列处理流程,并在所述即时信息的时间框序列处理流程中建立多个待索引信息处理库;对所述待索引信息处理库中的即时信息进行时间要素标注,并分别对每个待索引信息处理库建立包括时间要素的索引;将索引好的即时信息存入针对实时搜索的实时索引库,以提供时间要素作为重要搜索排序依据的索引调用。
2.根据权利要求1所述的即时索引方法,其中所述时间要素包括信息采集的频度、信 息产生的时间和信息被用户搜索选择使用的时间及次数。
3.根据权利要求2所述的即时索引方法,其中所述在即时信息的时间框序列处理流程 中建立多个待索引信息处理库的操作具体为当所述即时信息的信息量超过预设阈值时,在即时信息的时间框序列处理流程中建立 定长模式的多个待索引信息处理库,所述定长模式为每个时序处理框中支持预设数量的待 索引信息处理库;当所述即时信息的信息量未超过预设阈值,在即时信息的时间框序列处理流程中建立 定时模式的多个待索引信息处理库,所述定时模式为每隔预设时间启动一个时序处理框。
4.根据权利要求2所述的即时索引方法,其中所述分别对每个待索引信息处理库建立 包括时间要素的索引的操作具体为采用并行方式分别对每个待索引信息处理库建立包括时间要素的索引。
5.根据权利要求2所述的即时索引方法,其中在将索引好的即时信息存入针对实时搜 索的实时索引库之后,还包括将所述实时索引库中的索引与索引数据库中的索引进行合并,统一存放到所述索引数 据库中。
6.一种即时索引系统,包括信息获取单元,用于获取新的即时信息,同时获取所述即时信息的时间要素;时间框序列建立单元,用于建立所述时间框序列处理流程,并在所述即时信息的时间 框序列处理流程中建立多个待索引信息处理库;信息处理库建立单元,用于在所述即时信息的时间框序列处理流程中建立多个待索引 信息处理库;时间要素标注单元,用于对所述待索引信息处理库中的即时信息进行时间要素标注;索引建立单元,用于分别对每个待索引信息处理库建立包括时间要素的索引;实时索引保存单元,用于将索引好的即时信息存入针对实时搜索的实时索引库,以提 供时间要素作为重要搜索排序依据的索引调用。
7.根据权利要求6所述的即时索引系统,其中所述时间要素包括信息采集的频度、信 息产生的时间和信息被用户搜索选择使用的时间及次数。
8.根据权利要求7所述的即时索引系统,其中所述时间框序列建立单元具体包括定长模式建立模块,用于在所述即时信息的信息量超过预设阈值时,在即时信息的时 间框序列处理流程中建立定长模式的多个待索引信息处理库,所述定长模式为每个时序处理框中支持预设数量的待索引信息处理库;定时模式建立模块,用于当所述即时信息的信息量未超过预设阈值,在即时信息的时 间框序列处理流程中建立定时模式的多个待索引信息处理库,所述定时模式为每隔预设时 间启动一个时序处理框。
9.根据权利要求7所述的即时索引系统,其中还包括索引合并单元,用于在将索引好的即时信息存入针对实时搜索的实时索引库之后,将 所述实时索引库中的索引与索引数据库中的索引进行合并,统一存放到所述索引数据库 中。
全文摘要
本发明涉及一种即时索引方法,包括在获取新的即时信息时,获取所述即时信息的时间要素;建立所述时间框序列处理流程,并在所述即时信息的时间框序列处理流程中建立多个待索引信息处理库;对所述待索引信息处理库中的即时信息进行时间要素标注,并分别对每个待索引信息处理库建立包括时间要素的索引;将索引好的即时信息存入针对实时搜索的实时索引库,以提供时间要素作为搜索排序重要依据的索引调用。本发明还涉及一种即时索引系统。本发明对新获取的大量即时信息细分成多个信息处理单元,对即时信息进行时间要素的标注,并分别对各个信息处理单元中的即时信息建立索引,从而提供即时信息的快速索引和搜索功能。
文档编号G06F17/30GK101996246SQ20101053651
公开日2011年3月30日 申请日期2010年11月9日 优先权日2010年11月9日
发明者俞惠华, 夏艳, 杨震, 沈利锷, 陈捷, 陈正文 申请人:中国电信股份有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1