一种对关键词进行预处理的搜索方法和系统的利记博彩app

文档序号:6606640阅读:282来源:国知局
专利名称:一种对关键词进行预处理的搜索方法和系统的利记博彩app
技术领域
本发明涉及用户搜索技术,更具体地说,涉及一种对关键词进行预处理的搜索方法和系统。
背景技术
目前的中文搜索引擎大多基于中文词库的方法来实现索引创建和关键词搜索,从搜索的效果和性能角度来说,传统的这种搜索方法不可能将搜索内容源的所有单字全部建立索引存入索引库中,这样用户在不清楚具体的内容标题的前提下,只输入个别汉字或是只言片语的情形下是无法准确的搜索到所需要的内容,即便找到了所需内容,期间花费的时间也是比较多的,最终会影响用户的搜索体验。因此,需要一种搜索方案,能够克服现有技术之中存在的难以准确快速搜索到所需内容的缺陷。

发明内容
本发明要解决的技术问题在于,针对现有技术的上述难以准确快速搜索到所需内容的缺陷,提供一种对关键词进行预处理的搜索方法和系统。本发明解决其技术问题所采用的技术方案是构造一种对关键词进行预处理的搜索方法,包括接收用户输入的关键词;对所述关键词进行分词处理从而生成分词处理结果;采用第一逻辑运算在对应于标题库的标题索引库中对分词处理结果进行检索,从而得到包含所述关键词的标题;采用第二逻辑运算在内容索引库中对所述分词处理结果和包含所述关键词的标题进行联合搜索,并输出搜索结果。在本发明所述的方法中,所述第一逻辑运算为与运算。在本发明所述的方法中,所述第二逻辑运算为或运算。在本发明所述的方法中,所述标题索引库采用中文分词法和单字分词法来建立。在本发明所述的方法中,还包括定期更新所述标题库。本发明还提供一种对关键词进行预处理的搜索系统,包括标题索引库,用于对内容源的标题构成的标题库建立索引;内容索引库,用于对内容源建立索引;接收单元,用于接收用户输入的关键词;分词处理单元,用于对所述关键词进行分词处理从而生成分词处理结果;预处理单元,用于采用第一逻辑运算在对应于标题库的标题索引库中对分词处理结果进行检索,从而得到包含所述关键词的标题;搜索单元,用于采用第二逻辑运算在内容索引库中对所述分词处理结果和包含所
3述关键词的标题进行联合搜索,并输出搜索结果。在本发明所述的系统中,所述第一逻辑运算为与运算。在本发明所述的系统中,所述第二逻辑运算为或运算。在本发明所述的系统中,所述标题索引库采用中文分词法和单字分词法来建立。在本发明所述的系统中,所述标题库是定期更新的。本发明的有益效果是,通过对用户输入的关键词进行预处理,采用分词技术和索引技术直接找到完全包含用户输入关键词的内容标题,然后将标题加入到用户搜索关键词中进行联合搜索,使得用户输入的关键字全部出现在内容的标题中并且在搜索的结果中排序靠前,准确快速搜索到所需内容,极大的提升用户的体验。


下面将结合附图及实施例对本发明作进一步说明,附图中图1是依据本发明一实施例的对关键词进行预处理的搜索方法流程示意图;图2是依据本发明一实施例的对关键词进行预处理的搜索系统结构示意图。
具体实施例方式本发明通过对用户输入的关键词进行预处理,采用分词技术和索引技术直接找到完全包含用户输入关键词的内容标题,然后将标题加入到用户搜索关键词中进行联合搜索,使得用户输入的关键字全部出现在内容的标题中并且在搜索的结果中排序靠前,准确快速搜索到所需内容,将极大的提升用户的体验。图1是依据本发明一实施例的对关键词进行预处理的搜索方法100流程示意图。 对关键词进行预处理的搜索方法100包括以下步骤步骤101中,接收用户输入的关键词;用户输入的关键词可以是单个字,单个词,也可以是多个字,多个词,本发明对此不受限制。步骤102中,对所述关键词进行分词处理从而生成分词处理结果。对于用户输入的关键词,可以使用常用的中文分词算法来进行分词处理,关于中文分词算法,包括很多种,例如但不限于基于字符串匹配的分词方法、基于理解的分词方法和基于统计的分词方法等等。下面对这些分词方法进行详细的描述,以便有助于理解本发明的方案。基于字符串匹配的分词方法又称为机械分词方法。这种方法依照特定的策略将待分析的文字序列与一个机器词典中的词条进行匹配,若在词典中找到某个词,则匹配成功 (识别出一个词)。按照扫描方向的不同,字符串匹配方法可以分为正向匹配和逆向匹配; 按照不同长度优先匹配的标准,字符串匹配方法可以分为最大(最长)匹配和最小(最短) 匹配;按照是否与词性标注过程相结合的标准,又可以分为单纯分词方法和分词与标注相结合的一体化方法。基于理解的分词方法是通过让计算机模拟人对句子的理解,达到识别词的效果。 这种方法的基本思想就是在分词的同时进行句法、语义分析,利用句法信息和语义信息来处理歧义现象。基于这种分词方法开发的分词系统通常包括三个部分分词子系统、句法语义子系统、总控部分。在总控部分的协调下,分词子系统可以获得有关词、句子等的句法和语义信息来对分词歧义进行判断,通过模拟人对句子的理解来达到分词的目标。第三种分词方法是基于统计的分词方法。从形式上看,词是稳定的字的组合,因此在上下文中,相邻的字同时出现的次数越多,就越有可能构成一个词。因此字与字相邻共现的频率或概率能够较好的反映成词的可信度。可以对语料中相邻共现的各个字的组合的频度进行统计,计算它们的互现信息。定义两个字的互现信息,计算例如两个汉字的相邻共现概率。互现信息体现了汉字之间结合关系的紧密程度。当紧密程度高于某一个阈值时,便可认为此字组可能构成了一个词。这种方法只需对语句中的字组频度进行统计,不需要切分词典,因而又叫做无词典分词法或统计取词方法。在步骤103中,采用第一逻辑运算在对应于标题库的标题索引库中对分词处理结果进行检索,从而得到包含所述关键词的标题。在本发明一实施例中,第一逻辑运算优选为“与(and)”运算。标题索引库是对标题库建立的索引,而该标题库对应于内容源,也即每一内容都对应有相应的标题,所有的标题构成标题库。 在本发明一实施例中,还可定期或不定期地对标题库进行更新。对标题库建立索引所采用的分词技术不仅包括常规的上文所述的几种分词方法外,还包括单字分词方法。所谓单字分词,是指对标题的每一个字进行分词,对每一字都建立索引。与常规的分词方法不同,不是建立在对词语的分词上。例如,标题“我是中国人”, 单字分词就是把“我” “是” “中” “国” “人”都建立索引,而常规分词方法可能会分为例如 “我” “是” “中国人”。在标题库中找到完全包含用户输入关键词的标题后,就将此标题也作为用户输入关键词的一部分,进入下一步骤104。步骤104中,采用第二逻辑运算在内容索引库中对所述分词处理结果和包含所述关键词的标题进行联合搜索,并输出搜索结果。包含所述关键词的标题可能是一个或多个,本发明对此不做限制,若步骤103中得到多个包含关键词的标题,那么在此步骤中采用第二逻辑运算在内容索引库中对所述分词处理结果和多个包含关键词的标题进行联合搜索。在本发明一实施例中,第二逻辑运算优选为“或(or)”运算。内容索引库是对内容源建立的索引,其中单独对每一内容源的标题建立只索引不分词的字段,也对每一内容源的标题进行建立即分词又索引的字段。将用户输入的关键词和预处理过程得到的包含关键词的标题一起作为新的关键词,从而能够正确快速地将用户真正需要的内容排列靠前。图2是依据本发明一实施例的对关键词进行预处理的搜索系统结构200示意图。 对关键词进行预处理的搜索系统200包括接收单元201、分词处理单元202、预处理单元 203、搜索单元204、标题索引库205、内容索引库206。接收单元201,用于接收用户输入的关键词;分词处理单元202,用于对所述关键词进行分词处理从而生成分词处理结果;预处理单元203,用于采用第一逻辑运算在对应于标题库的标题索引库中对分词处理结果进行检索,从而得到包含所述关键词的标题;
搜索单元204,用于采用第二逻辑运算在内容索引库中对所述分词处理结果和包含所述关键词的标题进行联合搜索,并输出搜索结果。标题索引库205,用于对内容源的标题构成的标题库建立索引;内容索引库206,用于对内容源建立索引。在本发明一实施例中,第一逻辑运算优选为“与(and)”运算。标题索引库是对标题库建立的索引,而该标题库对应于内容源,也即每一内容都对应有相应的标题,所有的标题构成标题库。在本发明一实施例中,还可定期或不定期地对标题库进行更新。对标题库建立索引所采用的分词技术不仅包括常规的上文所述的几种分词方法外,还包括单字分词方法。所谓单字分词,是指对标题的每一个字进行分词,对每一字都建立索引。与常规的分词方法不同,不是建立在对词语的分词上。例如,标题“我是中国人”, 单字分词就是把“我” “是” “中” “国” “人”都建立索引,而常规分词方法可能会分为例如 “我” “是” “中国人”。在本发明一实施例中,第二逻辑运算优选为“或(or)”运算。内容索引库是对内容源建立的索引,其中单独对每一内容源的标题建立只索引不分词的字段,也对每一内容源的标题进行建立即分词又索引的字段。在标题库中找到完全包含用户输入关键词的标题后,将用户输入的关键词和预处理过程得到的包含关键词的标题一起作为新的关键词,从而能够正确快速地将用户真正需要的内容排列靠前。本发明通过对用户输入的关键词进行预处理,采用分词技术和索引技术直接找到完全包含用户输入关键词的内容标题,然后将标题加入到用户搜索关键词中进行联合搜索,相当于形成新的关键词,使得用户输入的关键字全部出现在内容的标题中并且在搜索的结果中排序靠前,准确快速搜索到所需内容,将极大的提升用户的体验。
权利要求
1.一种对关键词进行预处理的搜索方法,其特征在于,包括接收用户输入的关键词;对所述关键词进行分词处理从而生成分词处理结果;采用第一逻辑运算在对应于标题库的标题索引库中对分词处理结果进行检索,从而得到包含所述关键词的标题;采用第二逻辑运算在内容索引库中对所述分词处理结果和包含所述关键词的标题进行联合搜索,并输出搜索结果。
2.根据权利要求1所述的方法,其特征在于,所述第一逻辑运算为与运算。
3.根据权利要求1所述的方法,其特征在于,所述第二逻辑运算为或运算。
4.根据权利要求1所述的方法,其特征在于,所述标题索引库采用中文分词法和单字分词法来建立。
5.根据权利要求1 4任一项所述的方法,其特征在于,还包括定期更新所述标题库。
6.一种对关键词进行预处理的搜索系统,其特征在于,包括标题索引库,用于对内容源的标题构成的标题库建立索弓I ;内容索引库,用于对内容源建立索引;接收单元,用于接收用户输入的关键词;分词处理单元,用于对所述关键词进行分词处理从而生成分词处理结果;预处理单元,用于采用第一逻辑运算在对应于标题库的标题索引库中对分词处理结果进行检索,从而得到包含所述关键词的标题;搜索单元,用于采用第二逻辑运算在内容索引库中对所述分词处理结果和包含所述关键词的标题进行联合搜索,并输出搜索结果。
7.根据权利要求6所述的系统,其特征在于,所述第一逻辑运算为与运算。
8.根据权利要求6所述的系统,其特征在于,所述第二逻辑运算为或运算。
9.根据权利要求6所述的系统,其特征在于,所述标题索引库采用中文分词法和单字分词法来建立。
10.根据权利要求6 9任一项所述的系统,其特征在于,所述标题库是定期更新的。
全文摘要
本发明涉及一种对关键词进行预处理的搜索方法和系统,所述方法包括接收用户输入的关键词;对所述关键词进行分词处理从而生成分词处理结果;采用第一逻辑运算在对应于标题库的标题索引库中对分词处理结果进行检索,从而得到包含所述关键词的标题;采用第二逻辑运算在内容索引库中对所述分词处理结果和包含所述关键词的标题进行联合搜索,并输出搜索结果。本发明通过对用户输入的关键词进行预处理,采用分词技术和索引技术直接找到完全包含用户输入关键词的内容标题,然后将标题加入到用户搜索关键词中进行联合搜索,使得用户输入的关键字全部出现在内容的标题中并且在搜索的结果中排序靠前,准确快速搜索到所需内容,极大的提升用户的体验。
文档编号G06F17/27GK102339294SQ201010237950
公开日2012年2月1日 申请日期2010年7月27日 优先权日2010年7月27日
发明者刘克鸿, 刘飞, 杨丰, 蒋铮, 陈巍, 马慧 申请人:卓望数码技术(深圳)有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1