一种热门事件搜索方法和装置的制造方法

文档序号:9887805阅读:314来源:国知局
一种热门事件搜索方法和装置的制造方法
【技术领域】
[0001] 本发明涉及信息处理领域,具体涉及一种热门事件搜索方法和装置。
【背景技术】
[0002] 随着科技的发展,互联网目前已经应用到了人们生活的方方面面,成为人们娱活 中不可或缺的一部分。
[0003] 人们可以随时随地通过上网搜索来获取自身想要获取的多媒体信息,比如,网页、 新闻、图片、视频、音频、文本等等。随着搜索引擎使用率的提升,其现已成为用户获取信息 的一种有效方式。目前针对搜索结果的排序依据主要有以下几个维度有:
[0004] 1)相关性维度
[0005] 如,多媒体文件标题、描述信息、查询词的文本匹配度、语义层匹配度等;
[0006] 2)点击维度
[0007] 视频在不同时间维度上的搜索次数、点击率等;
[0008] 3)文件质量维度
[0009] 所述文件质量维度是指多媒体文件本身的属性因素,如针对视频文件则指码率、 时长等;
[0010] 4)时间维度
[0011] 多媒体文件的发布时间和更新时间;
[0012] 5)其他维度
[0013] 搜索引擎通常按固定的权重综合各个维度的得分对搜索结果候选集做最后的排 序。
[0014] 然而不同类型的查询词可能对各维度的重视程度不同,如果针对各种类型的查询 词均采用统一的排序模型则会产生一些问题,如,当热门事件发生时,短期内大量用户通过 搜索引擎搜索该事件的代表性查询词来搜索相关多媒体文件,但是搜索引擎按照统一排序 模型来向用户呈现搜索结果时,往往先对查询词进行分词,再与搜索结果库中的文件标题 进行匹配,在匹配成功的多媒体文件中搜索结果,往往将具有较高历史点击的搜索结果排 在前面,但是,由于热门事件往往发生的比较突然,且时间比较短,因此,相关多媒体文件通 常点击率比历史上与查询词相关的其它多媒体文件低,举例来说,例如尼泊尔爆发地震时, 查询词"尼泊尔地震"搜索量激增,但是在统一排序模型下,拥有较多历史点击次数的视频 如"尼泊尔旅游"的排序会十分靠前,而新上线的地震相关视频排序往往靠后。
[0015] 因此,用户搜索到的结果中排在前面的搜索结果往往不是用户真正想要搜索的内 容,这使得用户搜索体验不佳。

【发明内容】

[0016] 为了解决现有技术中用户通过搜索引擎对热门事件进行搜索时搜索体验不佳的 问题,本发明实施例期望提供一种热门事件搜索方法和装置。
[0017]本发明实施例提供了一种热门事件搜索方法,包括:
[0018]确定距当前时间预设时间段内搜索量大于第一预设阈值的查询词;
[0019]确定所述查询词的搜索趋势指数;
[0020]将搜索趋势指数大于第二预设阈值的查询词确定为实时热词;
[0021 ]将所确定的实时热词存储于热词数据库;
[0022] 在接收到用户发送的搜索语时,基于所述热词数据库对搜索结果进行排序;
[0023] 将排序后的搜索结果发送给用户。
[0024]优选地,所述确定所述查询词的搜索趋势指数为tr:
[0025] tr= Σ Wiratioi,
[0026] 其中,所述rati〇1是距当前时间预设时间段搜索量和不同维度下搜索量的比率;Wl 为不同维度的权重值;所述不同维度包括以下维度至少其中之一:距当前时间预设时间段 之前的一预设时间段维度、距当前时间预设时间段之前的两个预设时间段维度、距前一天 与当前时间同一时间点预设时间段维度、前一周同一天距与当前时间同一时间点预设时间 段维度。
[0027]优选地,所述不同维度的权重值中,所述前一周同一天距与当前时间同一时间点 预设时间段维度的权重值为最大的权重值。
[0028] 优选地,所述方法还包括:通过以下方式对热词数据库中的实时热词进行更新:
[0029] 实时热词初次进入热词数据库时,确定24小时内搜索次数最大的实时热词在一个 小时内的搜索趋势指数;当所确定的搜索趋势指数小于第三预设阈值ttr_lower时,确定所 述热词实时所描述的不是突发热门事件,将所述实时热词从热词数据库中移除。
[0030] 优选地,所述方法还包括:通过以下方式对热词数据库中的实时热词进行更新:
[0031] 实时热词初次进入热词数据库的24小时内取搜索量最大的一个小时的搜索量 firstday和搜索趋势指数tr〇id;
[0032] 实时热词进入热词数据库之后,每天同一小时按如下方式确定所述实时词的搜索 趋势指数trnew:
[0033]
[0034] 其中impnew是更新时刻的搜索量,impoid是进入热词数据库时的搜索量,decay是衰 减系数;
[0035]当所确定的trnew小于第三预设阈值ttr_lower时,将所述实时热词从热词数据库 中移除。
[0036] 优选地,所述基于所述热词数据库对搜索结果进行排序,包括:
[0037] 对所述搜索语进行分词,得到查询词;
[0038] 将所述查询词与当前热词数据库中的实时热词进行匹配;
[0039] 当所述查询词与当前热词数据库中的实时热词匹配成功时,增加搜索结果在时间 维度的权重后,对搜索结果进行排序。
[0040] 本发明实施例提供了一种热门事件搜索装置,所述装置包括:确定模块、存储模 块、接收模块、排序模块及发送模块;其中,
[0041] 所述确定模块,用于确定距当前时间预设时间段内搜索量大于第一预设阈值的查 询词;还用于确定所述查询词的搜索趋势指数;还用于将所确定的搜索趋势指数大于第二 预设阈值的查询词确定为实时热词;
[0042] 所述存储模块,用于将所确定的实时热词存储于热词数据库;
[0043] 所述接收模块,用于接收用户发送的搜索语;
[0044] 所述排序模块,用于基于所述热词数据库对搜索结果进行排序;
[0045]所述发送模块,用于将排序后的搜索结果发送给用户。
[0046] 优选地,所述确定模块通过以下方式确定所述查询词搜索趋势指数tr:
[0047] tr= Σ Wiratioi,
[0048] 其中,所述rati〇1是距当前时间预设时间段搜索量和不同维度下搜索量的比率;Wl 为不同维度的权重值;所述不同维度包括以下维度至少其中之一:距当前时间预设时间段 之前的一预设时间段维度、距当前时间预设时间段之前的两个预设时间段维度、距前一天 与当前时间同一时间点预设时间段维度、前一周同一天距与当前时间同一时间点预设时间 段维度。
[0049] 优选地,所述不同维度的权重值中,所述前一周同一天距与当前时间同一时间点 预设时间段维度的权重值为最大的权重值。
[0050] 优选地,所述装置还包括:更新模块,用于对热词数据库中的实时热词进行更新; [0051 ]所述更新模块,包括:确定子模块、判断子模块和移除子模块;其中,
[0052]所述确定子模块,用于在实时热词初次进入热词数据库时,确定24小时内搜索次 数最大的实时热词在一个小时内的搜索趋势指数;
[0053]所述判断子模块,用于判断所确定的搜索趋势指数是否小于第三预设阈值ttr_ lower;
[0054] 所述确定子模块,用于当判断子模块的判断结果为是时,确定所述热词实时所描 述的不是突发热门事件;
[0055] 所述移除子模块,用于将所述实时热词从热词数据库中移除。
[0056]优选地,所述确定子模块,还用于在实时热词初次进入热词数据库的24小时内确 定搜索量最大的一个小时的搜索量firstday和搜索趋势指数tr〇id;还用于在实时热词进入 热词数据库之后,每天同一小时按如下方式确定所述实时热词的搜索趋势指数tr n?:
[0057]
[0058] 其中impnew是更新时刻的搜索量,impoid是进入热词数据库时的搜索量,decay是衰 减系数;
[0059]所述判断子模块,用于判断所确定的trnew是否小于第三预设阈值ttr_lower;
[0060]所述移除子模块,用于当所确定的trnew小于第三预设阈值ttr_l〇wer时,将所述实 时热词从热词数据库中移除。
[0061 ]优选地,所述排序模块包括:
当前第1页1 2 3 4 5 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1