末搜索 热度的影响,如周五比周四搜索量高很多;而通过图4可以看出,热门事件查询词以相隔一 周维度(即,前一周同一天同一小时维度)对比搜索量有较大的变化,因此,以相隔一周时间 维度为主要维度,可以避免搜索量周期波动带来的影响,而非热门事件查询词相隔一周搜 索量变化相对稳定;综合各维度的影响可以得出如下公式,用于确定当前查询词的搜索趋 势指数tr:
[0105] tr= Σ Wiratioi,
[0106] 其中,所述rati〇1是距当前时间预设时间段搜索量和不同维度下搜索量的比率;Wl 为不同维度的权重值;所述不同维度包括以下维度至少其中之一:距当前时间预设时间段 之前的一预设时间段维度、距当前时间预设时间段之前的两个预设时间段维度、距前一天 与当前时间同一时间点预设时间段维度、前一周同一天距与当前时间同一时间点预设时间 段维度。
[0107] 下面通过一个具体示例对上述各维度加以说明。
[0108] 设预设时间段为1小时,当前时间为2015年11月3日星期二的13:40,则距当前时间 预设时间段,即距当前时间1小时,指11月3日的12:40至13:40;距当前时间预设时间段之前 的一预设时间段则指11月3日的11:40至12:40,距当前时间预设时间段之前的两个预设时 间段指11月3日的10:40至11:40;距前一天与当前时间同一时间点预设时间段,是指前一天 (11月2日)的13:40之前的一小时,即前一天12:40至前一天13:40;前一周同一天距与当前 时间同一时间点预设时间段,是指前一周的星期二的13点40分之前的一小时,8卩,11月27日 星期二的12:40至13:40。同理,当预设时间段为其它时间时,各维度所代表的具体时间范围 可以通过相同的方法确定出来。
[0109] 从图4中可以看出,热门事件查询词以相隔一周时间维度对比搜索量有较大的变 化,而以相隔一周时间维度为主要维度,可以避免搜索量周期波动的影响,因此,在上述公 式中,前一周同一天距与当前时间同一时间点预设时间段维度的权重值被设置成最大,可 以避免搜索量周期波动的影响,即,所述不同维度的权重值中,所述前一周同一天距与当前 时间同一时间点预设时间段维度的权重值为最大的权重值。
[0110] 下面通过一个具体示例,对搜索趋势指数的确定方法进行说明。
[0111] 设,预设时间段为一小时,当前时间为2015年5月13日21:00,查询词"奔跑吧兄弟" 距当前时间一小时内(2015年05月13日20:00至21:00)的搜索量是120000,距当前时间一小 时之前的一小时(2015年05月13日19:00至20:00)的搜索量是100000,前一天同一小时(即, 2015年05月12日20:00至21:00)的搜索量是110000,前一周同一天同一小时(即,2015年5月 6日20:00至21:00)搜索量是90000,则该搜索词在上述维度的搜索量的比率分别为:
[0112] rati〇-hour = 120000/100000 ;
[0113] ratio-day = 120000/110000;
[0114] rati〇-week = 120000/90000 ;
[0115] 之后,确定不同维度的权值,即可确定所述查询词的搜索趋势指数tr。
[0116] 步骤203、将搜索趋势指数大于第二预设阈值的查询词确定为实时热词。
[0117] 具体的,在距当前时间预设时间段内搜索量大于第一预设阈值的查询词中,确定 出搜索趋势指数大于第二预设阈值的查询词,这些确定出的查询词被确定为实时热词。
[0118] 实时热词为用于描述热门事件的词语。
[0119] 具体的,所述第二预设阈值为搜索趋势指数的一个预设阈值,该预设阈值可以根 据实际观测数据情况来确定。当将距当前时间预设时间段内搜索量大于第一预设阈值的查 询词的搜索趋势指数按从大到小的顺序排列时,该阈值用于将这些搜索趋势指数所对应的 查询词的数量控制在所有查询词的3%至5%之间。也就是,经由该第二预设阈值的控制,最 终被确定为实时热词的查询词按搜索趋势指数由大到小的排列顺序取所有搜索趋势指数 的前3 %至5 %所对应的查询词。
[0120] 步骤204、将所确定的实时热词存储于热词数据库;
[0121] 在步骤201至203之后,即可确定实时热词,之后将所述实时热词存储于热词数据 库中。
[0122] 之后,每隔一小时重复执行步骤201至步骤204重新确定新的实时热词,并存储进 热词数据库。
[0123] 在本发明的另一种可选实施例中,所述方法还包括:通过以下方式对热词数据库 中的实时热词进行更新:
[0124] 实时热词初次进入热词数据库时,确定24小时内搜索次数最大的实时热词在一个 小时内的搜索趋势指数;当所确定的搜索趋势指数小于第三预设阈值ttr_lower时,确定所 述实时热词所描述的不是突发热门事件,将所述实时热词从热词数据库中移除;
[0125] 初次进入热词数据库的查询词的搜索趋势指数tr是大于第一预设阈值的,但是, 接下来的24小时内可以允许该查询词的搜索趋势指数小于第一预设阈值,但要大于第三预 设阈值,否则将其视为非实时热词,第三预设阈值通常为小于第一预设阈值的一个阈值,当 第一预设阈值确定后,第三预设阈值的取值一般为第一预设阈值取值的50%。
[0126] 在本发明的又一种可选实施例中,所述方法还包括:通过以下方式对热词数据库 中的实时热词进行更新:
[0127] 实时热词初次进入热词数据库的24小时内取搜索量最大的一个小时的搜索量 firstday和搜索趋势指数tr〇id;
[0128] 实时热词进入热词数据库之后,每天同一小时按如下方式确定所述实时词的搜索 趋势指数trnew:
[0129] ,.
[0130] 其中impnew是更新时刻的搜索量,impoid是进入热词数据库时的搜索量,decay是衰 减系数;
[0131 ]当所确定的trnew小于第三预设阈值ttr_lower时,将所述实时热词从热词数据库 中移除。
[0132] 上述方案在实际应用时,decay的取值可以为0.9;上述公式中设置衰减系数的原 因是:当一个多媒体文件,如,网页、视频、音频、文本等等,成为热门事件所对应的多媒体文 件后,随着天数的增加,热门事件所对应的新发布的多媒体文件会积累一定点击量,这时点 击量维度的权重相应被提升,则需要减弱时间维度的权重。
[0133] 下面通过一个具体示例,对上述热词数据库中的实时热词进行更新方法进行简要 介绍。
[0134] 如,查询词"尼泊尔地震"初次进入热词数据库的24小时内最大搜索量出现时间为 2015年04月26日20:00,搜索量为10000,设,tr〇id为100、ttr_lower = 40,之后,每天更新其 搜索趋势指数trnew如下:
[0135] 2015年4 月 27 日 20 : 00时,搜索量为 11000,trnew = tr〇id X (11000/10000) X 0 · 9 (11000_10000) = gg.
[0136] 2015年4月28 日 20:00时,搜索量为 10000,trnew = tr〇idX (10000/10000) Χ0·9 (10000-10000) = 81 .
[0137] ……
[0138] 每天更新搜索趋势指数trnew,直到trnew〈ttr_lower时,将所述查询词移出热词文 件。
[0139] 步骤205、在接收到用户发送的搜索语时,对所述搜索语进行分词,得到查询词;
[0140] 这一步骤中,所述搜索语为用于表征用户希望搜索的多媒体内容的关键语句或关 键词。
[0141] 步骤206、将所述查询词与当前热词数据库中的实时热词进行匹配;
[0142] 具体的,在热词数据库中查询是否有与所述查询词相匹配的实时热词。
[0143] 步骤207、当所述查询词与当前热词数据库中的实时热词匹配成功时,增加搜索结 果在时间维度的权重后,对搜索结果进行排序;
[0144] 这一步骤中,当所述查询词与当前热词数据库中的实时热词匹配成功时,即可确 定用户所搜索的是热门事件对应的多媒体文件,这时,增加搜索结果在时间维度的权重,可 以将搜