一种采集微博内容的方法及设备的利记博彩app

文档序号:6515234阅读:224来源:国知局
一种采集微博内容的方法及设备的利记博彩app
【专利摘要】本发明公开了一种采集微博内容的方法及设备,其中该方法包括:采集微博用户库中预先选定的微博用户的微博内容和微博参数;根据采集到的微博内容和微博参数,提取出与微博热点话题相关的热门关键词或热门关键词组;根据提取到的热门关键词或热门关键词组,按照预先设定的采集频率采集与热门关键词或热门关键词组相关的微博内容,通过本发明的实施例能够有效提高采集与微博热点话题相关的微博内容的效率。
【专利说明】一种采集微博内容的方法及设备
【技术领域】
[0001 ] 本发明属于计算机【技术领域】,尤其涉及一种采集微博内容的方法及设备。
【背景技术】
[0002]随着时代的发展和进步,像“微博”这种社交服务平台应运而生,并逐渐渗透到社会的各个方面。微博以其短小快捷的独特魅力迅速吸引了大量用户,引发微博议事浪潮。跟其他信息传播方式相比,微博有其独到之处。首先,它能更快速地发布和传播信息。由于字数的限制,微博发布的内容短小精焊。第二,微博可以允许任何人或指定人群阅读、回复、转发,实现了一对多、多对多的传播。第三,微博的传播效果更为显著。短小精悍的信息在达到受众层面时,不会耗费太多的时间去理解,内容的简易使其更容易被接受。第四,微博具有实时交互传播的特性。
[0003]与传统互联网信息抓取不同,微博内容抓取要求有更高的时效性。目前常用的抓取方式是,注册一批僵尸用户,通过这些僵尸用户关注一批质量比较的微博用户,然后不断抓取这批微博用户的微博内容,同时这些僵尸用户自身也会发表或转发一些微博内容,其中充斥大量无用或广告等内容,因此使得在微博中传播的内容非常之多,如何从中找到高质量微博内容是一个很大的难题。

【发明内容】

[0004]鉴于上述问题,提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的采集微博内容的方法及设备。
[0005]依据本发明的一个方面,提供了一种采集微博内容的方法,包括:采集微博用户库中预先选定的微博用户的微博内容和微博参数;根据采集到的微博内容和微博参数,提取出与微博热点话题相关的热门关键词或热门关键词组;根据提取到的所述热门关键词或热门关键词组,按照预先设定的采集频率采集与所述热门关键词或热门关键词组相关的微博内容。
[0006]可选地,在按照预先设定的采集频率采集与所述热门关键词或热门关键词组相关的微博内容的步骤之后,所述方法还包括:采集发布和/或转发与所述热门关键词或热门关键词组相关的微博内容的微博用户;将采集到的微博用户更新到微博用户库中,并将采集到的微博用户的选定状态标识为选定。
[0007]可选地,其中,所述方法还包括:判断所述微博用户库中预先选定的微博用户是否符合预定义的条件;如果所述预先选定的微博用户不符合预定义的条件,则将所述微博用户库中预先选定的微博用户的选定状态标识为非选定;如果所述预先选定的微博用户符合预定义的条件,则保持所述微博用户库中预先选定的微博用户的选定状态不变。
[0008]可选地,所述判断所述微博用户库中预先选定的微博用户是否符合预定义的条件的步骤包括:判断所述微博用户库中微博用户是否为恶意注册用户,如果所述预先选定的微博用户为恶意注册用户,则判断结果为所述预先选定的微博用户不符合预定义的条件,如果所述预先选定的微博用户不是恶意注册用户,则判断结果为所述预先选定的微博用户符合预定义的条件;和/或者判断所述微博用户库中的预先选定的微博用户的活跃度是否低于预先设定的活跃度阈值,如果所述微博用户的活跃度低于预先设定的活跃度阈值,则判断结果为所述预先选定的微博用户不符合预定义的条件;如果所述微博用户的活跃度不低于预先设定的活跃度阈值,则判断结果为所述预先选定的微博用户符合预定义的条件;其中,所述活跃度包括:微博用户发布或转发微博的频率、微博用户的连续登录时间和微博用户的当天在线时间中的任意一种或多种组合。
[0009]可选地,所述判断所述微博用户库中微博用户是否为恶意注册用户的步骤包括:判断所述微博用户的用户评分值是否低于预先设定的恶意注册评分值;
[0010]如果所述微博用户的用户评分值低于预先设定的恶意注册评分值,则判断结果为所述微博用户是恶意注册用户;如果所述微博用户的用户评分值不低于预先设定的恶意注册评分值,则判断结果为所述微博用户不是恶意注册用户。
[0011]可选地,所述用户评分值基于微博用户关注的用户数、微博用户的粉丝数和微博用户发布的微博数计算得到。
[0012]可选地,所述采集预先选定的微博用户的微博内容和微博参数的步骤为:通过微博网站的应用程序编程接口采集所述微博用户库中预先选定的微博用户的微博内容和微博参数。
[0013]可选地,所述根据采集到的微博内容和微博参数,提取出与微博热点话题相关的热门关键词或热门关键词组步骤包括:根据采集到的所述微博内容和微博参数,按照预先设定的微博类别对所述微博内容进行分类处理;对各个微博类别下的微博内容进行微博热点话题处理,得到各个微博类别下与微博热点话题相关的微博内容;对各个微博类别下的与微博热点话题相关的微博内容分别进行分词处理,提取出各个微博类别下的与微博热点话题相关的热门关键词或热11关键词组。
[0014]可选地,所述微博参数包括:微博用户的属性信息、微博的总转发次数、微博的总评论次数、微博认证用户的转发次数、和微博认证用户的评论次数中的任意一种或多种组
口 O
[0015]依据本发明的另一个方面,还提供一种采集微博内容的设备,包括:第一采集模块,用于采集预先选定的微博用户的微博内容和微博参数;提取模块,用于根据采集到的微博内容和微博参数,提取出与微博热点话题相关的热门关键词或热门关键词组;第二采集模块,用于根据提取到的所述热门关键词或热门关键词组,按照预先设定的采集频率采集与所述热门关键词或热门关键词组相关的微博内容。
[0016]可选地,所述设备还包括:第三采集模块,用于采集发布和/或转发与所述热门关键词或热门关键词组相关的微博内容的微博用户;微博用户更新模块,用于将采集的微博用户更新到微博用户库中,并将采集的微博用户的选定状态标识为选定。
[0017]可选地,所述设备还包括:判断模块,用于判断所述微博用户库中预先选定的微博用户是否为符合预定义的条件;选定状态更新模块,用于如果所述预先选定的微博用户不符合预定义的条件,则将所述微博用户库中预先选定的微博用户的选定状态标识为非选定;如果所述预先选定的微博用户符合预定义的条件,则保持所述微博用户库中预先选定的微博用户的选定状态不变。[0018]可选地,所述判断模块包括:恶意注册判断单元,用于判断所述微博用户库中微博用户是否为恶意注册用户,如果所述预先选定的微博用户为恶意注册用户,则判断结果为所述预先选定的微博用户不符合预定义的条件,如果所述预先选定的微博用户不是恶意注册用户,则判断结果为所述预先选定的微博用户符合预定义的条件;和/或者活跃度判断单元,用于判断所述微博用户库中的预先选定的微博用户的活跃度是否低于预先设定的活跃度阈值,如果所述微博用户的活跃度低于预先设定的活跃度阈值,则判断结果为所述预先选定的微博用户不符合预定义的条件;如果所述微博用户的活跃度不低于预先设定的活跃度阈值,则判断结果为所述预先选定的微博用户符合预定义的条件,其中所述活跃度包括:微博用户发布或转发微博的频率、微博用户的连续登录时间和微博用户的当天在线时间中的任意一种或多种组合。
[0019]可选地,所述恶意注册判断单元进一步用于判断所述微博用户的用户评分值是否低于预先设定的恶意注册评分值;如果所述微博用户的用户评分值低于预先设定的恶意注册评分值,则判断结果为所述微博用户是恶意注册用户;如果所述微博用户的用户评分值不低于预先设定的恶意注册评分值,则判断结果为所述微博用户不是恶意注册用户。
[0020]可选地,所述第一采集模块进一步用于通过微博网站的应用程序编程接口采集所述微博用户库中预先选定的微博用户的微博内容和微博参数。
[0021]可选地,所述提取模块包括:分类单元,用于根据采集到的所述微博内容和微博参数,按照预先设定的微博类别对所述微博内容进行分类处理;热点话题处理单元,用于对各个微博类别下的微博内容进行微博热点话题处理,得到各个微博类别下与微博热点话题相关的微博内容;提取单元,用于对各个微博类别下的与微博热点话题相关的微博内容分别进行分词处理,提取出各个微博类别下的与微博热点话题相关的热门关键词或热门关键词组。
[0022]由上述技术方案可知,本发明的实施例具有如下有益效果:首先,在采集微博内容时,可根据提取到的热门关键词或热门关键词组,按照预先设定的采集频率采集与热门关键词或热门关键词组相关的微博内容,也就是,通过变频采集可以提高采集微博内容的效率,对于实时性要求高、信息多的热门关键词或热门关键词组,可以使用较高的频率采集,反之,可以使用较低的频率采集。其次,根据微博内容和微博参数对微博内容进行分类,可以提高查找微博热点话题的精确度。再次,通过热门关键词或热门关键词组采集发现微博用户,可以减少人工查找微博用户的成本。
[0023]上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的【具体实施方式】。
【专利附图】

【附图说明】
[0024]通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
[0025]图1示出了根据本发明实施例中的采集微博内容的方法100的流程图;
[0026]图2示出了根据本发明实施例中的采集微博内容的方法100中Slll?SI 15的流程图;以及
[0027]图3示出了根据本发明实施例中的采集微博内容的设备300的结构框图。
【具体实施方式】
[0028]下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
[0029]下面结合图1来说明根据本发明一个实施例的、适于解决上述技术问题的采集微博内容的方法100的流程图。如图1所示,本发明实施例的方法100包括:步骤S101、步骤S103和步骤S105,方法100始于步骤SlOl,在步骤SlOl中,采集微博用户库中预先选定的微博用户的微博内容和微博参数。
[0030]在本发明的实施例中,微博用户库中记录有多个微博用户的相关信息,其中每个微博用户的选定状态包括:选定和非选定,其中“选定”表示需要采集该微博用户的微博内容和微博参数,“非选定”表示不需要采集该微博用户的微博内容和微博参数。当然可以理解的是,在本发明的实施例中微博用户的选定状态可以进行调整,即可以将微博用户的选定状态由选定调整为非选定,或者将微博用户的选定状态由非选定调整为选定。
[0031]可选地,在本发明的实施例中,可以通过微博网站(例如新浪微博、腾讯微博等)的应用程序编程接口(Application Programming Interface,API)采集微博用户库中预先选定的微博用户的微博内容和微博参数。当然可以理解的是,在本发明的实施例中并不限定采集微博内容和微博参数的具体方式。
[0032]可选地,在本发明的实施例中,微博参数包括:微博用户的属性信息、微博的总转发次数、微博的总评论次数、微博认证用户的转发次数、和微博认证用户的评论次数中的任意一种或多种组合。其中,微博用户的属性信息包括:微博用户的标签信息,例如标签信息可以包括微博用户的爱好、职业、性格等信息。
[0033]随后,在步骤S103中,根据采集到的微博内容和微博参数,提取出与微博热点话题相关的热门关键词或热门关键词组。
[0034]可选地,在步骤S103中,首先根据采集到的微博内容和微博参数,按照预先设定的微博类别对微博内容进行分类处理;对各个微博类别下的微博内容进行微博热点话题处理,得到各个微博类别下与微博热点话题相关的微博内容;对各个微博类别下的与微博热点话题相关的微博内容分别进行分词处理,提取出各个微博类别下的与微博热点话题相关的热门关键词或热门关键词组。
[0035]可选地,在本发明的实施例中,每一个预先设定的微博类别都对应多个关键词,将这些关键词与采集到的微博内容和/或微博参数进行匹配,如果能够匹配上,则将微博内容分类到与该关键词对应的微博类别,其中预先设定的微博类别包括:房产、娱乐、经济、政治和互联网等多种类型。
[0036]可选地,在本发明的实施例中,可以通过各个微博类别下的微博内容中是否具有微博热点话题标志,来判断该微博内容是否与微博热点话题相关,如果微博内容中具有微博热点话题标志,则判断该微博内容与微博热点话题相关。例如该微博热点话题标志可以是“#”,微博热点话题的表现形式可以是“ #假期后遗症#”,即微博热点话题为“假期后遗症”,当然可以理解的是,在本发明的实施例中并不限定微博热点话题标志的具体形式。
[0037]可选地,在本发明的实施例中,在得到各个微博类别下与微博热点话题相关的微博内容之后,可以采用现有的分词技术对微博内容进行分词处理,然后可以基于词语出现的频率,提取出各个微博类别下的与微博热点话题相关的热门关键词或热门关键词组。
[0038]随后,在步骤S105中,根据提取到的热门关键词或热门关键词组,按照预先设定的采集频率采集与热门关键词或热门关键词组相关的微博内容。
[0039]可选地,在本发明的实施例中,对于每次采集都能达到饱和状态的采集,则可以降低采集频率。对于采集数量比较少的热门关键词或热门关键词组,根据采集数量和时间间隔划分出不同的区间,相应地采集频率乘以对应区间的权重。当然可以理解的是,在本发明的实施例中并不限定采集频率的具体值。
[0040]可选地,在本发明的实施例中,可以采用Request-rate指定采集频率,语法:Request-rate:l/5 0600-0845,指定同一个网络爬虫每多少秒采集一次网页和采集时间段,例如1/5 0600-0845,当然可以理解的是,在本发明的实施例中并不限定采集频率的具体值。
[0041]在现有技术中,由于有些微博内容可能涉及微博热点话题,但如果该微博内容中没有微博热点话题标志,则可能导致采集不到该微博内容。而在本发明的实施例中,通过之iu提取的热门关键词或热门关键词组,从微博中米集与热门关键词或热门关键词组相关的微博内容,可使得采集到的微博内容更加全面。
[0042]可选地,在本发明的实施例中,在步骤S105之后,方法100还包括:步骤S107和步骤S109,在步骤S107中,采集发布和/或转发与热门关键词或热门关键词组相关的微博内容的微博用户。
[0043]通过步骤S105可以采集到与热门关键词或热门关键词相关的微博内容的微博用户,然而其中有些微博用户可能在微博用户库中没有记录(即新的微博用户),考虑到这类微博用户发布或转发与热门关键词或热门关键词组相关的微博内容的可能性较高,因此有必要将这类微博用户的相关信息记录到微博用户库中。
[0044]随后,在步骤S109中,将采集到的微博用户更新到微博用户库中,并将采集到的微博用户的选定状态标识为选定。
[0045]可选地,在本发明的实施例中,在步骤S109中微博用户更新之后,可以检测微博用户库中的微博用户是否有重复如果有则删除重复的微博用户的相关信息。
[0046]为了提高提高采集微博内容的工作效率,可以对微博用户库中的微博用户进行恶意注册用户识别和/或活跃度识别。如果微博用户为恶意注册用户,或者微博用户的活跃度较低,则可以将微博用户库中微博用户的选定状态调整为非选定。
[0047]需要说明的是,图1所示的方法并不限定按所示的各步骤的顺序进行,可以根据需要调整各步骤的先后顺序,另外,所述步骤也不限定于上述步骤划分,上述步骤可以进一步拆分成更多步骤也可以合并成更少步骤。
[0048]如图2所示,为本发明实施例中的采集微博内容的方法100中更新微博用户库的流程图,该方法100还包括:步骤S111、步骤S113和步骤S115,在步骤Slll中,判断微博用户库中预先选定的微博用户是否符合预定义的条件。[0049]可选地,在本发明的实施例中,在步骤Slll中可以通过以下两种方式之一或者两种方式的组合来判断微博用户库中预先选定的微博用户是否符合预定义的条件:
[0050]方式一、判断微博用户库中微博用户是否为恶意注册用户,如果述预先选定的微博用户为恶意注册用户,则判断结果为预先选定的微博用户不符合预定义的条件,如果预先选定的微博用户不是恶意注册用户,则判断结果为述预先选定的微博用户符合预定义的条件;
[0051]一般地,恶意注册用户指的是虚假注册用户、僵尸粉丝、僵尸粉或机器注册用户等。
[0052]方式二、判断微博用户库中的预先选定的微博用户的活跃度是否低于预先设定的活跃度阈值,如果微博用户的活跃度低于预先设定的活跃度阈值,则判断结果为预先选定的微博用户不符合预定义的条件;如果微博用户的活跃度不低于预先设定的活跃度阈值,则判断结果为预先选定的微博用户符合预定义的条件,其中活跃度包括:微博用户发布或转发微博的频率、微博用户的连续登录时间和微博用户的当天在线时间中的任意一种或多种组合。
[0053]例如:每日发表微博>5条,活跃度权值=0.2 ;3<每日发表微博<5条,活跃度权值=0.1 ;每日发表微博< 3条;活跃度权值=0 ;
[0054]连续登录奖励规则:连续登录> 3天,活跃度权值=0.5 ;连续登录> 5天,活跃度权值=1 ;连续登录> 10天,活跃度权值=2.5 ;连续登录> 20天,活跃度权值=5 ;连续登录^ 30天,活跃度权值=7.5。
[0055]其中,在上述方式一中可通过以下具体方式来判断微博用户库中微博用户是否为恶意注册用户:
[0056]判断微博用户的用户评分值是否低于预先设定的恶意注册评分值;如果微博用户的用户评分值低于预先设定的恶意注册评分值,则判断结果为微博用户是恶意注册用户;如果微博用户的用户评分值不低于预先设定的恶意注册评分值,则判断结果为微博用户不是恶意注册用户。
[0057]可选地,在本发明的实施例中,可以根据微博用户的头像信息、粉丝的数量、微博内容的质量、发布或转发微博的频率等参数,采用现有的计算方式计算得到用户评分值。例如:用户评分值满分100分,微博用户的头像总分5分,粉丝的数量总分10分,微博内容的质量总分10分,……,然后基于上述评分标准,计算选定微博用户的用户评分值。当然可以理解的是,在本发明的实施例中并不限定识别恶意注册用户的方式。
[0058]如果预先选定的微博用户不符合预定义的条件,则进入步骤S113,在步骤S113中,将微博用户库中预先选定的微博用户的选定状态标识为非选定。也就是,取消采集属于恶意注册用户或活跃度较低的微博用户发布或转发的微博内容。
[0059]如果预先选定的微博用户符合预定义的条件,则进入步骤S115,在步骤S115中,保持微博用户库中预先选定的微博用户的选定状态不变。也就是,如果预先选定的微博用户不是恶意注册用户或者活跃度较高,则下次采集微博内容时,仍然需要采集该微博用户发布或转发的微博内容。
[0060]在本发明的实施例中,步骤Slll~步骤S115可以与图1中的步骤SlOl~步骤S109中的任一步骤同时执行,也可以在其中任一步骤之后或任一步骤之前执行。可选地,步骤Slll?步骤S115可以在图1中的步骤SlOl之前执行,即在采集微博用户库中预先选定的微博用户的微博内容和微博参数之前,判断微博用户库中预先选定的微博用户是否为恶意注册用户和/或者预先选定的微博用户的活跃度较低,如果该微博用户是恶意注册用户和/或微博用户的活跃度较低时,则取消对该微博用户的选定,从而可以减少采集的微博用户的数量,提高采集微博内容的准确性。
[0061]需要说明的是,图2所示的方法并不限定按所示的各步骤的顺序进行,可以根据需要调整各步骤的先后顺序,另外,所述步骤也不限定于上述步骤划分,上述步骤可以进一步拆分成更多步骤也可以合并成更少步骤。
[0062]下面结合图3说明根据本发明一个实施例、适于解决上述技术问题的一种采集微博内容的设备300。
[0063]如图3所示,根据本发明的实施例的采集微博内容的设备300可以主要包括:第一采集模块301、提取模块303和第二采集模块305。应当理解,图3中所表示的各个模块的连接关系仅为示例,本领域技术人员完全可以采用其它的连接关系,只要在这样的连接关系下各个模块也能够实现本发明的功能即可。
[0064]在本说明书中,各个模块的功能可以通过使用专用硬件、或者能够与适当的软件相结合来执行处理的硬件来实现。这样的硬件或专用硬件可以包括专用集成电路(ASIC)、各种其它电路、各种处理器等。当由处理器实现时,该功能可以由单个专用处理器、单个共享处理器、或者多个独立的处理器(其中某些可能被共享)来提供。另外,处理器不应该被理解为专指能够执行软件的硬件,而是可以隐含地包括、而不限于数字信号处理器(DSP)硬件、用来存储软件的只读存储器(ROM)、随机存取存储器(RAM)、以及非易失存储设备。
[0065]在本发明的实施例中,第一采集模块301,用于采集预先选定的微博用户的微博内容和微博参数。
[0066]在本发明的实施例中,提取模块303,用于根据采集到的微博内容和微博参数,提取出与微博热点话题相关的热门关键词或热门关键词组。
[0067]在本发明的实施例中,第二采集模块305,用于根据提取到的热门关键词或热门关键词组,按照预先设定的采集频率采集与热门关键词或热门关键词组相关的微博内容。
[0068]可选地,在本发明的实施例中,设备300还包括:
[0069]第三采集模块307,用于采集发布和/或转发与所述热门关键词或热门关键词组相关的微博内容的微博用户;
[0070]微博用户更新模块313,用于将采集的微博用户更新到微博用户库中,并将采集的微博用户的选定状态标识为选定。
[0071]可选地,在本发明的实施例中,所述第一采集模块301进一步用于通过微博网站的应用程序编程接口采集所述微博用户库中预先选定的微博用户的微博内容和微博参数。
[0072]可选地,在本发明的实施例中,所述提取模块303包括:
[0073]分类单元,用于根据采集到的所述微博内容和微博参数,按照预先设定的微博类别对所述微博内容进行分类处理;
[0074]热点话题处理单元,用于对各个微博类别下的微博内容进行微博热点话题处理,得到各个微博类别下与微博热点话题相关的微博内容;
[0075]提取单元,用于对各个微博类别下的与微博热点话题相关的微博内容分别进行分词处理,提取出各个微博类别下的与微博热点话题相关的热门关键词或热门关键词组。
[0076]继续参见图3,采集微博内容的设备300还包括:判断模块309和选定状态更新模块 311。
[0077]在本发明的实施例中,判断模块309用于判断微博用户库中预先选定的微博用户是否为符合预定义的条件;
[0078]可选地,在本发明的实施例中,判断模块309还包括:恶意注册判断单元3091和/或活跃度判断单元3093,其中
[0079]恶意注册判断单元3091,用于判断所述微博用户库中微博用户是否为恶意注册用户,如果所述预先选定的微博用户为恶意注册用户,则判断结果为所述预先选定的微博用户不符合预定义的条件,如果所述预先选定的微博用户不是恶意注册用户,则判断结果为所述预先选定的微博用户符合预定义的条件;
[0080]活跃度判断单元3093,用于判断所述微博用户库中的预先选定的微博用户的活跃度是否低于预先设定的活跃度阈值,如果所述微博用户的活跃度低于预先设定的活跃度阈值,则判断结果为所述预先选定的微博用户不符合预定义的条件;如果所述微博用户的活跃度不低于预先设定的活跃度阈值,则判断结果为所述预先选定的微博用户符合预定义的条件,其中所述活跃度包括:微博用户发布或转发微博的频率、微博用户的连续登录时间和微博用户的当天在线时间中的任意一种或多种组合。
[0081 ] 可选地,在本发明的实施例中,恶意注册判断单元3091进一步用于判断所述微博用户的用户评分值是否低于预先设定的恶意注册评分值;如果所述微博用户的用户评分值低于预先设定的恶意注册评分值,则判断结果为所述微博用户是恶意注册用户;如果所述微博用户的用户评分值不低于预先设定的恶意注册评分值,则判断结果为所述微博用户不是恶意注册用户。其中,用户评分值可以基于微博用户关注的用户数、微博用户的粉丝数和微博用户发布的微博数计算得到。
[0082]在本发明的实施例中,选定状态更新模块311用于如果预先选定的微博用户不符合预定义的条件,将所述微博用户库中预先选定的微博用户的选定状态标识为非选定;如果预先选定的微博用户符合预定义的条件,则保持所述微博用户库中预先选定的微博用户的选定状态不变。
[0083]在此提供的算法和显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述,构造这类系统所要求的结构是显而易见的。此外,本发明也不针对任何特定编程语言。应当明白,可以利用各种编程语言实现在此描述的本发明的内容,并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。
[0084]在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
[0085]类似地,应当理解,为了精简本公开并帮助理解各个发明方面中的一个或多个,在上面对本发明的示例性实施例的描述中,本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说,如下面的权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循【具体实施方式】的权利要求书由此明确地并入该【具体实施方式】,其中每个权利要求本身都作为本发明的单独实施例。
[0086]本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的替代特征来代替。
[0087]此外,本领域的技术人员能够理解,尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如,在下面的权利要求书中,所要求保护的实施例的任意之一都可以以任意的组合方式来使用。
[0088]本发明的各个部件实施例可以以硬件实现,或者以在一个或者多个处理器上运行的软件模块实现,或者以它们的组合实现。本领域的技术人员应当理解,可以在实践中使用微处理器或者数字信号处理器(DSP )来实现根据本发明实施例的采集微博内容的设备中的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如,计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上,或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到,或者在载体信号上提供,或者以任何其他形式提供。
[0089]应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干设备的单元权利要求中,这些设备中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。
【权利要求】
1.一种采集微博内容的方法,包括: 采集微博用户库中预先选定的微博用户的微博内容和微博参数; 根据采集到的微博内容和微博参数,提取出与微博热点话题相关的热门关键词或热门关键词组; 根据提取到的所述热门关键词或热门关键词组,按照预先设定的采集频率采集与所述热门关键词或热门关键词组相关的微博内容。
2.根据权利要求1所述的方法,其中,在按照预先设定的采集频率采集与所述热门关键词或热门关键词组相关的微博内容的步骤之后,所述方法还包括: 采集发布和/或转发与所述热门关键词或热门关键词组相关的微博内容的微博用户;将采集到的微博用户更新到微博用户库中,并将采集到的微博用户的选定状态标识为选定。
3.根据权利要求1或2所述的方法,其中,所述方法还包括: 判断所述微博用户库中预先选定的微博用户是否符合预定义的条件; 如果所述预先选定的微博用户不符合预定义的条件,则将所述微博用户库中预先选定的微博用户的选定状态标识为非选定; 如果所述预先选定的微博用户符合预定义的条件,则保持所述微博用户库中预先选定的微博用户的选定状态不变。
4.根据权利要求1-3任一项所述的方法,其中,所述判断所述微博用户库中预先选定的微博用户是否符合预定义的条·件的步骤包括: 判断所述微博用户库中微博用户是否为恶意注册用户,如果所述预先选定的微博用户为恶意注册用户,则判断结果为所述预先选定的微博用户不符合预定义的条件,如果所述预先选定的微博用户不是恶意注册用户,则判断结果为所述预先选定的微博用户符合预定义的条件;和/或者 判断所述微博用户库中的预先选定的微博用户的活跃度是否低于预先设定的活跃度阈值,如果所述微博用户的活跃度低于预先设定的活跃度阈值,则判断结果为所述预先选定的微博用户不符合预定义的条件;如果所述微博用户的活跃度不低于预先设定的活跃度阈值,则判断结果为所述预先选定的微博用户符合预定义的条件; 其中,所述活跃度包括:微博用户发布或转发微博的频率、微博用户的连续登录时间和微博用户的当天在线时间中的任意一种或多种组合。
5.根据权利要求1-4任一项所述的方法,其中,所述判断所述微博用户库中微博用户是否为恶意注册用户的步骤包括: 判断所述微博用户的用户评分值是否低于预先设定的恶意注册评分值; 如果所述微博用户的用户评分值低于预先设定的恶意注册评分值,则判断结果为所述微博用户是恶意注册用户; 如果所述微博用户的用户评分值不低于预先设定的恶意注册评分值,则判断结果为所述微博用户不是恶意注册用户。
6.根据权利要求1-5任一项所述的方法,其中,所述用户评分值基于微博用户关注的用户数、微博用户的粉丝数和微博用户发布的微博数计算得到。
7.根据权利要求1-6任一项所述的方法,其中,所述采集预先选定的微博用户的微博内容和微博参数的步骤为: 通过微博网站的应用程序编程接口采集所述微博用户库中预先选定的微博用户的微博内容和微博参数。
8.根据权利要求1-7任一项所述的方法,其中,所述根据采集到的微博内容和微博参数,提取出与微博热点话题相关的热门关键词或热门关键词组步骤包括: 根据采集到的所述微博内容和微博参数,按照预先设定的微博类别对所述微博内容进行分类处理; 对各个微博类别下的微博内容进行微博热点话题处理,得到各个微博类别下与微博热点话题相关的微博内容; 对各个微博类别下的与微博热点话题相关的微博内容分别进行分词处理,提取出各个微博类别下的与微博热点话题相关的热门关键词或热门关键词组。
9.根据权利要求1-8任一项所述的方法,其中,所述微博参数包括:微博用户的属性信息、微博的总转发次数、微博的总评论次数、微博认证用户的转发次数、和微博认证用户的评论次数中的任意一种或多种组合。
10.一种采集微博内容的设备,包括: 第一采集模块,用于采集预先选定的微博用户的微博内容和微博参数; 提取模块,用于根据采集到的微博内容和微博参数,提取出与微博热点话题相关的热门关键词或热门关键词组; 第二采集模块,用于根据提取`到的所述热门关键词或热门关键词组,按照预先设定的采集频率采集与所述热门关键词或热门关键词组相关的微博内容。
【文档编号】G06F17/30GK103593397SQ201310476050
【公开日】2014年2月19日 申请日期:2013年10月12日 优先权日:2013年10月12日
【发明者】冯青松 申请人:北京奇虎科技有限公司, 奇智软件(北京)有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1