基于关键词提取和基尼系数的微博用户分类方法
【专利摘要】基于关键词提取和基尼系数的微博用户分类方法。在本发明中,我们对微博用户发表的内容进行关键词的提取与聚类以得到兴趣领域,由用户在不同兴趣领域的兴趣度,使用洛伦兹曲线和基尼系数对其进行分类。计算用户基尼系数的均值μ和标准差σ,以(μ-2σ)、(μ-σ)、μ、(μ+σ)和(μ+2σ)作为分界值,将微博用户分为六种类型:兴趣极广泛型、兴趣较广泛型、兴趣中庸偏广泛型、兴趣中庸偏狭窄型、兴趣较狭窄型、兴趣极狭窄型。在投放广告时,按照投放广告的大众程度,对基尼系数排名使用控制值进行投放。通过使用控制值,能够避免胡乱投发广告,引起用户反感。本发明对微博用户的分类提供了一种全新的方法,并为微博营销、个性化服务等提供了一种新的参考,具有较强的实用性与实践价值。
【专利说明】基于关键词提取和基尼系数的微博用户分类方法
【技术领域】
[0001] 本发明属于用户分类技术,具体涉及一种基于关键词提取、洛伦兹曲线以及基尼 系数的微博用户分类方法。
【背景技术】
[0002] 随着信息技术以及网络的高速发展,越来越多的Web2. 0服务出现在人们的生活 中。微博是一个基于用户关注与微博转发的信息分享与传播平台,用户可以通过网页客户 端,手机客户端和第三方应用程序等多种方式,随时随地发布140个字符以内的微博信息, 实现用户之间的即时分享。3G技术的发展和手机移动上网功能逐步完善,为微博"井喷式" 的发展提供了便利的条件。2013年1月,中国互联网络信息中心发布《第31次中国互联网 络发展统计报告》,统计结果显示,截至2012年12月底,我国微博用户规模为3. 09亿,较 2011年底增幅达到23. 5%。
[0003] 现如今,微博已经成为中国网民使用的主流应用。微博具有的庞大用户规模,进一 步地巩固了其网络舆论传播中心的地位。微博以其庞大的用户规模和影响力进一步巩固加 强了微博作为网络舆论的传播中心的地位,无论是普通网民,草根用户,还是传统媒体或意 见领袖,其获取消息、传播新闻、制造舆论、发表观点的途径都不同程度地向微博平台倾斜 转向,微博正重新塑造着舆论的产生和传播机制。微博持续增长的人气使得对其内容的分 析十分重要,以便于在此类事件中,微博的信息可以被有效地利用。
[0004] 作为一个用户基数极大、用户活跃度很高的社交平台,微博是一个非常有潜力的 市场。通过对微博进行分析,可以挖掘出很多有用的信息,从而发挥其商业价值。基于用户 兴趣、行为习惯和在网络中的位置等,对微博用户进行划分,可以帮助商品的制造商和销售 商更加准确地找到自己产品的潜在购买者,也便于进行更加精准的市场营销;挖掘出其中 最有影响力、最受关注的用户,对其进行有针对性地投放一些市场调查或商业广告,可以取 得更好的效果。
[0005] 随着微博在国内的普及,微博用户数量的急剧增加,对微博用户的研究也逐渐展 开。目前国内对于微博用户兴趣的研究大多为根据用户以往的历史行为如关注信息等对其 进行兴趣建模,在此基础上对用户进行分类。但是,用户不仅有不同的兴趣领域,他们对不 同兴趣领域的兴趣程度也是不同的。有些用户兴趣广泛,对很多领域内的事物都保持着相 当的兴趣,且乐于接受相关领域内的新事物。而有些用户非常专一,只喜欢特定的少部分的 事物,并且只希望在该领域内继续深入,而不希望拓展自己的兴趣领域。所以,很多时候会 出现这样的情况。例如,虽然两个用户都喜欢音乐,但一名用户是爱好广泛型,而另一名用 户为爱好狭窄型,则对这两名用户所做的推荐就应该有所区别。另外,如果一名用户只喜欢 音乐,而另一名用户只喜欢电影,那么这两名用户也拥有着相同的兴趣模式,而已有的划分 方法往往将他们分到不同的类别中去。因此有必要找到一种能够划分用户兴趣领域并度量 用户对各个兴趣领域的兴趣度的方法,从而对用户进行分类。
[0006] 本发明新提出基于关键词提取和基尼系数的微博用户划分方法,在对微博用户发 表的内容进行关键词提取并聚类得到兴趣领域的基础上,计算用户的基尼系数并对其进行 客观的划分。在本发明中,我们使用API接口,抓取微博数据,对用户发表的微博内容进行 关键词提取并聚类以得到兴趣领域,使用空间向量模型表示用户对兴趣领域的兴趣度,利 用洛伦兹曲线和基尼系数对用户兴趣度进行定性与定量的度量,并据此对用户进行分类。 本发明对微博用户的分类从新的角度提供了一种新的方法,并为以后对微博用户进行推荐 提供了参考。
【发明内容】
[0007] 本发明是使用微博开放平台提供的API接口,抓取数据,对每个用户发表的最近 一个月的微博内容进行关键词提取,使用K-均值聚类算法对关键词进行聚类以得到兴趣 领域,并对各个领域进行分析。使用空间向量模型表示用户对兴趣领域的兴趣度,首次提出 将国民经济研究中的洛伦兹曲线和基尼系数应用到对微博用户的兴趣模式建立中,并据此 对用户进行分类。以此考察用户在每个月内的兴趣分布情况,以及随着时间的推移,用户兴 趣分布的改变情况。
[0008] 目前很多主流的用户权限认证都使用Oauth协议认证。用户向服务器请求数据 时,使用Oauth协议认证可以避免每次都需要传输用户名和密码,通过access_token和 accessjecret使得用户正常访问数据的同时保证了用户账号的安全性。国内所有的微博 平台都是开放的,并为广大开发者和用户提供了开放数据分享与传播的微博开放平台,其 上有许多供用户使用的API。通过Oauth认证后,基于这些API,可以进行微博数据的抓取。
[0009] 在取得数据之后,对微博内容经过预处理,并对微博进行分词处理与去除停用词。 然后使用TF-IDF算法进行关键词的提取。具体公式与方法如下:
[0010]
【权利要求】
1. 每次抓取数据,只选取微博用户在最近1个月发布的微博,每个月都实现一次本发 明方法,以此来观察用户兴趣分布的变化情况。
2. 对每个微博用户使用TF-IDF算法进行关键词的提取,剔除重复的关键词,并进行频 数的统计,按照频数的降序排列,这里的频数指的是有多少个不同用户出现了该关键词,对 频数设定阈值为3,去掉频数为1和2的关键词。
3. 统计所有关键词的共现次数,以此建立维度分别为关键词、内容为两个关键词之间 共现次数的关键词共现矩阵,将关键词共现矩阵导入UCINET软件中计算两两之间的相似 度,然后使用K-均值聚类算法对整体关键词进行聚类,得到的聚类即为兴趣领域。
4. 使用空间向量模型表示微博用户对每个兴趣领域的兴趣度,这里的兴趣度指的是每 个用户关键词列表中所有关键词在各个领域中的数目比重,第一步将用户对各个领域的兴 趣度由低到高排序,第二步由第一步得到的向量模型计算每个用户在每个领域兴趣度的百 分比,第三步对每一个用户计算第二步中第1组的百分比累加到第t组1 < τ < 7)兴趣 度之和占全体兴趣度的百分比得到Ueini向量,以全体兴趣领域为横坐标,用户的兴趣度亦 即用户的U eini向量中的数值作为纵坐标绘制所有用户的洛伦兹曲线,然后利用洛伦兹曲线 计算基尼系数。
5. 计算整体用户基尼系数的均值μ和标准差〇,以(μ-2σ)、(μ-σ)、μ、(μ + σ) 和(μ +2 σ )作为分界值,将微博用户分为六种类型:兴趣极广泛型:0 < Gini < ( μ -2 〇 ); 兴趣较广泛型:(μ -2 〇 ) < Gini < ( μ - σ );兴趣中庸偏广泛型:(μ - σ ) < Gini < μ ; 兴趣中庸偏狭窄型:μ < Gini < ( μ + σ );兴趣较狭窄型:(μ + σ ) < Gini < ( μ +2 σ ); 兴趣极狭窄型:(μ+2 σ )< Gini < 1. 0。针对不同的用户类型,可以采取不同的推荐与营 销策略以及个性化服务。
【文档编号】G06F17/30GK104142950SQ201310169655
【公开日】2014年11月12日 申请日期:2013年5月10日 优先权日:2013年5月10日
【发明者】施晓菁, 梁循, 张海燕 申请人:中国人民大学