基于基尼系数测度的用户兴趣模式划分方法

文档序号:6368968阅读:550来源:国知局
专利名称:基于基尼系数测度的用户兴趣模式划分方法
技术领域
本发明涉及计算机建模技术领域,特别涉及一种基于基尼系数測度的用户兴趣模式划分方法。
背景技术
用户兴趣模式是多种多样的,有些用户属于兴趣广泛型,其对各领域的喜欢程度得分布相对比较均匀;有些用户则是专一喜欢极少类别的事物,其对各领域喜欢程度的分布相对并不均匀。很多时候,即便不同用户喜欢的事物不同,却拥有相同的兴趣模式,比如一个用户是音乐发烧友只喜欢音乐,另ー个用户是军事发烧友只喜欢军事,尽管音乐和军事所属领域大不相同,但是这两个用户都是单兴趣类型用户,他们拥有相同兴趣模式。而目 前有关用户兴趣的研究缺乏对用户兴趣模式的度量方法。因此有必要找到ー种测度用户兴趣模式的方法。经济学中基尼系数对于研究用户兴趣模式分类有很大的借鉴意义。基尼系数是经济学中国际上通用的评估社会贫富差异的ー种度量方法,度量的是社会总收入在全体人口中的分布情况,这与用户兴趣模式的研究度量用户兴趣在各领域间相对分布的问题有很大相似之处。为了研究社会财富分配不平等问题,1905年美国统计学家M. O.洛伦茨(Max OttoLorenz)提出了著名的洛伦茨曲线(lurenz curve)。经济学中的洛伦茨曲线(图I中实心线)是ー种财富分布累计函数的图形化表示方法。对于图I中洛伦茨曲线上任一点(x%,y% ),它的含义是贫到富排列前x%的人口的累计总收入占社会总收入的比例是y%。图中“绝对公平线”(curve of absoluteequality)表示社会总收入在全体居民中绝对平均分配时的收入分配曲线,是一条“y = x”的直线;“绝对不公平线”(Curve of absolute inequality)是社会所有收入被一个人卩隹一占据时的收入分配曲线,是一条垂直于X轴的直线。洛伦茨曲线一般位于绝对公平线与绝对不公平线之间。1912年,意大利经济学家基尼根据洛伦茨曲线,提出了基尼系数(Ginicoefficient)。基尼系数作为测度一个变量分布集中度(不平均性质)的指标,现代经济学中常用其来度量贫富差距。如图I所示,设洛伦茨曲线和绝对公平线之间的面积为A,洛伦茨曲线与绝对不公平线和X轴围成的图形面积为B。并以A除以A+B的商表示不平等程度即为基尼系数。用以下公式(I)表示为这个数值被称为基尼系数或称洛伦茨系数,大小位于O到I之间。洛伦茨曲线与绝对公平线之间的面积A越小,收入分配越是趋向平等,洛伦茨曲线的弧度也就越小,基尼系数也越小;反之,收入分配越是趋向不平等,洛伦茨曲线的弧度越大,那么基尼系数也越大。基尼系数在度量贫富差距时,其本质假设是社会的总收入是同质的,度量其在全体人口的分布情況。现有技术集中在依据用户兴趣相似度研究用户偏好。缺乏从用户兴趣模式角度研究用户兴趣,无法准确地对用户兴趣模式进行划分。

发明内容
(一)要解决的技术问题本发明要解决的技术问题是如何准确地对用户兴趣模式进行划分。(ニ)技术方案为解决上述技术问题,本发明提供了一种基于基尼系数測度用户兴趣划分方法,包括以下步骤 SI :基于向量空间模型VSM架构用户兴趣模型,用户兴趣领域集合为T= {兴趣1,兴趣2,...,兴趣N},对于任何ー个用户,其用户兴趣模型可以表示为U = {〈兴趣I,兴趣度1>,···,〈兴趣N,兴趣度N〉};S2:对用户兴趣模型按照用户兴趣度升序进行排序,得到排序后的用户兴趣度为u^;d = {wlorte\wlorte\...,ws;rted} ·
5S3 :将步骤S2中的ひ念^"兴趣度转化成占用户本身总体兴趣度的百分比t/u;er = {w%,W°/0,...,W^0};S4 :根据ひ;L计算每个用户的ひ==卜^ル…,,ひ=:为生成洛伦茨曲线的向量,其中 W1 =Σ wJ0 (I < /' < ^V);
;=ιS5 :以ひ=的值为纵坐标,以领域的兴趣度由低到高排列为横坐标,得出用户兴趣模式的洛伦茨曲线,并计算基尼系数,由基尼系数划分用户的兴趣模式。其中,所述步骤S5中,按如下公式计算基尼系数
N II
^ [-X (w,+^) X-]N其中,所述基尼系数差值越小的用户,兴趣模式越相似。(三)有益效果本发明通过利用洛伦茨曲线和基尼系数定性和定量的測度用户兴趣模式的方法,使得对用户兴趣模式的划分更加准确。


图I是洛伦茨曲线示意图;图2是本发明实施例的一种基于基尼系数測度的用户兴趣模式划分方法流程图;图3是实施例中表示用户Α、B、C兴趣的洛伦茨曲线示意图;图4是实施例中表示用户A兴趣的洛伦茨曲线的梯形近似分解示意图5是movielens数据集中943个用户洛伦茨曲线示意图;图6是movielens数据集中943个用户基尼系数频数分布示意图;图7是Movielens数据集中根据基准用户划分的基尼系数分布情況。
具体实施例方式下面结合附图和实施例,对本发明的具体实施方式
作进ー步详细描述。以下实施例用于说明本发明,但不用来限制本发明的范围。本发明的基于基尼系数測度的用户兴趣模式划分方法流程如图I所示,包括步骤S201,基于向量空间模型(Vector Space Model, VSM)架构用户兴趣模型,用户兴趣领域集合为T = {兴趣I,兴趣2,...,兴趣N},对于任何一个用户,他的用户兴趣可以表示为U= {〈兴趣1,兴趣度1>,...,〈兴趣N,兴趣度N〉}。Uuser = Ktheme1, weighty, . . . , <themeN, weightN>}Theme是对应集合T中的主题,weight是用户对相应领域兴趣度大小,是事先设定用户对某领域感兴趣程度的权重,表示用户对某领域感兴趣的程度,也可直接表示成Uuser = {weighty weight2, . . . , weightj。步骤S202,对用户兴趣模型按照用户兴趣度升序进行排序,得到排序后的用户兴趣为
权利要求
1.一种基于基尼系数測度的用户兴趣模式划分方法,其特征在于,包括以下步骤 51:基于向量空间模型VSM架构用户兴趣模型,用户兴趣领域集合为T = {兴趣1,兴趣2,...,兴趣N},对于任何一个用户,其用户兴趣模型可以表示为U = {〈兴趣1,兴趣度,〈兴趣N,兴趣度N〉};52:对用户兴趣模型按照用户兴趣度升序进行排序,得到排序后的用户兴趣度为
2.如权利要求I所述的基于基尼系数測度的用户兴趣模式划分方法,其特征在于,所述步骤S5中,按如下公式计算基尼系数
3.如权利要求I所述的基于基尼系数測度的用户兴趣模式划分方法,其特征在于,所述基尼系数差值越小的用户,兴趣模式越相似。
全文摘要
本发明公开了一种基于基尼系数测度的用户兴趣模式划分方法,涉及计算机建模技术领域,包括S1基于向量空间模型VSM架构用户兴趣模型;S2对用户兴趣模型按照用户兴趣度升序进行排序得到排序后的兴趣度S3将步骤S2中的兴趣度转化成占用户本身总体兴趣度的百分比S4根据计算每个用户的为生成洛伦茨曲线的向量;S5以的值为纵坐标,以领域的兴趣度由低到高排列为横坐标,得出用户兴趣模式的洛伦茨曲线,并计算基尼系数,由基尼系数划分用户的兴趣模式。本发明实现了对用户兴趣模式的准确划分。
文档编号G06F17/50GK102693335SQ20121013350
公开日2012年9月26日 申请日期2012年4月28日 优先权日2012年4月28日
发明者刘海峰, 张平, 田辉, 白海, 胡铮, 花青松 申请人:北京邮电大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1