一种改进的RBF神经网络热点话题用户参与行为预测方法与流程

文档序号:11143623阅读:479来源:国知局
一种改进的RBF神经网络热点话题用户参与行为预测方法与制造工艺

本发明属于网络话题分析领域,尤其涉及社交网络中热点话题的用户行为分析与预测。



背景技术:

近年来,随着互联网的不断普及与发展,社交网络越来越成为很多人生活中的重要组成部分,微博是其中非常有代表性的社交网络之一,它是一种基于关注机制的社交网络平台,不仅能够让用户自主选择自己感兴趣的其他用户进行收听、关注,也能自由的发布自己的消息,发表的消息同时具有广播性质,即所有人都能够看到,所以,微博不仅具有社交网络的功能,同时也兼备媒体的性质。微博平台作为一种新的舆论媒介,吸引了我国大部分网民参与,其中的热点话题也很快扩散成为整个社会的热点事件,社会影响力也随之激增。同时,微博也秉承自由、开放和共享的社会网络媒体精神,与以往的传统媒介相比,给予每个个体自由表达交流的渠道,也使得其成为新兴话语传播平台。这就意味着,预测某话题将达到的热度,在舆论传播与控制上具有非常重要的意义。不仅能在发表前期预测出它可能的影响范围,也能够在发展中期及时的控制舆论走向。

随之而来的就是对话题数据的分析需求也表现出了快速增长的趋势,因此,有越来越多的研究人员开始关注话题的发展态势。而话题热度的变化可以通过参与该话题的人数动态变化来体现,目前对用户参与行为的预测大致分为以下几种:基于用户过往行为的预测、基于用户文本兴趣的预测、基于用户所受群体影响的预测等。如Zaman等人在《Predicting information spreading in Twitter》中提出一种基于协同过滤模型的用户行为预测方法,通过构建用户信息矩阵来进行预测。Zhang等人在《Retweet behavior prediction using hierarchical dirichlet process》中提出一种基于分层狄利克雷过程的非参数贝叶斯模型,对用户的兴趣进行动态的主题建模。Luo等人在《Who will retweet me?Finding retweeters in Twitter》中使用了基于Pointwise的排序学习方法,针对有可能转发某微博的用户进行top-K排序,根据多种属性判断该用户是否会产生转发行为。

由于上述现有技术均无法体现用户参与行为具有极大的不确定性的特征,忽略了用户在做出是否参与该话题的决定时的随机性与模糊性,因此并不能很好的拟合出实际情况,导致了并不能取得良好的预测效果。同时,多数研究成果均针对静态的参与行为进行预测,无法体现用户参与数量上的动态变化,因此也不能感知话题的态势。因此本发明采用模糊数学中的云理论与RBF神经网络相结合的方法,使该预测模型在能够对用户参与行为起到良好的非线性拟合作用的同时,还能够体现用户行为的随机性与模糊性的特征。其难点在于用户行为的特征选取以及如何将诸多特征转换为定性的云模型表示。



技术实现要素:

本发明针对现有技术中神经网络算法进行预测时,容易陷入局部最小值而且收敛速度慢,同时由于用户行为成因复杂,无法准确体现用户属性与用户行为之间的模糊性与随机性,且用户参与行为随时间动态变化等问题。本发明提出了一种热点话题用户参与行为预测方法。该方法研究已经参与话题用户的粉丝,是否会在各种因素影响下继续参与该话题。同时,分别从用户粉丝自身特征属性、用户外部社交属性两个角度出发,通过RBF神经网络进行用户行为预测。由于用户行为具有模糊性和随机性,因此在模型的学习过程中引入云理论,将云模型代替RBF神经网络中的高斯函数,符合网络话题中用户参与行为的不确定性。进而将用户参与行为的分类问题转化为话题热度预测问题,通过时间切片化处理,并通过指数函数模型进行参数拟合,从而得出话题热度态势走向。提出了一种改进的RBF神经网络热点话题用户参与行为预测方法。本发明的技术方案如下:

一种改进的RBF神经网络热点话题用户参与行为预测方法,其包括以下步骤:

S1:从现有的社交平台的API获取,或者通过网络爬虫抓取web网页中的内容获取社交网络用户数据;

S2:提取相关属性的步骤:考虑到潜在用户参与话题主要原因包括用户个人特征属性以及用户外部社交属性的影响,将从这两个方面提取相关属性;并对用户的信息做时间切片化处理,

S3:建立模型的步骤:将用户属性进行基于云变换的数据拟合,得到正态云后可以构建出高维云,高维云的个数即为RBF神经网络中隐含层的神经元个数,其参数即为隐含层激励函数的聚类中心和带宽,确定好参数后即可对RBF神经网络进行训练,得到预测该用户是否会参与话题的预测模型;

S4:预测和分析过程步骤:通过采用指数平滑法预测未来话题趋势走向,将预测得出的热点话题参与人数的时间序列(y1,y2,…,yn)做三次指数平滑计算,即可拟合出热点话题的热度趋势变化,从而进行对下一时间段的预测。

进一步的,所述步骤S1获取获取社交网络用户数据的具体内容为特定热点话题下的用户参与行为数据及用户关系数据;用户参与行为数据包括该话题被转发及评论的时间、参与用户的个人信息及历史行为数据;用户关系数据包括参与该话题下的用户的所有粉丝和关注用户,以及他们的个人信息。

进一步的,所述步骤S2根据用户个人特征属性提取相关属性,主要包括:

提取潜在用户个人特征属性:潜在用户的个人特征属性主要包括①潜在用户是否为活跃用户isActivity(vi);②潜在用户vi的标签中是否包括与热点话题相同的关键字isSameTag(Vi);③潜在用户的关注用户中参与话题的数量countOfHF(vi);④潜在用户的关注用户的话题带动力inf(vi);将以上有关潜在用户的自身特征属性用xik的统一形式描述,表示潜在用户vi的第k个属性。

进一步的,所述步骤S2根据用户外部社交属性提取相关属性,主要包括:潜在用户的外部社交属性主要包括①潜在用户vi的关注用户是否为认证用户isVip(vi,vj);②潜在用户vi的关注用户是否为意见领袖isLeader(vi,vj);③潜在用户vi与其关注用户性别相同isSameS(vi,vj);④潜在用户vi与其关注用户性别不同isDifS(vi,vj);⑤潜在用户vi与其关注用户地点相同isSameL(vi,vj);⑥潜在用户vi与其关注用户地点不同isDifL(vi,vj);同时,潜在用户是否会参与该热点话题还与其所处的社团影响力有关,因此定义其团队属性为groupInf(vi,Cm),即潜在用户所处的Cm社团是否为对该热点话题感兴趣的社团;将以上有关潜在用户的自身特征属性用xik的统一形式描述,表示潜在用户vi的第k个属性。

进一步的,步骤S3建立模型的步骤主要分以下4个步骤:

S31:对用户自身特征属性和用户外部社交属性分别采用极大值法进行云变换,云变换即对任意不规则的数据分布进行数学变换,它能对样本点进行软分类的模糊聚类,使其成为若干个不同的云的叠加;

S32:将通过云变换的属性值与RBF神经网络相结合,从而确定云模型的隐含层神经元;根据峰值法云变化,对于输入层的每维属性X,可以得到ni个拟合正态云,根据高维云理论和n维正向云发生器构造出n维正态云作为RBF神经网络隐含层的神经元,可以得到(n1×n2×...×nn)个n维云模型,即n个隐含层节点;

S33:从基于n维云模型改进的隐含层神经元中取期望值作为RBF神经网络隐含层神经元的最终输出值;

S34:RBF神经网络中隐含层到输出层之间是一种线性感知器模型,且由于输出层节点由线性函数组成,采用最小二乘法求解连接的权值。

进一步的,所述步骤S4预测和分析过程步骤包括:

S41:将获得的时间序列做三次指数平滑变换;

S42:当时间序列体现出二次曲线趋势时,即建立二次曲线修正模型,该模型为非线性预测模型,能够体现出时序的变化趋势,预测话题热度的发展趋势。

本发明的优点及有益效果如下:

本发明先,考虑到神经网络能够对用户行为之间复杂的非线性关系起到良好的拟合效果,并进一步采用RBF(Radical Basis Function,径向基函数)神经网络构建用户参与行为预测模型,能够在处理大规模网络话题数据时具有收敛速度快、能够局部逼近特征值的优点,并且不易陷入局部最小值;其次,由于用户属性与参与行为之间的映射关系具有不确定性,引入云理论(Cloud)对RBF中隐含层的激活函数进行优化,使得该模型既能够充分表达用户参与行为的模糊性及随机性,又能对于非线性关系具有良好的逼近能力;最后,针对用户的参与行为随时间变化的特点,利用时间离散化及时间切片方法,对话题热度进行基于指数函数模型的参数拟合,从而得出话题热度变化趋势。

本发明提出改进的RBF神经网络热点话题用户参与行为预测方法,不仅能够充分表达用户参与行为的模糊性及随机性,又能对于非线性关系具有良好的逼近能力,而且能够通过用户参与行为体现话题的热度变化,从而感知话题态势,进行有效的舆情监测与管控。

附图说明

图1是本发明提供优选实施例的整体框图。

图2是本发明提供优选实施例改进的RBF神经网络热点话题用户参与行为预测方法的总体流程图。

图3是本发明的预测模型图。

图4是本发明的学习算法流程图。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、详细地描述。所描述的实施例仅仅是本发明的一部分实施例。

本发明解决上述技术问题的技术方案是:

如图1所示为本发明整体框图,表明本发明的输入是话题下网络结构和用户的各项特征,经过预测模型后的输出是已参与该话题用户的粉丝,即潜在用户是否会参与该话题的预测结果。如图2所示为本发明的总体流程图,包括:获取数据模块,解析属性模块,构建模型模块,预测分析模块共四大模块。具体说明本发明的详细实施过程,包括如下四个步骤:

S1:获取数据源。获取社交网络用户数据可以从现有的社交平台的API获取,或者通过网络爬虫抓取web网页中的内容。

S2:提取相关属性。考虑到潜在用户参与话题主要原因包括用户个人特征属性以及用户外部社交属性的影响,将从这两个方面提取相关属性。并对用户的信息做时间切片化处理,

S3:建立模型。将用户属性进行基于云变换的数据拟合,得到正态云后可以构建出高维云,高维云的个数即为RBF神经网络中隐含层的神经元个数,其参数即为隐含层激励函数的聚类中心和带宽。确定好参数后即可对RBF神经网络进行训练,得到预测该用户是否会参与话题的预测模型。

S4:预测和分析过程。通过采用指数平滑法预测未来话题趋势走向,将预测得出的热点话题参与人数的时间序列(y1,y2,…,yn)做三次指数平滑计算,即可拟合出热点话题的热度趋势变化,从而进行对下一时间段的预测。

上述步骤S1获取数据源,提取相关属性的具体内容为特定热点话题下的用户参与行为数据及用户关系数据。用户参与行为数据包括该话题被转发及评论的时间、参与用户的个人信息及历史行为数据;用户关系数据包括参与该话题下的用户的所有粉丝和关注用户,以及他们的个人信息等。

上述步骤S2提取相关属性。主要分以下2个步骤。

S21:提取潜在用户个人特征属性。潜在用户的个人特征属性主要包括①潜在用户是否为活跃用户isActivity(vi);②潜在用户vi的标签中是否包括与热点话题相同的关键字isSameTag(Vi);③潜在用户的关注用户中参与话题的数量countOfHF(vi);④潜在用户的关注用户的话题带动力inf(vi);本发明将以上有关潜在用户的自身特征属性用xik的统一形式描述,表示潜在用户vi的第k个属性。

S22:提取潜在用户外部社交属性。潜在用户的外部社交属性主要包括①潜在用户vi的关注用户是否为认证用户isVip(vi,vj);②潜在用户vi的关注用户是否为意见领袖isLeader(vi,vj);③潜在用户vi与其关注用户性别相同isSameS(vi,vj);④潜在用户vi与其关注用户性别不同isDifS(vi,vj);⑤潜在用户vi与其关注用户地点相同isSameL(vi,vj);⑥潜在用户vi与其关注用户地点不同isDifL(vi,vj);同时,潜在用户是否会参与该热点话题还与其所处的社团影响力有关,因此定义其团队属性为groupInf(vi,Cm),即潜在用户所处的Cm社团是否为对该热点话题感兴趣的社团。本发明将以上有关潜在用户的自身特征属性用xik的统一形式描述,表示潜在用户vi的第k个属性。

上述步骤S3提取相关属性。主要分以下4个步骤。

S31:对用户自身特征属性和用户外部社交属性分别采用极大值法进行云变换,云变换即对任意不规则的数据分布进行数学变换,它能对样本点进行软分类的模糊聚类,使其成为若干个不同的云的叠加。

S311:给定其中一个用户属性X的频率分布函数f(x),根据X属性值的实际频率分布情况,能够自动生成若干粒度不同的云C(Exi,Eni,Hei)的叠加,其中每个云均代表一个离散的、定性的概念,将连续的属性值转换为离散的概念,可以表示为其中ai为幅度系数;n为变换后生成离散概念的的个数。

S312:寻找数据分布函数f(x)的波峰值所在位置,将其属性值定义为云的重心位置,即期望Exi(i=1,2,...,n),计算用于拟合f(x)的、以Exi为期望的云模型的熵,计算云模型的分布函数fi(x)。

S313:从f(x)中减去已知云模型的数据分布fi(x),得到新的数据分布函数f′(x),并在此基础上重复步骤S312和S313,得到多个基于云的数据分布函数。

S314:根据已知的f(x),最后得到的拟合误差函数f′(x)以及各个云模型的分布函数,计算基于云模型的定性概念的3个特征值,及期望、熵和超熵。

S32:将通过云变换的属性值与RBF神经网络相结合,从而确定云模型的隐含层神经元。根据峰值法云变化,对于输入层的每维属性X,可以得到ni个拟合正态云。根据高维云理论和n维正向云发生器构造出n维正态云作为RBF神经网络隐含层的神经元,可以得到(n1×n2×...×nn)个n维云模型,即n个隐含层节点,每个隐含层神经元都对应一个定性聚类概念,避免了RBF神经网络中的聚类过程,该定性概念可以用三组数值特征来描述。

S33:基于n维云模型改进的隐含层神经元实际上是一个X条件云发生器,能够将输入的n维向量转换为一组随机分布的不确定性数值,这些数值虽然彼此不相等,但符合一个稳定的分布,由此从其中取期望值作为RBF神经网络隐含层神经元的最终输出值,这符合人类认知中从不确定性中推导出确定性结果的特点。

对于S32步骤中得出的输入向量xi云模型神经元按以下公式转换为μt

其中,ri1,ri2,...,rik,i∈[1,n]为由熵和超熵每维生成k个正态随机数,云模型隐含层神经元的最终输出值为:

S34:通过S33步可以得到隐含层神经元的输出值,RBF神经网络中隐含层到输出层之间是一种线性感知器模型,且由于输出层节点由线性函数组成,因此采用最小二乘法求解连接的权值。

上述步骤S4预测和分析。主要分以下2个步骤。

S41:将获得的时间序列做三次指数平滑变换。

三次平滑模型为

其中为一次平滑值,为二次平滑值,为三次平滑值。

S42:当时间序列体现出二次曲线趋势时,即建立二次曲线修正模型

其中t为当前时刻;l为预测时刻与当前时刻的时间差;为下一时刻的预测值;at,bt,ct为二次曲线修正系数。其计算公式如下

该模型为非线性预测模型,能够体现出时序的变化趋势,预测话题热度的发展趋势。

本发明利用社交网络中热点话题的互动数据,根据用户的历史参与行为将用户分为参与用户和潜在用户,利用基于云模型改进的RBF神经网络预测话题各个阶段潜在用户的行为,即在话题生命周期的下一阶段潜在用户是否会转发或评论该话题下,并且通过潜在用户行为的预测能够把握话题发展的未来趋势。

以上这些实施例应理解为仅用于说明本发明而不用于限制本发明的保护范围。在阅读了本发明的记载的内容之后,技术人员可以对本发明作各种改动或修改,这些等效变化和修饰同样落入本发明权利要求所限定的范围。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1