网络转发行为预测方法及装置的制造方法
【技术领域】
[0001] 本发明涉及计算机技术领域,特别是涉及一种网络转发行为预测方法及装置。
【背景技术】
[0002] 我国微博应用于2009年正式发布,正是发布以来,迅速以其内容简洁、交互便捷 和快速传播等特点,发展成为人们表达观点、抒发情绪、传递信息的重要社会媒体。截至 2014年6月底,我国微博用户规模为2. 75亿,用户之间结成复杂的关注关系,每天发送微博 近1亿条,信息沿着用户间的关注关系进行传播,形成传播网络。
[0003] 微博转发是消息在微博网络中得到持续传播的重要方式,微博转发预测能够有效 估计消息是否能获得转发及其转发规模,及早发现可能引发大规模爆发的微博,对微博突 发性检测和微博影响力评估具有重要意义。
[0004] 针对微博转发问题的代表性方法包括以下两类,一是以Suh为代表的针对某些 消息具有更高的转发性这一现象,基于Twitter数据分析多种微博转发的影响因素,提取 URL、标签、关注人数、粉丝人数等内容和统计特征,通过主成分分析和广义线性模型的分析 方法,建立各影响因素与微博转发之间的函数关系,以此对微博转发行为进行预测。二是以 Yang为代表的基于微博转发树的方法,通过截取Twitter消息中的RTOusername提取微博 转发关系建立微博转发树,然后基于因子图模型建立转发预测模型,以用户为节点,转发关 系为连边,将用户转发和不转发作为两种节点状态,该模型将节点属性、前一时刻节点状态 以及前后两个时刻的邻居节点状态作为训练数据获得模型参数,最终实现节点状态预测。
[0005] 以高转发率微博属性提取的方法主要针对用户静态属性或消息特征来预测消息 是否会被转发,没有充分考虑待预测用户的个体差异性和知识背景对转发决策的影响。用 户在阅读到一条微博时,会根据自己已有相关知识对微博价值和新颖性进行判断,然后决 定是否进行转发。用户具有哪些相关知识可以从用户历史所发微博中分析获得,但通过用 户历史微博来获取用户所掌握的知识具有时间和内容局限性。时间局限性是指用户历史微 博反映的都是用户以往感兴趣的内容,而用户的兴趣是随时间和外部事件影响而动态变化 的,在面对一些新发生的热点事件时,无法通过分析历史微博判断用户对热点事件的感兴 趣程度,往往造成预测准确性低。内容局限性是指微博只是用户进行网络交互的一种方式, 难以期望用户将自己所有的生活、学习和工作的方方面面信息完整的反映在微博里。所以 仅依靠用户历史微博来计算用户兴趣,进而计算用户兴趣与待转发微博内容的相似程度, 据此判断用户是否会转发某条微博是不准确的。
[0006] 基于转发关系的因子图模型方法需要建立完整的微博转发树、前一时刻节点状态 以及前后两个时刻的邻居节点状态,这需要获得完整的转发关系和历史转发日志数据,但 是在实际转发预测问题中,大部分情况下只能获取到部分用户转发数据和局部日志数据, 建立完整的转发树和节点状态是很困难的,并且计算复杂度较高。
【发明内容】
[0007] 鉴于上述问题,提出了本发明以便提供一种克服上述问题或者至少部分地解决上 述问题的网络转发行为预测方法及装置。
[0008] 本发明提供一种网络转发行为预测方法,包括:
[0009] 计算待预测用户的转发行为与热点事件趋势的第一匹配度,并计算待预测微博与 热点事件的第二匹配度;
[0010] 将第一匹配度、第二匹配度、以及待预测用户的信息输入到预先训练好的分类器 中,输出待预测用户对待预测微博的动作类型。
[0011] 优选地,计算待预测用户的转发行为与热点事件趋势的第一匹配度具体包括:
[0012] 通过提取待预测微博的话题标签,判断话题标签内容是否命中热点事件,如果命 中,则确定待预测微博属于该热点事件,如果未命中,则计算待预测微博的关键词与热点事 件匹配度,将匹配度最高的热点事件判定为待预测微博所属的热点事件。
[0013] 优选地,计算待预测微博的关键词与热点事件匹配度具体包括:
[0014] 根据公式1计算待预测微博的关键词与热点事件匹配度pf;
[0016] 其中,m表示待预测微博,S表示热点事件,Vm表示待预测微博的特征词集合,V5表 示热点事件的特征词集合。
[0017] 优选地,计算待预测微博与热点事件的第二匹配度具体包括:
[0018] 在热点事件发生周期内,计算热点事件相关微博在热点事件发生周期内每天的积 累转发量,并计算待预测微博的用户在热点事件发生周期内每天转发相关微博的数量;
[0019] 根据公式2计算待预测微博的用户转发行为与热点事件趋势的匹配度;
[0021] 其中,s表示热点事件,u表示待预测微博的用户,t表示热点事件发生周期,<表 示第i天与热点事件S相关的微博转发总量,^^表示ivf的平均值。况^/;)表示第i天用 户U所转发的与热点事件S相关的微博数量,允表示的平均值。
[0022] 优选地,对分类器进行训练具体包括:
[0023] 选取预订时段内的热点事件列表,根据热点事件列表在网络上爬取相关信息,针 对信息进行内容提取,对提取的内容进行分词和词频统计,形成由关键词组成的特征词集 合,并获取与热点事件列表中的热点事件相关的微博用户作为训练样本集,并在训练样本 集中标识用户、微博、以及动作类型之间的关系;
[0024] 基于训练样本集,通过提取微博的话题标签,判断话题标签内容是否命中热点事 件,如果命中,则确定微博属于该热点事件,如果未命中,则根据公式1计算微博的关键词 与热点事件匹配度/>,t,将匹配度最高的热点事件判定为待预测微博所属的热点事件;
[0026] 其中,m表示微博,s表示热点事件,表示微博的特征词集合,¥3表示热点事件的 特征词集合;
[0027] 基于训练样本集,在热点事件发生周期内,计算热点事件相关微博在热点事件发 生周期内每天的积累转发量,并计算微博用户在热点事件发生周期内每天转发相关微博的 数量;
[0028] 根据公式2计算微博用户转发行为与热点事件趋势的匹配度Af ? ,
[0030] 其中,s表示热点事件,u表示待预测微博的用户,t表示热点事件发生周期,iVf表 示第i天与热点事件S相关的微博转发总量,# S表示iVf的平均值。]<(/;)表示第i天用 户U所转发的与热点事件S相关的微博数量,允表示的平均值;
[0031] 基于训练样本集,将微博的关键词与热点事件匹配度微博用户转发行为与热 点事件趋势的匹配度A)、以及动作类型输入到分类器,对分类器进行训练。
[0032] 本发明还提供了一种网络转发行为预测装置,包括:
[0033] 计算模块,用于计算待预测用户的转发行为与热点事件趋势的第一匹配度,并计 算待预测微博与热点事件的第二匹配度;
[0034] 预测模块,用于将第一匹配度、第二匹配度、以及待预测用户的信息输入到训练模 块预先训练好的分类器中,输出待预测用户对待预测微博的动作类型。
[0035] 优选地,计算模块具体用于:
[0036] 通过提取待预测微博的话题标签,判断话题标签内容是否命中热点事件,如果命 中,则确定待预测微博属于该热点事件,如果未命中,则计算待预测微博的关键词与热点事 件匹配度,将匹配度最高的热点事件判定为待预测微博所属的热点事件。
[0037] 优选地,计算模块具体用于:
[0038] 根据公式1计算待预测微博的关键词与热点事件匹配度pf ;
[0040]其中,m表示待预测微博,s表示热点事件,Vm表示待预测微博的特征词集合,V 5表 示热点事件的特征词集合。
[0041] 优选地,计算模块具体用于:
[0042] 在热点事件发生周期内,计算热点事件相关微博在热点事件发生周期内每天的积 累转发量,并计算待预测微博的用户在热点事件发生周期内每天转发相关微博的数量;
[0043] 根据公式2计算待预测微博的用户转发行为与热点事件趋势的匹配度Pf ;
[0045] 其中,s表示热点事件,u表示待预测微博的用户,t表示热点事件发生周期,If 表示第i天与热点事件S相关的微博转发总量,分s表示iVf的平均值。ivf的表示第i天 用户U所转发的与热点事件S相关的微博数量,&表示<的的平均值。
[0046] 优选地,训练模块具体用于:
[0047] 选取预订时段内的热点事件列表,根据热点事件列表在网络上爬取相关信息,针 对信息进行内容提取,对提取的内容进行分词和词频统计,形成由关键词组成的特征词集 合,并获取与热点事件列表中的热点事件相关的微博用户作为训练样本集,并在训练样本 集中标识用户、微博、以及动作类型之间的关系;
[0048] 基于训练样本集,通过提取微博的话题标签,判断话题标签内容是否命中热点事 件,如果命中,则确定微博属于该热点事件,如果未命中,则根据公式1计算