一种评估视频业务的潜在用户的方法及相关装置与流程

文档序号:11234607阅读:242来源:国知局
本发明涉及视频领域,具体涉及一种评估视频业务的潜在用户的方法及相关装置。
背景技术
::随着视频业务的用户体验不断提升,4k超高清视频走入人们的视线之中。运营商通过部署4k超高清视频平台,并积极进行4k超高清视频业务的推广,从而达到增加4k超高清视频业务的用户量的目的。目前的推广方式主要是通过人工对用户发送短信或者拨打电话以评估待开通4k超高清视频业务的潜在用户。但是这种人工广撒网的推广方式,评估效率太低。技术实现要素:本申请提供了一种评估视频业务的潜在用户的方法及相关装置,用于解决现有视频业务在推广过程中评估潜在用户效率低的问题。第一方面提供一种评估视频业务的潜在用户的方法,其中,该视频业务包括多种类型,例如:4k超高清视频业务,2k高清视频业务等,本申请针对目标视频业务评估其潜在用户,该目标视频业务为视频业务中的至少一个,例如,该目标视频业务为4k超高清视频业务。首先,评估装置获取第一用户和第二用户对视频业务的目标行为数据,其中,该第一用户为安装该目标视频业务的用户,该第二用户为未安装该目标视频业务的用户,该目标行为数据包括多种内容,例如:开销行为数据,观看行为数据,用户元数据等,评估装置根据该目标行为数据确定第二用户对目标视频业务的总安装概率,并通过该总安装概率从该第二用户中评估得到该目标视频业务的潜在用户。可见,本申请取代人工广撒网的推广方式,直接通过有效数据自动评估得到目标视频业务的潜在用户,准确度高,从而有效提高评估效率。评估装置获取第一用户和第二用户对视频业务的目标行为数据的方式有很多种,下面介绍可能的一种实现方式:评估装置先获取第一用户和第二用户对该视频业务的原始行为数据,其中,该原始行为数据包括多种内容,例如:开销行为数据,观看行为数据,用户元数据,终端设备数据等,为了从该原始行为数据中提取到目标行为数据,需要对该原始行为数据进行过滤处理。其中,过滤的规则可以为:过滤掉用户状态为非正常的原始行为数据,例如,该用户为欠费状态或者该用户为销户状态等,过滤掉终端频道的原始行为数据,例如,用户浏览终端频道的行为数据等,过滤掉用户观看视频时间小于1分钟的原始行为数据等。然后从过滤后的原始行为数据中统计目标内容以得到该目标行为数据,其中,该目标内容可以是用户自定义的内容或者评估装置默认的内容,例如,以用户总体观看行为统计,统计的目标内容包括用户基本信息,用户观看频道的行为数据,用户观看视频的行为数据等。通过从原始行为数据中提取得到实用性高的目标行为数据,该目标行为数据用于评估目标视频业务的潜在用户,从而有效提高评估效率。将视频业务按照播放形式进行分类,该视频业务包括直播视频业务和点播视频业务中的至少一个,其中,该直播视频业务包括频道等,该点播视频业务包括电影、电视剧、综艺节目等。该目标视频业务包括目标点播视频业务和目标直播视频业务中的至少一个,其中,例如,该目标直播视频业务为4k超高清cctv1,cctv2,该目标点播视频业务为4k超高清电影,4k超高清电视剧等。评估装置根据该目标行为数据确定第二用户对目标视频业务的总安装概率之前,还需要根据该目标行为数据确定第二用户对视频业务的倾向度s1,确定第二用户对目标视频业务的倾向度s2,确定第二用户对视频业务的开销倾向度s3,确定第二用户对视频业务与第一用户对视频业务的使用相似度s4,确定第二用户对目标视频业务的安装概率s5,并根据s1、s2、s3、s4、s5和s1、s2、s3、s4、s5分别对应的权重的乘积之和确定第二用户对目标视频业务的总安装概率。例如,s1、s2、s3、s4、s5分别对应的权重为w1,w2,w3,w4,w5,则总安装概率s0=s1*w1+s2*w2+s3*w3+s4*w4+s5*w5。通过多种维度计算出第二用户对目标视频业务的总安装概率,从而有效提高评估的准确度。当然,可根据实际需要,选取s1、s2、s3、s4、s5中的至少一个,并与其对应的权重的乘积之和确定第二用户对该目标视频业务的总安装概率,此处不做具体限定。目标行为数据可包括多种内容,其中不限于包括:第二用户观看视频业务的次数、天数,第二用户观看非视频业务的次数、天数,第二用户浏览目标视频业务的次数、天数,第二用户观看视频业务的开销次数、天数,第一用户观看交集视频业务的时长和第二用户观看交集视频业务的时长中的至少一个。其中,该交集视频业务为第一用户和第二用户观看视频业务的交集部分,例如,该交集视频业务为综艺节目《朗读者》第一期,其中,第一用户观看的时长为30分钟,第二用户观看的时长为35分钟等。确定s1、s2、s3、s4、s5的方式有很多种,下面分别以可能的实现方式进行说明:若该目标行为数据包括第二用户观看非视频业务的次数、天数,第二用户观看所述视频业务的次数、天数,其中,该非视频业务是该视频业务以外的业务,例如,假设该视频业务为点播视频业务,则该非视频业务可以为点播视频业务之外的直播视频业务等。则根据目标行为数据确定第二用户对视频业务的倾向度s1包括:确定第二用户观看视频业务的次数与第二用户观看视频业务和非视频业务的总次数的比值d1,确定第二用户观看视频业务的天数与第二用户观看视频业务和非视频业务的总天数的比值d2,将d1和d2的和值乘以对应的权重确定为第二用户对视频业务的倾向度s1。其中,该权重是由用户自定义的或者评估装置默认设置的,此处不做具体限定。例如,该权重为0.5,则s1=(d1+d2)*0.5。若该目标行为数据包括第二用户浏览目标视频业务的次数、天数,第二用户观看视频业务的次数、天数,由于第二用户暂且没有安装该目标视频业务,因此只能浏览该目标视频业务。其中,第二用户观看视频业务包括第二用户观看目标视频业务以外的其他视频业务以及第二用户浏览该目标视频业务。则根据目标行为数据确定第二用户对目标视频业务的倾向度s2包括:确定第二用户浏览目标视频业务的次数与第二用户观看视频业务的次数的比值d3,确定第二用户浏览目标视频业务的天数与第二用户观看视频业务的天数的比值d4,将d3和d4的和值乘以对应的权重确定为第二用户对目标视频业务的倾向度s2。例如,该权重为0.5,则s2=(d3+d4)*0.5。若该目标行为数据包括第二用户观看视频业务的开销次数、天数,第二用户观看视频业务的次数、天数,则根据目标行为数据确定第二用户对视频业务的开销倾向度s3包括:确定第二用户观看视频业务的开销次数与第二用户观看视频业务的次数的比值d5,确定第二用户观看视频业务的开销天数与第二用户观看视频业务的天数的比值d6,将d5和d6的和值乘以对应的权重确定为第二用户对视频业务的开销倾向度s3。例如,该权重为0.5,则s3=(d5+d6)*0.5。若该目标行为数据包括第一用户观看交集视频业务的时长和第二用户观看交集视频业务的时长,则根据目标行为数据确定第二用户对视频业务与第一用户对视频业务的使用相似度s4包括:用公式表示为:其中,ui表示第一用户,uj表示第二用户,xi表示第一用户观看交集视频业务的时长,yi表示第二用户观看交集视频业务的时长,n表示交集视频的个数,i和j均为大于0的整数;若该目标行为数据包括第一数据和第二数据以及第三数据,则根据所述目标行为数据确定第二用户对目标视频业务的安装概率s5包括:将第一数据输入到随机森林算法中训练得到第一模型,其中,该第一数据包括第三用户观看视频业务的属性特征和第三用户是否安装目标视频业务的实际结果,即该第三用户未安装该目标视频业务或者该第三用户已安装该目标视频业务。然后将第二数据输入到第一模型,得到第四用户的安装概率,并与第四用户是否安装目标视频业务的实际结果作对比,得到第一模型的准确率,其中,该第二数据包括第四用户观看视频业务的属性特征和第四用户是否安装目标视频业务的实际结果,即该第四用户未安装该目标视频业务或者该第四用户已安装该目标视频业务,该第三用户与该第四用户为不同的用户,第三用户观看视频业务的属性特征的个数与第四用户观看视频业务的属性特征的个数相同。通过将第四用户观看视频业务的属性特征输入到第一模型中,得到该第一模型的准确率,若该准确率大于预设阈值,则将第三数据输入到第一模型中得到第二用户对目标视频业务的安装概率s5,其中,该预设阈值是用户自定义或者评估装置默认的,例如,该预设阈值为90%,该第三数据包括第二用户观看视频业务的属性特征。在确定第二用户对目标视频业务的总安装概率之后,评估装置获取该总安装概率中大于预设概率值的总安装概率,将大于预设概率值的总安装概率所对应的第二用户确定为目标视频业务的潜在用户。例如,选取大于80%的总安装概率,然后将大于80%的总安装概率所对应的第二用户确定为潜在用户,即安装该目标视频业务的可能性较大。第二方面提供一种评估视频业务的潜在用户的装置,该装置被配置实现上述第一方面或者第一方面的任意一种实现方式提供的方法的功能。该功能可以通过硬件实现,也可以通过硬件执行相应的软件实现,该硬件或软件包括一个或多个与上述功能相对应的模块。第三方面提供一种评估视频业务的潜在用户的装置,该装置包括:处理器、存储器以及总线,处理器、存储器通过总线连接,存储器存储有计算机指令,处理器通过执行所述计算机指令用于实现如上述第一方面或者第一方面的任意一种实现方式中所述的方法。第四方面提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述第一方面或者第一方面的任意一种实现方式所述的方法。附图说明图1为本发明实施例中评估视频业务的潜在用户的系统的一个结构示意图;图2为本发明实施例中评估视频业务的潜在用户的装置的一个结构示意图;图3为本发明实施例中评估视频业务的潜在用户的方法的一个实施例示意图;图4为本发明实施例中评估视频业务的潜在用户的装置的另一个结构示意图。具体实施方式本申请的实施方式部分使用的术语仅用于对本申请的具体实施例进行解释,而非旨在限定本申请。数据挖掘:一般是指从大量的数据中通过算法搜索隐藏于其中的信息的过程。数据挖掘通常与计算机科学有关,并通过统计、在线分析处理、情报检索、机器学习、专家系统和模式识别等诸多方法来实现。余弦相似度:即计算个体间的相似程度,相似度度量的值越小,说明个体间相似度越小,相似度度量的值越大,说明个体差异越大。余弦相似度用向量空间中两个向量夹角的余弦值作为衡量两个个体间差异的大小。余弦值越接近1,则表明夹角越接近0度,也就是两个向量越相似。随机森林(英文:randomforest)算法:是用随机的方式建立一个森林,森林由很多的决策树组成,随机森林的每一棵决策树之间是没有关联的。在得到森林之后,当有一个新的样本输入的时候,就让森林中的每一棵决策树分别进行判断,看看这个样本应该属于哪一类,然后看看哪一类被选择最多,就预测这个样本为那一类。在介绍本发明实施例之前,先介绍本发明实施例中涉及的评估视频业务的潜在用户的系统。请参阅图1,为本发明实施例中评估视频业务的潜在用户的系统的一个结构示意图,该评估系统包括:视频业务系统、终端视频应用、数据集成系统、数据挖掘系统与营销系统。其中,视频业务系统包括用户中心,鉴权中心,订购中心以及内容中心等多个模块,每个模块各有分工,用于生成用户的原始行为数据,终端视频应用包括机顶盒应用(英文:settopboxapplication,stbapp),平板电脑(英文:portableandroiddevice,pad)app,手机(英文:phone)app等。视频业务系统和终端视频应用生成用户视频领域的原始行为数据。数据集成系统从视频业务系统和终端视频应用上收集用户在视频领域的原始行为数据,并按照预设的过滤规则对原始行为数据进行处理,处理后按照预设的计算规则对原始行为数据进行统计得到目标行为数据,其中,数据集成系统包括数据收集模块、数据过滤模块、数据统计模块等。其中,每个模块各有分工,数据收集模块用于收集用户的原始行为数据,数据过滤模块用于按照预设的过滤规则过滤该原始行为数据,数据统计模块用于将过滤后的原始行为数据进行统计以得到目标行为数据。数据挖掘系统从数据集成系统中获取目标行为数据,并对目标行为数据进行规则计算或者算法挖掘,并给出评分,作为输出的结果值,例如,目标视频业务的潜在用户的总安装概率。其中,数据挖掘系统包括规则引擎、模型训练以及数据挖掘算法等模块,规则引擎模块用于确定生成模型的规则,例如随机森林算法等。营销系统从数据挖掘系统获取需要营销的潜在用户,并可制定营销活动及营销策略,自动地、定期的进行营销活动(例如:发营销短信息),其中,营销系统包括用户管理和活动管理等模块。请参阅图2,为本发明实施例中评估视频业务的潜在用户的装置200的一个结构示意图,该评估装置200包括:存储器201,处理器202以及总线203,该存储器201和处理器202通过总线203连接,其中,该存储器201存储有计算机指令,该处理器202通过计算机指令执行如下步骤:获取第一用户和第二用户对视频业务的目标行为数据,其中,第一用户为安装目标视频业务的用户,第二用户为未安装目标视频业务的用户,该目标视频业务是视频业务中的至少一个,其中,该视频业务包括多种类型,例如:4k超高清视频业务,2k高清视频业务等,例如,该目标视频业务为4k超高清视频业务。该目标行为数据为根据原始行为数据进行预设处理后的行为数据,根据目标行为数据确定第二用户对目标视频业务的总安装概率,并根据该总安装概率从第二用户中评估得到该目标视频业务的潜在用户。将视频业务按照播放形式进行分类,该视频业务包括直播视频业务和点播视频业务中的至少一个,其中,该直播视频业务包括频道等,该点播视频业务包括电影、电视剧、综艺节目等。该目标视频业务包括目标点播视频业务和目标直播视频业务中的至少一个,其中,例如,该目标直播视频业务为4k超高清cctv1,cctv2,该目标点播视频业务为4k超高清电影。处理器202获取第一用户和第二用户对视频业务的目标行为数据的过程可包括:获取第一用户和第二用户对视频业务的原始行为数据,并对原始行为数据进行过滤处理,然后从过滤后的原始行为数据中统计目标内容以得到目标行为数据。原始行为数据可包括多种内容,下面介绍可能的几个内容:1、开销行为数据,例如:用户标识、用户名称、订购的产品标识、产品名称、内容标识、内容名称、内容类型(直播或者点播)、付费周期、产品原始价格、产品折扣后价格等;2、用户元数据,例如:用户标识、用户名称、用户区域、用户级别(普通用户、高级用户、特级用户)、付费类型(公免、普通)、用户状态、入网时间等;3、营销数据,例如:用户标识、营销结果等;4、终端设备数据,例如:用户标识、用户名称、终端类型(机顶盒、手机、平板电脑)、机顶盒类型等;5、观看行为数据,例如:用户标识、用户名称、内容标识、内容名称、内容类型、内容类别、内容标签、内容所属栏目名称、视频时长、观看开始时间、观看结束时间、播放终端类型等;6、浏览行为数据,例如:用户标识、用户名称、内容标识、内容名称、内容类型、内容清晰度、内容类别、内容标签、内容所属栏目名称、浏览时间、停留时长等。处理器202对原始行为数据进行过滤处理的过程可包括:过滤掉用户状态非正常,并且付费类型是公免的用户的原始行为数据;过滤掉用户观看视频时长小于预设时长(例如:1分钟)的用户观看行为数据;过滤掉终端用户频道的浏览行为数据;根据用户设备清单,将用户分为几种类型。例如,用户的类型分为:多机4k、多机非4k、单机4k、单机非4k等。处理器202从过滤后的原始行为数据中统计目标内容以得到目标行为数据的过程可包括,以月为时间维度进行统计为例,分为四类目标内容进行统计:用户总体观看行为统计、用户开销行为统计、用户浏览行为统计、用户观看内容维度的时长统计。其中,用户总体观看行为统计可包括:1、用户基本信息(例如:用户标识、用户名称、用户类型、用户区域);2、用户观看直播视频业务的行为统计(以直播视频业务为频道为例,例如:本月观看频道时长、本月观看频道的次数、本月观看频道的天数、本月频道的切换次数、本月白天观看频道时长、本月白天观看频道的次数、本月白天观看频道的天数、本月白天频道的切换次数、本月晚上观看频道时长、本月晚上观看频道的次数、本月晚上观看频道的天数、本月晚上频道的切换次数、本月凌晨观看频道时长、本月凌晨观看频道的次数、本月凌晨观看频道的天数、本月凌晨频道的切换次数、本月观看频道的天数占比=本月观看频道的天数/本月日历天数、本月白天观看频道的天数占比=本月白天观看频道的天数/本月观看频道的天数、本月白天观看频道的次数占比=本月白天观看频道的次数/本月观看频道的次数、本月平均每天白天观看频道时长=本月白天观看频道时长/本月白天观看频道的天数、本月平均每天白天观看频道次数=本月白天观看频道次数/本月白天观看频道的天数、本月晚上观看频道的天数占比=本月晚上观看频道的天数/本月观看频道的天数、本月晚上观看频道的次数占比=本月晚上观看频道的次数/本月观看频道的次数、本月平均每天晚上观看频道时长=本月晚上观看频道时长/本月晚上观看频道的天数、本月平均每天晚上观看频道次数=本月晚上观看频道次数/本月晚上观看频道的天数、本月凌晨观看频道的天数占比=本月凌晨观看频道的天数/本月观看频道的天数、本月凌晨观看频道的次数占比=本月凌晨观看频道的次数/本月观看频道的次数、本月平均每天凌晨观看频道时长=本月凌晨观看频道时长/本月凌晨观看频道的天数、本月平均每天凌晨观看频道次数=本月凌晨观看频道次数/本月凌晨观看频道的天数);3、用户观看点播视频业务(英文:videoondemand,vod)的行为统计(例如:本月观看vod时长、本月观看vod的次数、本月观看vod的天数、本月vod的切换次数、本月白天观看vod时长、本月白天观看vod的次数、本月白天观看vod的天数、本月晚上观看vod时长、本月晚上观看vod的次数、本月晚上观看vod的天数、本月凌晨观看vod时长、本月凌晨观看vod的次数、本月凌晨观看vod的天数、本月观看vod的天数占比=本月观看vod的天数/本月日历天数、本月白天观看vod的天数占比=本月白天观看vod的天数/本月观看vod的天数、本月白天观看vod的次数占比=本月白天观看vod的次数/本月观看vod的次数、本月平均每天白天观看vod时长=本月白天观看vod时长/本月白天观看vod的天数、本月平均每天白天观看vod次数=本月白天观看vod次数/本月白天观看vod的天数、本月晚上观看vod的天数占比=本月晚上观看vod的天数/本月观看vod的天数、本月晚上观看vod的次数占比=本月晚上观看vod的次数/本月观看vod的次数、本月平均每天晚上观看vod时长=本月晚上观看vod时长/本月晚上观看vod的天数、本月平均每天晚上观看vod次数=本月晚上观看vod次数/本月晚上观看vod的天数、本月凌晨观看vod的天数占比=本月凌晨观看vod的天数/本月观看vod的天数、本月凌晨观看vod的次数占比=本月凌晨观看vod的次数/本月观看vod的次数、本月平均每天凌晨观看vod时长=本月凌晨观看vod时长/本月凌晨观看vod的天数、本月平均每天凌晨观看vod次数=本月凌晨观看vod次数/本月凌晨观看vod的天数);4、用户观看内容涉及的内容属性统计(例如:本月观看的导演数、本月观看的演员数、本月观看内容出品国家数、本月观看的栏目数、本月观看的内容类别数、本月观看的非连续剧次数、本月观看的非连续剧天数)。用户开销行为统计可包括:用户标识、用户名称、用户类型、用户区域、本月付费次数、本月付费天数。用户视频浏览行为统计可包括:用户标识、用户名称、用户类型、用户区域、本月浏览直播视频业务内容次数、本月浏览直播视频业务内容天数,本月浏览vod次数、本月浏览vod天数。用户观看内容维度的时长统计可包括:用户标识、用户名称、用户类型、用户区域、内容名称、观看时长。处理器202根据该目标行为数据确定第二用户对目标视频业务的总安装概率之前,还需要根据该目标行为数据确定第二用户对视频业务的倾向度s1,确定第二用户对目标视频业务的倾向度s2,确定第二用户对视频业务的开销倾向度s3,确定第二用户对视频业务与第一用户对视频业务的使用相似度s4,确定第二用户对目标视频业务的安装概率s5,并根据s1、s2、s3、s4、s5和s1、s2、s3、s4、s5分别对应的权重的乘积之和确定第二用户对目标视频业务的总安装概率。例如,s1、s2、s3、s4、s5分别对应的权重为w1,w2,w3,w4,w5,则总安装概率s0=s1*w1+s2*w2+s3*w3+s4*w4+s5*w5。通过多种维度计算出第二用户对目标视频业务的总安装概率,从而有效提高评估的准确度。当然,可根据实际需要,选取s1、s2、s3、s4、s5中的部分,并与其对应的权重的乘积之和确定第二用户对该目标视频业务的总安装概率,此处不做具体限定。目标行为数据可包括多种内容,其中不限于包括:第二用户观看视频业务的次数、天数,第二用户观看非视频业务的次数、天数,第二用户浏览目标视频业务的次数、天数,第二用户观看视频业务的开销次数、天数,第一用户观看交集视频业务的时长和第二用户观看交集视频业务的时长中的至少一个。其中,该交集视频业务为第一用户和第二用户观看视频业务的交集部分,例如,该交集视频业务为电视剧《琅琊榜》。处理器202确定s1、s2、s3、s4、s5的方式有很多种,下面分别以可能的实现方式进行说明:若该目标行为数据包括第二用户观看非视频业务的次数、天数,第二用户观看所述视频业务的次数、天数,则处理器202根据目标行为数据确定第二用户对视频业务的倾向度s1包括:确定第二用户观看视频业务的次数与第二用户观看视频业务和非视频业务的总次数的比值d1,确定第二用户观看视频业务的天数与第二用户观看视频业务和非视频业务的总天数的比值d2,将d1和d2的和值乘以对应的权重确定为第二用户对视频业务的倾向度s1。例如,该权重为0.5,则s1=(d1+d2)*0.5。下面以视频业务为点播视频业务,以时间维度为月,以权重为0.5为例,s1=(第二用户本月观看点播视频业务的次数/(第二用户本月观看点播视频业务的次数+第二用户本月观看直播视频业务的次数)+第二用户本月观看点播视频业务的天数/(第二用户本月观看点播视频业务的天数+第二用户本月观看直播视频业务的天数))*0.5。若该目标行为数据包括第二用户浏览目标视频业务的次数、天数,第二用户观看视频业务的次数、天数,则处理器202根据目标行为数据确定第二用户对目标视频业务的倾向度s2包括:确定第二用户浏览目标视频业务的次数与第二用户观看视频业务的次数的比值d3,确定第二用户浏览目标视频业务的天数与第二用户观看视频业务的天数的比值d4,将d3和d4的和值乘以对应的权重确定为第二用户对目标视频业务的倾向度s2。例如,该权重为0.5,则s2=(d3+d4)*0.5。下面以视频业务为点播视频业务,目标视频业务为4k超高清点播视频业务,以时间维度为月,以权重为0.5为例,s2=(第二用户本月观看4k超高清点播视频业务的次数/第二用户本月观看点播视频业务的次数+第二用户本月观看4k超高清点播视频业务的天数/第二用户本月观看点播视频业务的天数)*0.5。若该目标行为数据包括第二用户观看视频业务的开销次数、天数,第二用户观看视频业务的次数、天数,则处理器202根据目标行为数据确定第二用户对视频业务的开销倾向度s3包括:确定第二用户观看视频业务的开销次数与第二用户观看视频业务的次数的比值d5,确定第二用户观看视频业务的开销天数与第二用户观看视频业务的天数的比值d6,将d5和d6的和值乘以对应的权重确定为第二用户对视频业务的开销倾向度s3。例如,该权重为0.5,则s3=(d5+d6)*0.5。下面以视频业务为点播视频业务,以时间维度为月,以权重为0.5为例,s3=(第二用户本月观看点播视频业务的开销次数/第二用户本月观看点播视频业务的次数+第二用户本月观看点播视频业务的开销天数/第二用户本月观看点播视频业务的天数)*0.5。若该目标行为数据包括第一用户观看交集视频业务的时长和第二用户观看交集视频业务的时长,则处理器202根据目标行为数据确定第二用户对视频业务与第一用户对视频业务的使用相似度s4包括:用公式表示为:其中,ui表示第一用户,uj表示第二用户,xi表示第一用户观看交集视频业务的时长,yi表示第二用户观看交集视频业务的时长,n表示交集视频的个数,i和j均为大于0的整数;可见,第二用户对视频业务与第一用户对视频业务的使用相似度s4是通过余弦相似度算法得到,s4越大,表明第二用户和第一用户对视频业务的使用相似度越高,反之,s4越小,表明第二用户和第一用户对视频业务的使用差异性越大。若该目标行为数据包括第一数据和第二数据以及第三数据,则处理器202根据所述目标行为数据确定第二用户对目标视频业务的安装概率s5包括:将第一数据输入到随机森林算法中训练得到第一模型,其中,该第一数据包括第三用户观看视频业务的属性特征和第三用户是否安装目标视频业务的实际结果,即该第三用户未安装该目标视频业务或者该第三用户已安装该目标视频业务。然后将第二数据输入到第一模型,得到第四用户的安装概率,并与第四用户是否安装目标视频业务的实际结果作对比,得到第一模型的准确率,其中,该第二数据包括第四用户观看视频业务的属性特征和第四用户是否安装目标视频业务的实际结果,即该第四用户未安装该目标视频业务或者该第四用户已安装该目标视频业务,该第三用户与该第四用户为不同的用户,第三用户观看视频业务的属性特征的个数与第四用户观看视频业务的属性特征的个数相同。通过将第四用户观看视频业务的属性特征输入到第一模型中,得到该第一模型的准确率,若该准确率大于预设阈值,则将第三数据输入到第一模型中得到第二用户对目标视频业务的安装概率s5,其中,该预设阈值是用户自定义或者评估装置默认的,例如,该预设阈值为90%,该第三数据包括第二用户观看视频业务的属性特征。用户观看视频业务的属性特征可包括:1、用户基本信息(例如:用户标识、用户类型、用户级别、区域标识、家庭地址、竣工日期、前期营销结果);2、用户观看直播视频业务的行为(以直播视频业务为频道为例,例如:本月观看频道时长、本月观看频道的次数、本月观看频道的天数、本月频道的切换次数、本月白天观看频道时长、本月白天观看频道的次数、本月白天观看频道的天数、本月白天频道的切换次数、本月晚上观看频道时长、本月晚上观看频道的次数、本月晚上观看频道的天数、本月晚上频道的切换次数、本月凌晨观看频道时长、本月凌晨观看频道的次数、本月凌晨观看频道的天数、本月凌晨频道的切换次数、本月观看频道的天数占比、本月白天观看频道的天数占比、本月白天观看频道的次数占比、本月平均每天白天观看频道时长、本月平均每天白天观看频道次数、本月晚上观看频道的天数占比、本月晚上观看频道的次数占比、本月平均每天晚上观看频道时长、本月平均每天晚上观看频道次数、本月凌晨观看频道的天数占比、本月凌晨观看频道的次数占比、本月平均每天凌晨观看频道时长、本月平均每天凌晨观看频道次数);3、用户观看vod的行为(例如:本月观看vod时长、本月观看vod的次数、本月观看vod的天数、本月vod的切换次数、本月白天观看vod时长、本月白天观看vod的次数、本月白天观看vod的天数、本月晚上观看vod时长、本月晚上观看vod的次数、本月晚上观看vod的天数、本月凌晨观看vod时长、本月凌晨观看vod的次数、本月凌晨观看vod的天数、本月观看vod的天数占比、本月白天观看vod的天数占比、本月白天观看vod的次数占比、本月平均每天白天观看vod时长、本月平均每天白天观看vod次数、本月晚上观看vod的天数占比、本月晚上观看vod的次数占比、本月平均每天晚上观看vod时长、本月平均每天晚上观看vod次数、本月凌晨观看vod的天数占比、本月凌晨观看vod的次数占比、本月平均每天凌晨观看vod时长、本月平均每天凌晨观看vod次数);4、用户观看内容涉及的内容属性(例如:本月观看的导演数、本月观看的演员数、本月观看内容出品国家数、本月观看的栏目数、本月观看的内容类别数、本月观看的非连续剧次数、本月观看的非连续剧天数);5、用户付费行为(例如:本月付费次数、本月付费天数);6、用户浏览行为(例如:本月浏览直播视频业务内容次数、本月浏览直播视频业务内容天数,本月浏览vod次数、本月浏览vod天数)。假设第一数据和第二数据的比例为7:3,使用随机森林算法时随机获取第一数据中的上述部分或者全部属性特征,生成第一模型,假设该第一模型为20棵决策树,然后通过该20颗决策树进行模型训练,即将第二数据输入到第一模型做测试及结果对比,来验证该第一模型的准确率,并将该准确度大于预设阈值,则将第三数据输入到第一模型中得到第二用户对目标视频业务的安装概率s5,其中,该第三数据包括第二用户观看视频业务的属性特征。在处理器202确定第二用户对目标视频业务的总安装概率之后,处理器202获取该总安装概率中大于预设概率值的总安装概率,将大于预设概率值的总安装概率所对应的第二用户确定为目标视频业务的潜在用户。例如,选取大于80%的总安装概率,然后将大于80%的总安装概率所对应的第二用户确定为潜在用户。请参阅图3,为本发明实施例中评估视频业务的潜在用户的方法的一个实施例示意图,该实施例的流程如下:步骤301、获取第一用户和第二用户对视频业务的目标行为数据。其中,所述第一用户为安装目标视频业务的用户,所述第二用户为未安装所述目标视频业务的用户,所述目标视频业务是所述视频业务中的至少一个,所述目标行为数据为根据原始行为数据进行预设处理后的行为数据。步骤302、根据目标行为数据确定第二用户对目标视频业务的总安装概率。步骤303、根据总安装概率从第二用户中评估得到目标视频业务的潜在用户。上述步骤301至步骤303的具体过程,可以参考前述图2实施例中的对应过程,在此不再赘述。请参阅图4,为本发明实施例中评估视频业务的潜在用户的装置400的另一个结构示意图,该装置包括:401获取模块,402确定模块和403评估模块。获取模块401,用于获取第一用户和第二用户对视频业务的目标行为数据,其中,所述第一用户为安装目标视频业务的用户,所述第二用户为未安装所述目标视频业务的用户,所述目标视频业务是所述视频业务中的至少一个,所述目标行为数据为根据原始行为数据进行预设处理后的行为数据。确定模块402,用于根据所述获取模块获取的所述目标行为数据确定所述第二用户对所述目标视频业务的总安装概率。评估模块403,用于根据所述确定模块确定的所述总安装概率从所述第二用户中评估得到所述目标视频业务的潜在用户。上述评估视频业务的潜在用户的装置400的工作过程的细节,可以参考前述图2实施例中的对应过程,在此不再赘述。在本申请所提供的几个实施例中的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个模块或组件可以结合或者可以集成到另一个系统。所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络设备上。以上所述,以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,但是本领域技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征以功能相同的特征进行替换;而这些修改或者替换,并不使相应技术方案脱离本发明权利要求的范围。上述实施例可以全部或部分地通过软件、硬件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时,全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、双绞线或光纤)或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存储的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质(例如,软盘、硬盘、磁带)、光介质(例如光盘)、或者半导体介质(例如固态硬盘)等。当前第1页12当前第1页12
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1