面向后台多源数据的特征提取和特征选择方法

文档序号:6628026阅读:589来源:国知局
面向后台多源数据的特征提取和特征选择方法
【专利摘要】一种面向后台多源数据的特征提取和特征选择方法,其特征在于,包括如下步骤:(1)在多个月份的后台数据上划分训练集和测试集;(2)训练集上针对不同的源数据提取相应分组特征;(3)使用Group Lasso方法,在测试集上通过交叉验证进行特征组选择。本发明的有益效果为:对于选择出来的组特征,使用C45决策树建立分类器离网用户分析分类器,对离网用户预测的准确率达到了45%,对存在离网倾向的停机用户预测的准确率达到了88%。
【专利说明】面向后台多源数据的特征提取和特征选择方法

【技术领域】
[0001] 本发明涉及一种针对离网用户分析的面向后台多源数据的特征提取和特征选择 方法。

【背景技术】
[0002] 对于每户每日上网时间序列,目前没有很好的方法来表征用户上网时间的变化趋 势特征。Lasso方法是一种稀疏特征选择的方法,当Lasso直接应用于具有组结构的模型中 时,其倾向于选择出单个特征,破坏了特征的组结构。对于LR分类器来说,特征的微小变化 也会对最终的预测结果造成很大的影响。
[0003] Group Lasso方法引入对罚函数的扩展,对组特征的选择进行研究。Filter方法 是一种和学习机无关的特征选择方法,通过某种度量选出特征子集。一种常用的度量是 Pearson相关系数,在该方法中,选取相关系数最大的η个特征作为特征子集。


【发明内容】

[0004] 本发明所要解决的技术问题在于,针对离网用户分析的问题,面向后台的多源数 据,提供一种可行性高的特征提取和特征选择方法。
[0005] 为解决上述技术问题,本发明提供一种面向后台多源数据的特征提取和特征选择 方法,包括如下步骤:
[0006] (1)在多个月份的后台数据上划分训练集和测试集;
[0007] (2)训练集上针对不同的源数据提取相应分组特征;
[0008] (3)使用Group Lasso方法,在测试集上通过交叉验证进行特征组选择;
[0009] 步骤(2)中的用户每日上网时间序列,使用了基于多尺度直方图统计的上网时间 趋势特征提取方法。
[0010]步骤(3)中的61'〇即1^88〇方法的入值,使用5*10-5,5*10'5*10-3,0.05,0.1,0.5 和0. 9这七组值并且使用Logistic Regression方法进行交叉验证。
[0011] 所述的基于多尺度直方图统计的上网时间趋势特征提取方法,包括如下步骤:
[0012] (1)该时间序列并非传统意义上典型的时间序列,简单的距离度量和信号处理的 方法并不适用。对于用户每个月的上网时间,将时间序列两两做差值,得出上网时间每天的 变化信息图;
[0013] (2)算出该差值序列的绝对值均值,用该值作为阈值,将时间差值细分为上网时间 "显著"增加、"显著"减少、"不显著"增加、"不显著"减少以及上网时间不变的分组;
[0014] (3)对这些分组进行统计,得出直方图特征;
[0015] (4)将若干月的直方图拼在一起,作为该用户的上网时间趋势特征。
[0016] 所述的特征组选择方法,包括如下步骤:
[0017] (1)使用 Group Lasso 方法,对 λ 值进行调整,分别取(5*1〇-5,5*1〇-4,5*1〇-3, 0. 05,0. 1,0. 5和0. 9)7组值,在训练集上分别对离网和停机用户标签进行学习;
[0019]
[0018] Group Lasso方法可以形式化为式子(1):

【权利要求】
1. 一种面向后台多源数据的特征提取和特征选择方法,其特征在于,包括如下步骤: (1) 在多个月份的后台数据上划分训练集和测试集; (2) 训练集上针对不同的源数据提取相应分组特征; (3) 使用GroupLasso方法,在测试集上通过交叉验证进行特征组选择; 其中,步骤(2)中的用户每日上网时间序列,使用了基于多尺度直方图统计的上网时 间趋势特征提取方法;步骤(3)中的GroupLasso方法的入值,使用5*10_5,5*10_4,5*10_3, 0? 05,0. 1,0. 5和0? 9这七组值并且使用LogisticRegression方法进行交叉验证。
2. 如权利要求1所述的方法,其特征在于:所述的基于多尺度直方图统计的上网时间 趋势特征提取方法,包括如下步骤: (1) 对于用户每个月的上网时间,将时间序列两两做差值,得出上网时间每天的变化信 息图; (2) 算出该差值序列的绝对值均值,用该值作为阈值,将时间差值细分为上网时间"显 著"增加、"显著"减少、"不显著"增加、"不显著"减少以及上网时间不变的分组; (3) 对这些分组进行统计,得出直方图特征; (4) 将若干月的直方图拼在一起,作为该用户的上网时间趋势特征。
3. 如权利要求1所述的方法,其特征在于:所述的特征组选择的方法,包括如下步骤: (1) 使用GroupLasso方法,对X值进行调整,分别取 5*1〇-5,5*1〇-4,5*1〇-3,0.05,0. 1, 0. 5和0. 9七组值,在训练集上分别对离网和停机用户标签进行学习; GroupLasso方法可以形式化为式子(1):
其中PeEn表示特征选择向量,X是mXn的数据矩阵,FeIT是数据的标签数组,Ig是g组的特征下标,g=1,. . .,G(GeN+是组的个数),X彡〇是正则参数; (2) 针对不同的A值所对应的x,如果某个组所对应的X都为〇,则不选择该组,如有有 不为〇的,则选择该组; (3)在训练集上,根据针对不同的X值选出的用户组,用Logistic Regression的学习 方法,该结果和C45决策树结果类似,采用了十折交叉验证,选出相应的组特征。
【文档编号】G06K9/46GK104268572SQ201410491742
【公开日】2015年1月7日 申请日期:2014年9月23日 优先权日:2014年9月23日
【发明者】范剑锋, 杨琬琪, 高阳, 史颖欢, 孙良君 申请人:南京大学, 中博信息技术研究院有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1