一种确定网络用户的上网行为类别的方法

文档序号:10515285阅读:238来源:国知局
一种确定网络用户的上网行为类别的方法
【专利摘要】本发明提出了一种确定网络用户的上网行为类别的方法,该方法,包括:提取每个待测网络用户的上网行为特征,并通过文档向量空间模型的量化方法形成用户行为特征矩阵X;根据所述用户行为特征矩阵X,通过概率潜在语义分析方法PLSA和EM算法,得到行为倾向集合T以及“用户?倾向”概率分布矩阵D;根据所述用户行为特征矩阵X,通过支持向量机SVM算法,得到“特征词?类别”概率分布矩阵C;通过矩阵乘法运行T×C得到“倾向?类别”映射矩阵M;通过矩阵乘法运行D×M得到“用户?类别”概率分布矩阵Y;根据任一待测网络用户在各个类别上的概率分布情况,将所述任一待测网络用户分类到概率值最大的类别中。
【专利说明】
-种确定网络用户的上网行为类别的方法
技术领域
[0001] 本发明设及互联网技术领域,尤其设及一种确定网络用户的上网行为类别的方 法。
【背景技术】
[0002] 大量案例表明,通过使用用户的行为类别信息可W有效地提升内容安全管理的水 平。然而,基于网络用户的行为数据,依靠现有的技术来准确地预测用户的类别概率分布是 非常困难的。一方面,传统的分类方法都是对样本集进行标注,但是由于对部分用户标注非 常困难甚至在某种程度上不可行,因此,基于其分类器往往准确度不够,预测效果不理想。 另一方面,传统的聚类方法只能将用户划分到一个簇中,而一个用户可能有多种类别行为 倾向,因此,基于传统聚类的分类方法无法体现网络用户真实的类别分布情况。

【发明内容】

[0003] 本发明要解决的技术问题是,提供一种确定网络用户的上网行为类别的方法,能 够准确的预测网络用户的上网行为类别。
[0004] 本发明采用的技术方案是,所述确定网络用户的上网行为类别的方法,包括:
[0005] 步骤1:在预设时间段内,提取每个待测网络用户的上网行为特征,根据所有待测 网络用户的上网行为特征,通过文档向量空间模型的量化方法形成用户行为特征矩阵X;
[0006] 步骤2:根据所述用户行为特征矩阵X,通过概率潜在语义分析方法化SA和EM算法, 得到行为倾向集合TW及"用户-倾陆'概率分布矩阵D;
[0007] 所述行为倾向集合T中的每个元素向量表示每个行为倾向;
[000引所述"用户-倾向"概率分布矩阵D中的每个行向量表示相应的待测网络用户属于 各个行为倾向的概率;
[0009] 步骤3:根据所述用户行为特征矩阵X,通过支持向量机SVM算法,得到"特征词-类 另f概率分布矩阵C;
[0010] 所述"特征词-类别"概率分布矩阵C中的每个行向量表示相应的上网行为特征属 于各个类别的概率;
[00川步骤4:通过矩阵乘法运行T X C得到"倾向-类那'映射矩阵Μ;
[0012]所述"倾向-类别"映射矩阵Μ中的每个行向量表示相应的行为倾向在各个类别上 的概率分布;
[001引步骤5:通过矩阵乘法运行D X Μ得到。用户-类那'概率分布矩阵Υ;
[0014] 所述"用户-类别"概率分布矩阵Υ中的每个行向量表示相应的待测网络用户属于 各个类别的概率;
[0015] 根据任一待测网络用户在各个类别上的概率分布情况,将所述任一待测网络用户 分类到概率值最大的类别中。
[0016] 进一步的,所述上网行为特征包括:基于待测网络用户的上网行为标注的特征词; 所述待测网络用户的上网行为包括:待测网络用户上网点击的URUUniform Resource Locator,统一资源定位符)链接和待测网络用户上网捜索的关键词。
[0017] 进一步的,在所述步骤1中,根据所有待测网络用户的上网行为特征,通过文档向 量空间模型的量化方法形成用户行为特征矩阵X,包括:
[0018] 按照如下公式计算每个待测网络用户的每个上网行为特征的特征值(bf-iuf)i.j, 根据计算结果,将特征值大于预设阔值的上网行为特征形成用户行为特征矩阵 X:
[0019] (bf-iuf )i, j = bfi, j X iufj;
[0020] 其中,bfy为行为频率,表示待测网络用户m发出上网行为特征bj的频率;
[0021] iufj为逆向用户频率,表示所有待测网络用户发出上网行为特征bj的频率。
[0022] 进一步的,所述行为频率bf Μ按照如下公式计算:
[0023]
[0024] 其中,m,康示待测网络用户Ui在预设时间段内发出上网行为特征b撕总次数;
[0025] Ikm.k表示待测网络用户m在预设时间段内发出所有上网行为特征的总次数; [00%]所述逆向用户频率iufd安照如下公式计算:
[0027]
[00%]其中,cnUU)表示待测网络用户的总个数;
[0029] cntCubj)表示在预设时间段内发出过上网行为特征b撕待测网络用户的总个数。
[0030] 进一步的,所述步骤2,包括:
[0031] 通过概率潜在语义分析方法化SA对所述用户行为特征矩阵X中的上网行为特征进 行语义分析,将所述用户行为特征矩阵X中的上网行为特征按照预设的类别进行聚类,聚类 后的每一类即为一个行为倾向,每个行为倾向包括一个W上的上网行为特征,所有的行为 倾向构成行为倾向集合T;
[0032] 通过算法,计算每个行为倾向中的每个上网行为特征的出现概率W及计算每个 待测网络用户属于各个行为倾向的概率。
[0033] 进一步的,所述通过EM算法,计算每个行为倾向中的每个上网行为特征的出现概 率W及计算每个待测网络用户属于各个行为倾向的概率,包括:
[0034] E步:根据已知的m和bj,按照如下公式计算行为倾向tk的后验概率:
[0035]
[0036] 其中,p(bj I tk)表示在确定了行为倾向tk的情况下,上网行为特征bj出现的概率;
[0037] p(tk)表示行为倾向tk出现的概率;
[0038] p(m|tk)表示在确定了行为倾向tk的情况下,待测网络用户m出现的概率;
[0039] Μ步:基于E步计算得到的行为倾向tk的后验概率,按照如下Ξ个公式计算,从而更 新参数值p(tk),p(Ui I tk)和p(bj I tk);
[0043] 其中,cnt(ui,bj)表示待测网络用户m出现上网行为特征b北勺概率;
[0044] E步和Μ步迭代进行,直至收敛,收敛后得到的p(bj|tk)即为每个行为倾向中的每个 上网行为特征的出现概率;收敛后得到的P(m|tk)即为每个待测网络用户属于各个行为倾 向的概率。
[0045] 进一步的,所述步骤3,包括:
[0046] 通过支持向量机SVM算法,按照预设的类别,对所述用户行为特征矩阵X中的每个 上网行为特征进行分类标注,标注所述每个上网行为特征属于各个类别的概率。
[0047] 采用上述技术方案,本发明至少具有下列优点:
[0048] 本发明所述的确定网络用户的上网行为类别的方法,通过挖掘待测网络用户的上 网行为倾向,来形成待测网络用户的潜在行为倾向集合W及得到每个待测网络用户在各个 行为倾向上的概率分布;并通过"倾向-类别"映射关系学习算法,将每个待测网络用户在各 个行为倾向上的概率分布转换为每个待测网络用户在各个上网行为类别上的概率分布,从 而准确的得到每个待测网络用户属于各个上网行为类别的概率。
【附图说明】
[0049] 图1为本发明第一实施例的确定网络用户的上网行为类别的方法的流程图。
【具体实施方式】
[0050] 为更进一步阐述本发明为达成预定目的所采取的技术手段及功效,W下结合附图 及较佳实施例,对本发明进行详细说明如后。
[0051] 本发明第一实施例,提供一种确定网络用户的上网行为类别的方法,如图1所示, 该方法具体包括W下步骤:
[0052] 步骤S101:在预设时间段内,提取每个待测网络用户的上网行为特征,根据所有待 测网络用户的上网行为特征,通过文档向量空间模型的量化方法形成用户行为特征矩阵X;
[0053] 具体的,所述上网行为特征包括:基于待测网络用户的上网行为标注的特征词;所 述待测网络用户的上网行为包括:待测网络用户上网点击的TOL链接和待测网络用户上网 捜索的关键词。
[0054] 所述根据所有待测网络用户的上网行为特征,通过文档向量空间模型的量化方法 形成用户行为特征矩阵X,包括:
[0055] 按照如下公式计算每个待测网络用户的每个上网行为特征的特征值(bf-iuf)i.j, 根据计算结果,将特征值大于预设阔值的上网行为特征形成用户行为特征矩阵 X:
[0056] (bf-iuf )i, j = bfi, j X iufj;
[0057] 其中,bfy为行为频率,表示待测网络用户m发出上网行为特征bj的频率;
[0058] iufj为逆向用户频率,表示所有待测网络用户发出上网行为特征bj的频率;
[0059] 进一步的,所述行为频率bfi,j按照如下公式计算:
[0060]
[0061] 其中,nu表示待测网络用户m在预设时间段内发出上网行为特征bj的总次数;
[0062] Ikm.k表示待测网络用户m在预设时间段内发出所有上网行为特征的总次数;
[0063] 所述逆向用户频率iufd安照如下公式计算:
[0064]
[0065] 其中,cnUU)表示待测网络用户的总个数;
[0066] ClU(Ubj)表示在预设时间段内发出过上网行为特征b撕待测网络用户的总个数。
[0067] 步骤S102:根据所述用户行为特征矩阵X,通过概率潜在语义分析方法化SA和EM算 法,得到行为倾向集合TW及"用户-倾向"概率分布矩阵D;
[0068] 所述行为倾向集合T中的每个元素向量表示每个行为倾向;
[0069] 所述"用户-倾向"概率分布矩阵D中的每个行向量表示相应的待测网络用户属于 各个行为倾向的概率;
[0070] 具体的,所述步骤S102,包括:
[0071] 通过概率潜在语义分析方法化SA对所述用户行为特征矩阵X中的上网行为特征进 行语义分析,将所述用户行为特征矩阵X中的上网行为特征按照预设的类别进行聚类,聚类 后的每一类即为一个行为倾向,每个行为倾向包括一个W上的上网行为特征,所有的行为 倾向构成行为倾向集合T;
[0072] 通过算法,计算每个行为倾向中的每个上网行为特征的出现概率W及计算每个 待测网络用户属于各个行为倾向的概率。
[0073] 进一步的,所述通过EM算法,计算每个行为倾向中的每个上网行为特征的出现概 率W及计算每个待测网络用户属于各个行为倾向的概率,包括:
[0074] E步:根据已知的m和bj,按照如下公式计算行为倾向tk的后验概率:
[0075]
[0076] 其中,p(bj I tk)表示在确定了行为倾向tk的情况下,上网行为特征bj出现的概率;
[0077] p(tk)表示行为倾向tk出现的概率;
[0078] p(m|tk)表示在确定了行为倾向tk的情况下,待测网络用户m出现的概率;
[0079] Μ步:基于E步计算得到的行为倾向tk的后验概率,按照如下Ξ个公式计算,从而更 新参数值p(tk),p(Ui I tk)和p(bj I tk);
[0080] p(bj I tk)〇〇 2ucnt(Ui,bj)p(tk|ui,bj);
[0081 ] p(ui I tk)〇〇 2bcnt(Ui,bj)p(tk|ui,bj);
[0082] p(tk)〇〇 Συ Σucnt(Ui,bj)p(tk|ui,bj);
[0083] 其中,cnt(ui,bj)表示待测网络用户m出现上网行为特征b北勺概率;
[0084] E步和Μ步迭代进行,直至收敛,收敛后得到的p(bj|tk)即为每个行为倾向中的每个 上网行为特征的出现概率;收敛后得到的P(m|tk)即为每个待测网络用户属于各个行为倾 向的概率。
[0085] 步骤S103:根据所述用户行为特征矩阵X,通过支持向量机SVM算法,得到"特征词- 类别"概率分布矩阵C;
[0086] 所述"特征词-类别"概率分布矩阵C中的每个行向量表示相应的上网行为特征属 于各个类别的概率;
[0087] 具体的,所述步骤3,包括:
[0088] 通过支持向量机SVM算法,按照预设的类别,对所述用户行为特征矩阵X中的每个 上网行为特征进行分类标注,标注所述每个上网行为特征属于各个类别的概率。
[0089] 步骤S104:通过矩阵乘法运行T X C得到"倾向-类别"映射矩阵Μ;
[0090] 所述"倾向-类别"映射矩阵Μ中的每个行向量表示相应的行为倾向在各个类别上 的概率分布。
[0091 ]步骤S105:通过矩阵乘法运行D ΧΜ得到"用户-类别"概率分布矩阵Υ;
[0092] 所述"用户-类别"概率分布矩阵Υ中的每个行向量表示相应的待测网络用户属于 各个类别的概率;
[0093] 根据任一待测网络用户在各个类别上的概率分布情况,将所述任一待测网络用户 分类到概率值最大的类别中。
[0094] 本发明第二实施例,提供一种确定网络用户的上网行为类别的方法,该方法具体 包括W下步骤:
[00Μ]步骤S201:构建行为特征词典,本实施例中预设的类别包括125个类目。在网络用 户行为数据流上捜集网络用户的历史行为,并构建出"行为-特征词"的行为特征字典,将待 测网络用户上网点击的ML链接和待测网络用户上网捜索的关键词标注为特征词;
[0096] 具体的,特征词典包括W下四部分:
[0097] 1、捜索词集合,从网络用户的捜索历史行为记录中提取捜索词,按照如下公式计 算捜索词的idf(inverse document打equency,逆文本频率指数),并按照由大到小的顺序 进行排序,取前W个构成捜索词集合;
[009引
[0099] 其中,S皿化)表示当前历史行为日志中的用户规模;
[0100] t表示捜素词;
[0101] cnt(Ui,teui)表示捜索过t的用户数量;
[0102] i壯的值越大,越能表征网络用户的行为特征;
[0103] 2、手工标注的化St集合,本实施例中预设的类别包括125个类目,共手工标注了 5284个;
[0104] 3、网盟类别数据,通过分析提取百度网盟的域名类别标签集得到,共得到52281 个;
[0105] 4、化St预测集,通过将i壯值较大却无类别信息的化St站点加入到特征空间中,因 为本实施例的类别包含125个类目,所W每个化St站点对应着一个125维的向量,基于已经 训练好的SVM分类器,对无类别信息的化St站点进行类别预测,最后将特征的索引和类别分 布向量更新到化St预测集中。
[0106] 步骤S202:行为关系建模,在用户行为数据流上捜集网络用户历史行为,借鉴文档 向量空间模型的量化方法,采用bf-iuf来量化网络用户行为和特征之间的关系,构建用户 行为向量矩阵,表示每个用户的行为特征;用户行为具体量化过程如下:
[0107] 用bf(behavior frequen巧,行为频率)表示任一网络用户发出某一上网行为特征 的频率,形式上,对于上网行为特征bj,它的重要性bfi, d安照如下公式计算得出:
[010 引
[0109] 其中,m,康示待测网络用户Ui在预设时间段内发出上网行为特征b撕总次数;
[0110] Σιλια表示待测网络用户m在预设时间段内发出所有上网行为特征的总次数;
[0111] 用iuf(inverse user frequency,逆向用户频率)对任一上网行为特征bj的普遍 重要性进行度量,按照如下公式计算iuf:
[0112]
[0113] 其中,cnUU)表示待测网络用户的总个数;
[0114] cnt(Ubi)表示在预设时间段内发出过上网行为特征b北勺待测网络用户的总个数;
[0115] 按照如下公式计算每个待测网络用户的每个上网行为特征的特征值bf-iuf:
[0116] bf-iuf = bfi,j X iufj;
[0117] 上网行为特征bj在某一个网络用户中出现的次数越频繁,同时,该上网行为特征bj 在整个用户集中出现的频率越低,则得到的bf-iuf权重越大;因此,bf-iuf倾向于过滤掉常 见的特征,保留区分度很大的特征,于是行为关系建模模块将用户行为向量化表示bf-iuf, 构建用户行为量化矩阵,并将bf-iuf作为用户行为倾向挖掘模块的输入。
[0118] 步骤S203:用户行为倾向挖掘,根据用户行为关系建模后的量化输出bf-iuf,基于 行为特征词典,对bf-iuf进行"行为-特征词"转换;并基于借鉴主题聚类的思想,将用户相 似的上网行为特征聚类到倾向集中,得到潜在的行为倾向集T,和每个用户在行为倾向集合 T上的概率分布矩阵D;
[0119] 通过F*LSA(P;robability Latent Semantic Analysis,概率潜在语义分析)方法, 将隐含主题与共视化数据对联系起来的模式,将cnt(m,bj)定义为主题聚类模型的共现,即 网络用户m捜索或者点击上网行为特征b撕次数;本实施例中用meu={ui,u2,一,un}来代 表需要预测的网络用户,U代表着全部用户;用b听6=化1,62,一,山}表示"词"空间,第占'个 词表不用户点击的抓L或者捜索的词,B表不"词表',对应着所有用户点击的抓L和捜索的词 的并集,因此可得T=UuiEU Bui;
[0120] 基于W上假设,通过引用潜在变量*把了=化山,。一*}表示一个潜在的语义层, 用来描述用户的行为倾向,于是完整模型可W表示如下:
[0121] P(ui)表示网络用户m在用户集U的概率;P(bj|tk)表示确定了行为倾向tkW后,相 关的上网行为特征bj出现的几率分别是多少;P(tk|m)表示一个网络用户的行为倾向分布 的情况;基于W上定义和大规模的用户行为数据,可W得到一个产生式模型,利用模型进行 如下推理和预测:
[0122] 首先,根据分布P(m)随机抽样选择一个网络用户m;
[0123] 选定网络用户W后,根据P(tk|ui)抽样选择行为倾向tk;
[0124] 选定语义W后,根据P(Wtk)选择用户行为;
[0125] 基于W上推理和预测,当网络用户m点击某页面或者捜索某个关键字的时候,就 可W得到一个观测对(Ui,bj),代表着网络用户的一个网络行为,多次重复运个过程就得到 了一个类似N的共现矩阵,按照如下公式来刻画行为倾向背景下的"用户-行为"的联合概率 分布,其中用到了概率论中的等价变换原则:
[0126]
[0127]基于W上模型和用户集N,本实施例用最大似然准则来确定模型的参数,如下公式 所示:
[012 引
[0129] 由于L的表达式中存在对数内部加运算,导致L的最大似然解没有闭式解,只能求 其下界的最大值来近似L的最大似然解。因此,为了达到运个目的,本实施例借鉴了期望极 大EM算法;EM算法是交替执行E步和Μ步;
[0130] 具体的,对上述目标函数进行求导运算,可W得到ΕΜ算法的Μ步:
[0131] Μ步:
[0132] p(bj I tk)〇〇 2ucnt(Ui,bj)p(tk I Ui,bj);
[0133] p(ui I tk)〇〇 2bcnt(Ui,bj)p(tk I Ui,bj);
[0134] p(tk)〇〇 ΣιιΣ6ΣιιΕη1:(?Η^)ρ(???|?Η^);
[01对 E步:求已知Ui,b拥行为倾向变量tk的后验概率
[0136]
[0137] 模型的求解过程就是算法的计算过程,E步:利用当前估计得参数值计算隐含变 量(用户行为倾向t)的后验概率;Μ步:基于给出的后验概率,更新参数值P(tk),P(m|tk)和P (bj|tk);于是求得的模型最优参数值,作为用户行为潜在倾向发现方法的输出:行为倾向集 T与"用户-倾向"概率分布矩阵D;
[0138] 行为倾向集T中每个行向量代表每一个行为倾向,其行向量表达式如下:
[0139] ti= {xi,l,Xi,2,...,Xi,n};
[0140] 其中,Xi,η表示第η维行为特征,如果出现则为1,否则为0;
[0141] "用户-倾向"概率分布矩阵D中每一行代表用户在行为倾向集Τ上的分布概率,其 行向量表达式如下:
[0142] di= {pi,i,pi,2,...,pi,T};
[0143] 其中,ρι,τ表示用户行为在倾向Τ上的分布概率。
[0144] 步骤S204:特征类别学习,基于行为特征词典,运用SVM分类器进行特征学习,得到 每个特征的"特征词-类别"分布矩阵C,其行向量表达式如下:
[0145] Xi= {vi,l,Vi,2,...,Vi,c;nt(C)};
[0146] 其中,当特征为已标注数据时,Vi,cnt(C)取值为0或者1;否则取值为浮点数,代表为 预测值。
[0147] 步骤S205:类别空间映射,针对在实际的安全管理背景中,倾向概念较模糊、描述 能力差的缺点,通过"倾向-类那'的映射关系学习算法,将"用户-倾陆'分布映射到"用户- 类别"空间;基于特征类别学习模块构建的"特征词-类别"矩阵C,W及数据倾向挖掘模块得 到的行为倾向集T,按照如下所示的矩阵乘运算,得到"倾向-类别"映射矩阵M:
[014 引
[0149] 步骤S206:类别分布预测,基于空间映射模块得到的"倾向-类别"映射矩阵Μ和行 为特征数据挖掘模块得到的"用户-倾向"概率分布矩阵D,按照如下所示的的矩阵向量乘运 算得到"用户-类别"概率分布矩阵Υ:
[0150] Y = DXM;
[0151] 所述"用户-类别"概率分布矩阵Y中的每个行向量表示相应的待测网络用户属于 各个类别的概率;
[0152] 根据任一待测网络用户在各个类别上的概率分布情况,将所述任一待测网络用户 分类到概率值最大的类别中。
[0153] 本发明第Ξ实施例,提供一种确定网络用户的上网行为类别的方法,该方法具体 包括W下步骤:
[0154] 步骤S301:在预设时间段内,提取每个待测网络用户的上网行为特征,根据所有待 测网络用户的上网行为特征,通过文档向量空间模型的量化方法形成用户行为特征矩阵X;
[0155]
[0156] 步骤S302:根据所述用户行为特征矩阵X,通过概率潜在语义分析方法化SA和EM算 法,得到行为倾向集合TW及"用户-倾向"概率分布矩阵D;
[0157]
[0158] 所述行为倾向集合T中的每个元素向量表示每个行为倾向;
[0159]
[0160] 所述"用户-倾向"概率分布矩阵D中的每个行向量表示相应的待测网络用户属于 各个行为倾向的概率。
[0161] 步骤S303:根据所述用户行为特征矩阵X,通过支持向量机SVM算法,得到"特征词- 类别"概率分布矩阵C;
[0162]
[0163] 所述"特征词-类别"概率分布矩阵C中的每个行向量表示相应的上网行为特征属 于各个类别的概率。
[0164] 步骤S304:通过矩阵乘法运行T X C得到"倾向-类别"映射矩阵Μ;
[01 化]
[0166] 所述"倾向-类别"映射矩阵Μ中的每个行向量表示相应的行为倾向在各个类别上 的概率分布。
[0167] 步骤S305:通过矩阵乘法运行D X Μ得到"用户-类别"概率分布矩阵Υ;
[016 引
[0169] 所述"用户-类别"概率分布矩阵Υ中的每个行向量表示相应的待测网络用户属于 各个类别的概率;
[0170] 根据任一待测网络用户在各个类别上的概率分布情况,将所述任一待测网络用户 分类到概率值最大的类别中。
[0171] 本发明实施例中介绍的确定网络用户的上网行为类别的方法,通过挖掘待测网络 用户的上网行为倾向,来形成待测网络用户的潜在行为倾向集合w及得到每个待测网络用 户在各个行为倾向上的概率分布;并通过"倾向-类别"映射关系学习算法,将每个待测网络 用户在各个行为倾向上的概率分布转换为每个待测网络用户在各个上网行为类别上的概 率分布,从而准确的得到每个待测网络用户属于各个上网行为类别的概率。
[0172]通过【具体实施方式】的说明,应当可对本发明为达成预定目的所采取的技术手段及 功效得W更加深入且具体的了解,然而所附图示仅是提供参考与说明之用,并非用来对本 发明加 W限制。
【主权项】
1. 一种确定网络用户的上网行为类别的方法,其特征在于,包括: 步骤1:在预设时间段内,提取每个待测网络用户的上网行为特征,根据所有待测网络 用户的上网行为特征,通过文档向量空间模型的量化方法形成用户行为特征矩阵X; 步骤2:根据所述用户行为特征矩阵X,通过概率潜在语义分析方法PLSA和EM算法,得到 行为倾向集合T以及"用户-倾向"概率分布矩阵D; 所述行为倾向集合T中的每个元素向量表示每个行为倾向; 所述"用户-倾向"概率分布矩阵D中的每个行向量表示相应的待测网络用户属于各个 行为倾向的概率; 步骤3:根据所述用户行为特征矩阵X,通过支持向量机SVM算法,得到"特征词-类别"概 率分布矩阵C; 所述"特征词-类别"概率分布矩阵C中的每个行向量表示相应的上网行为特征属于各 个类别的概率; 步骤4:通过矩阵乘法运行T X C得到"倾向-类别"映射矩阵Μ; 所述"倾向-类别"映射矩阵Μ中的每个行向量表示相应的行为倾向在各个类别上的概 率分布; 步骤5:通过矩阵乘法运行D X Μ得到"用户-类别"概率分布矩阵Υ; 所述"用户-类别"概率分布矩阵Υ中的每个行向量表示相应的待测网络用户属于各个 类别的概率; 根据任一待测网络用户在各个类别上的概率分布情况,将所述任一待测网络用户分类 到概率值最大的类别中。2. 根据权利要求1所述的确定网络用户的上网行为类别的方法,其特征在于,所述上网 行为特征包括:基于待测网络用户的上网行为标注的特征词;所述待测网络用户的上网行 为包括:待测网络用户上网点击的统一资源定位符URL链接和待测网络用户上网搜索的关 键词。3. 根据权利要求1所述的确定网络用户的上网行为类别的方法,其特征在于,在所述步 骤1中,根据所有待测网络用户的上网行为特征,通过文档向量空间模型的量化方法形成用 户行为特征矩阵X,包括: 按照如下公式计算每个待测网络用户的每个上网行为特征的特征值(bf-iuf)lu,根据 计算结果,将特征值(bf-iuf)lu大于预设阈值的上网行为特征形成用户行为特征矩阵X: (bf-iuf )i, j = bfi, j X iuf j ; 其中,bflu为行为频率,表示待测网络用户m发出上网行为特征h的频率; iuf^为逆向用户频率,表示所有待测网络用户发出上网行为特征h的频率。4. 根据权利要求3所述的确定网络用户的上网行为类别的方法,其特征在于,所述行为 频率bfi, j按照如下公式计算:其中,m.谦示待测网络用户m在预设时间段内发出上网行为特征匕的总次数; 2km,k表示待测网络用户m在预设时间段内发出所有上网行为特征的总次数; 所述逆向用户频率iufj按照如下公式计算:其中,cnt(U)表示待测网络用户的总个数; cnt(ubj)表示在预设时间段内发出过上网行为特征的待测网络用户的总个数。5. 根据权利要求1所述的确定网络用户的上网行为类别的方法,其特征在于,所述步骤 2, 包括: 通过概率潜在语义分析方法PLSA对所述用户行为特征矩阵X中的上网行为特征进行语 义分析,将所述用户行为特征矩阵X中的上网行为特征按照预设的类别进行聚类,聚类后的 每一类即为一个行为倾向,每个行为倾向包括一个以上的上网行为特征,所有的行为倾向 构成行为倾向集合T; 通过EM算法,计算每个行为倾向中的每个上网行为特征的出现概率以及计算每个待测 网络用户属于各个行为倾向的概率。6. 根据权利要求5所述的确定网络用户的上网行为类别的方法,其特征在于,所述通过 EM算法,计算每个行为倾向中的每个上网行为特征的出现概率以及计算每个待测网络用户 属于各个行为倾向的概率,包括: E步:根据已知的ujPb,,按照如下公式计算行为倾向tk的后验概率:其中,p(b」|tk)表示在确定了行为倾向tk的情况下,上网行为特征h出现的概率; P(tk)表示行为倾向tk出现的概率; P(m|tk)表示在确定了行为倾向tk的情况下,待测网络用户m出现的概率; Μ步:基于E步计算得到的行为倾向tk的后验概率,按照如下三个公式计算,从而更新参 数值p(tk),p(Ui I tk)和p(bj I tk); p(bj I tk)°° Zucnt(ui,bj)p(tk|ui,bj); p(ui I tk)°° Zbcnt(ui,bj)p(tk|ui,bj); p(tk)°° Συ 2ucnt(Ui,bj)p(tk I m,bj); 其中,Cnt(Ul,bj)表示待测网络用户m出现上网行为特征h的概率; E步和Μ步迭代进行,直至收敛,收敛后得到的p(h|tk)即为每个行为倾向中的每个上网 行为特征的出现概率;收敛后得到的P(m|tk)即为每个待测网络用户属于各个行为倾向的 概率。7. 根据权利要求1所述的确定网络用户的上网行为类别的方法,其特征在于,所述步骤 3, 包括: 通过支持向量机SVM算法,按照预设的类别,对所述用户行为特征矩阵X中的每个上网 行为特征进行分类标注,标注所述每个上网行为特征属于各个类别的概率。
【文档编号】H04L12/24GK105871630SQ201610370749
【公开日】2016年8月17日
【申请日】2016年5月30日
【发明人】李鹏霄, 杜翠兰, 任彦, 易立, 钮艳, 佟玲玲, 段东圣, 刘晓辉, 查奇文
【申请人】国家计算机网络与信息安全管理中心
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1