数据挖掘方法、装置和系统的利记博彩app

文档序号:10726116阅读:199来源:国知局
数据挖掘方法、装置和系统的利记博彩app
【专利摘要】本发明提出一种数据挖掘方法、装置和系统,涉及大数据领域。其中,本发明的数据挖掘方法包括:获取预定周期内多个预定指标的用户数据;根据相邻预定周期的用户数据的变化获取用户数据在多个预定指标间的迁移特征;根据迁移特征预测预定指标的用户数据迁移趋势。通过这样的方法,能够根据各个预定指标的用户数据挖掘各个指标的用户数据迁移特征,继而进行对于各个指标的未来数据的预测,得到用户数据迁移趋势,从而实现对用户数据迁移趋势的客观、准确的预测。
【专利说明】
数据挖掘方法、装置和系统
技术领域
[0001] 本发明涉及大数据领域,特别是一种数据挖掘方法、装置和系统。
【背景技术】
[0002] 用户的喜好、习惯随着时间的推移往往会产生变化,用户对业务、应用的选择也会 发生迀移。现有技术中主要通过业务指标监测,采用后验的方式发现用户迀移,在客观性、 完整性、及时性等诸多方面不足,由于业务监测高度依赖业务人员对业务的理解和抽象,所 选指标是否能客观反映业务实际情况,有时候很难把握;面对复杂的业务场景和多变的业 务环境,监测指标体系是否完整也直接影响到其效果的发挥;另外在大数据量场景下,指标 计算和发现的及时性也受到极大的挑战。

【发明内容】

[0003] 本发明的一个目的在于提出一种提高确定用户迀移趋势分析的客观性、准确性的 方案。
[0004] 根据本发明的一个方面,提出一种数据挖掘方法,包括:获取预定周期内多个预定 指标的用户数据;根据相邻预定周期的用户数据的变化获取用户数据在多个预定指标间的 迀移特征;根据迀移特征预测预定指标的用户数据迀移趋势。
[0005] 可选地,根据相邻预定周期的用户数据的变化获取用户数据在多个预定指标间的 迀移特征包括:根据相邻预定周期的用户数据的变化获取用户数据在两个预定周期间的单 周期间迀移特征;根据多个单周期间迀移特征确定优化迀移特征。
[0006] 可选地,还包括:根据预定周期内的多个预定指标的用户数据和每个预定指标的 效用确定预定周期内的多个预定指标的效用数据;根据相邻预定周期的效用数据的变化获 取效用数据在多个预定指标间的效用迀移特征;根据效用迀移特征预测预定指标的效用数 据迀移趋势。
[0007] 可选地,根据相邻预定周期的效用数据的变化获取效用数据在多个预定指标间的 效用迀移特征包括:根据相邻预定周期的效用数据的变化获取效用数据在两个预定周期间 的单周期间效用迀移特征;根据多个单周期间效用迀移特征确定优化效用迀移特征。
[0008] 可选地,相邻预定周期包括周期长度相同但起始时间相差单个预定时间粒度的两 个预定周期;或,起始时间相同但周期长度相差单个预定时间粒度的两个预定周期,其中, 时间粒度为预定最小时间长度。
[0009] 可选地,迀移特征用指标转移概率矩阵表示,指标转移概率矩阵的元素 pu为第η周 期中预定指标i的用户数据在第η+1周期迀移到预定指标j的比例,其中,i、j、n均为不小于1 的自然数。
[0010]通过这样的方法,能够根据各个预定指标的用户数据挖掘各个指标的用户数据迀 移特征,继而进行对于各个指标的未来数据的预测,得到用户数据迀移趋势,从而实现对用 户数据迀移趋势的客观、准确的预测。
[0011] 根据本发明的另一个方面,提出一种数据挖掘装置,包括:数据获取模块,用于获 取预定周期内的多个预定指标的用户数据;迀移特征获取模块,用于根据相邻预定周期的 用户数据的变化获取用户数据在多个预定指标间的迀移特征;预测模块,用于根据迀移特 征预测预定指标的用户数据迀移趋势。
[0012] 可选地,迀移特征获取模块包括:单周期间迀移特征获取单元,用于根据相邻预定 周期的用户数据的变化获取用户数据在两个预定周期间的单周期间迀移特征;迀移特征确 定单元,用于根据多个单周期间迀移特征确定优化迀移特征。
[0013] 可选地,数据获取模块还用于根据预定周期内的多个预定指标的用户数据和每个 预定指标的效用确定预定周期内的多个预定指标的效用数据;迀移特征获取模块还用于根 据相邻预定周期的效用数据的变化获取效用数据在多个预定指标间的效用迀移特征。
[0014] 可选地,迀移特征获取模块包括:单周期间迀移特征获取单元,用于根据相邻预定 周期的效用数据的变化获取效用数据在两个预定周期间的单周期间效用迀移特征;迀移特 征确定单元,用于根据多个单周期间效用迀移特征确定优化效用迀移特征。
[0015] 可选地,相邻预定周期包括周期长度相同但起始时间相差单个预定时间粒度的两 个预定周期;或,起始时间相同但周期长度相差单个预定时间粒度的两个预定周期,其中, 时间粒度为预定最小时间长度。
[0016] 可选地,迀移特征用指标转移概率矩阵表示,指标转移概率矩阵的元素为第η周 期中预定指标i的用户数据在第η+1周期迀移到预定指标j的比例,其中,i、j、n均为不小于1 的自然数。
[0017] 这样的装置能够根据各个预定指标的用户数据挖掘各个指标的用户数据迀移特 征,继而进行对于各个指标的未来数据的预测,得到用户数据迀移趋势,从而实现对用户数 据迀移趋势的客观、准确的预测。
[0018] 根据本发明的又一个方面,提出一种数据挖掘系统,包括存储器;以及耦接至存储 器的处理器,处理器被配置为基于存储在存储器的指令执行上述任一的方法。
[0019] 这样的系统能够根据各个预定指标的用户数据挖掘各个指标的用户数据迀移特 征,继而进行对于各个指标的未来数据的预测,得到用户数据迀移趋势,从而实现对用户数 据迀移趋势的客观、准确的预测。
【附图说明】
[0020] 此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发 明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中: [0021 ]图1为本发明的数据挖掘方法的一个实施例的流程图。
[0022] 图2为本发明的数据挖掘方法中迀移特征确定的一个实施例的流程图。
[0023] 图3为本发明的数据挖掘方法的另一个实施例的流程图。
[0024] 图4为本发明的数据挖掘方法中效用迀移特征确定的一个实施例的流程图。
[0025] 图5为本发明的数据挖掘装置的一个实施例的示意图。
[0026] 图6为本发明的数据挖掘装置中迀移特征获取模块的一个实施例的示意图。
[0027] 图7为本发明的数据挖掘系统的一个实施例的示意图。
[0028] 图8为本发明的数据挖掘系统的另一个实施例的示意图。
【具体实施方式】
[0029] 下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
[0030] 本发明的数据挖掘方法的一个实施例的流程图如图1所示。
[0031] 在步骤101中,获取预定周期内多个预定指标的用户数据。在一个实施例中,多个 预定指标的用户数据可以是符合该预定指标特征的用户数量。
[0032] 在步骤102中,根据相邻预定周期的用户数据的变化获取用户数据在多个预定指 标间的迀移特征。相邻预定周期间,同一预定指标的用户数据会发生变化,可以根据多个预 定指标的用户数据变化得到用户数据的迀移特征,如当预定指标的用户数据是符合该预定 指标特征的用户数量时,用户数据迀移特征反映了符合各个预定指标的用户数量的变化, 即能够反映用户在各个预定指标之间的迀移。
[0033]在步骤103中,根据迀移特征预测预定指标的用户数据迀移趋势。在一个实施例 中,可以基于现有的用户数据,根据迀移特征预测未来的用户数据。可以基于一个预定指标 的用户数据预测该预定指标未来的用户数据,也可以基于多个预定指标的用户数据预测每 个预定指标未来的用户数据,从而得到用户数据迀移趋势,如某个预定指标的用户数量减 少或增多等。
[0034]通过这样的方法,能够根据各个预定指标的用户数据挖掘各个指标的用户数据迀 移特征,继而进行对于各个指标的未来数据的预测,得到用户数据迀移趋势,从而实现对用 户数据迀移趋势的客观、准确的预测。
[0035]在一个实施例中,可以在根据相邻的两个预定周期的用户数据得到的迀移特征的 基础上进行优化,根据多个预定周期的用户数据得到优化迀移特征,如图2所示:
[0036]在步骤201中,根据相邻预定周期的用户数据的变化获取用户数据在两个预定周 期间的单周期间迀移特征。
[0037] 在步骤202中,根据多个单周期间迀移特征确定优化迀移特征。在一个实施例中, 可以采用将多个单周期间迀移特征取均值、取加权平均值以及其他适用的计算方式确定优 化迀移特征。
[0038] 通过这样的方法,能够根据多个预定周期的用户数据的变化得到优化迀移特征, 防止偶然情况对于迀移特征造成太大的影响,采用优化迀移特征进行预测运算能够提高用 户数据预测的准确性。
[0039] 在一个实施例中,不同预定指标的特征可能会产生不同的效用,可以基于预定指 标的用户数据得到效用数据,进而得到效用数据的迀移特征。本发明的数据挖掘方法的另 一个实施例的流程图如图3所示。
[0040] 在步骤301中,获取预定周期内多个预定指标的用户数据。
[0041] 在步骤302中,根据预定周期内的多个预定指标的用户数据和每个预定指标的效 用确定预定周期内的多个预定指标的效用数据。在一个实施例中,每个预定指标可以有预 定的效用系数,通过计算可以得到用户数据产生的效用数据。
[0042] 在步骤303中,根据相邻预定周期的效用数据的变化获取效用数据在多个预定指 标间的效用迀移特征。相邻预定周期间,同一预定指标的用户数据发生变化时会对效用数 据产生影响,可以根据多个预定指标的效用数据变化得到效用数据的迀移特征,如当预定 指标的用户数据是符合该预定指标特征的用户数量时,效用数据为该用户数据对该预定指 标产生的影响,效用迀移特征反映了符合各个预定指标的效用变化,即能够反映效用在各 个指标间的迀移情况。
[0043] 在步骤304中,根据效用迀移特征预测预定指标的效用数据迀移趋势。在一个实施 例中,可以基于现有的用户数据得到效用数据,根据效用迀移特征预测未来的效用数据。可 以基于一个预定指标的效用数据预测该预定指标未来的效用数据,也可以基于多个预定指 标的效用数据预测每个预定指标未来的效用数据,从而得到效用数据迀移趋势,如某个预 定指标的效用减少或增多等。
[0044] 通过这样的方法,可以利用预定指标的用户数据得到效用数据,继而根据效用迀 移特征进行效用数据迀移趋势的预测,从而能够在对预定指标的效用进行客观分析的基础 上,实现对效用数据迀移趋势的客观、准确的预测。
[0045] 在一个实施例中,在根据相邻的两个预定周期的效用数据得到的效用迀移特征的 基础上,根据多个预定周期的效用数据进行优化,如图2所示:
[0046] 在步骤401中,根据相邻预定周期的效用数据的变化获取效用数据在两个预定周 期间的单周期间效用迀移特征。
[0047] 在步骤402中,根据多个单周期间效用迀移特征确定优化效用迀移特征。在一个实 施例中,可以采用将多个单周期间效用迀移特征取均值、取加权平均值以及其他适用的计 算方式确定优化效用迀移特征。
[0048] 通过这样的方法,能够根据多个预定周期的效用数据的变化得到优化效用迀移特 征,防止偶然情况对于效用迀移特征造成太大的影响,采用优化效用迀移特征进行预测运 算能够提高效用数据预测的准确性。
[0049] 在一个实施例中,相邻预定周期可以是周期长度相同但起始时间相差一个预定时 间粒度的两个预定周期,时间粒度为预定最小时间长度,如一小时、一天、一个月等。在一个 实施例中,预定时间窗口的长度为定长,如30天,则每天计算的时候统计从该天往前推30天 的数据,下一个预定周期则是从第二天往前推30天。
[0050] 这样的方式适合数据变化很快,当前信息比历史信息重要,不需要过多考虑长期 历史信息的情况。
[0051] 在一个实施例中,相邻预定周期可以是起始时间相同但周期长度相差单个预定时 间粒度的两个预定周期,其中,时间粒度为预定最小时间长度。例如:起始计算时间为第一 天计算的30天前,则第一天周期长度为30天,第二天周期长度为31天,第三天周期长度为32 天,依次类推,第η天的周期长度为(30+n-l)天。
[0052]这样的方式适合于数据变化平稳,或当前信息较少,历史信息比较重要的情况。
[0053]通过这样的方法,可以根据数据需求调整截取的预定周期,从而根据不同的预定 周期的数据进行迀移特征的获取,适用于不同类型的数据特点的需求,进一步提高了数据 预测的准确性。
[0054]在一个实施例中,可以将用户数据、效用数据的变化过程视为马尔科夫链,迀移特 征可以是指标转移概率矩阵P;同理可以得到效用转移概率矩阵U。
[0057]其中,m为预定指标的个数,m为不小于2的自然数。指标转移概率矩阵的元素PlJ为 第η周期中预定指标i的用户数据在第n+1周期迀移到预定指标j的比例。同理,效用转移概 率矩阵的元素1?为第η周期中预定指标i的效用数据在第n+1周期迀移到预定指标j的比例, 其中,i、j、n均为不小于1的自然数。在一个实施例中,可以利用:
[0058]未来第η期的用户数据=当前周期用户数据*Pn
[0059] 未来第η个周期的效用数据=当前周期效用数据*Un
[0060] 实现用户数据、效用数据的预测,不仅能够预测下一个周期的数据,还能够预测未 来多个周期的情况,从而能够实现现有数据的更有效的应用。
[0061] 在预定指标的数量为2或3的情况下,指标转移概率矩阵具有唯一性。例如,在第K 周期,预定指标i、j的用户数据分别为7和3;在第K+1周期,预定指标i、j的用户数据分别为6 和4,则可以表示为:
[0063]表1相邻周期用户数据变化情况
[0064]根据上述数据可得到转移概率数据,表示为:
[0066] 表2相邻周期用户数据的转移概率
[0067] 根据上述转移概率得到指标转移概率矩阵为:
[0069] 根据指标转移概率矩阵可以预测接下来第η期的用户数据为(6,4)*Pn。
[0070] 在指标的数量大于3的情况下,其概率转移矩阵不具有唯一性,可以采取枚举方式 遍历,然后随机选择其一使用。例如,在第k周期,a、b、c、d四个预定指标的预定数据为(7,3, 6,4);在第1^+1周期,&、13、(3、(1四个预定指标的预定数据为(5,4,3,8),可利用下表表示 :
[0072]表3相邻周期用户数据变化情况
[0073] 根据上述数据可以对迀移情况进行遍历,如:
[0074] 情况一:指标a转移出2,其中1个到b,l个到d;指标c转移出3全都到d,则得到转移 数据表:
[0076]表4情况一的转移数据表
[0077]情况二:指标a转移出的2全部到d;指标c转移出3,1个到b,2个到d,则得到转移数 据表:
[0079] 表5情况二的转移数据表
[0080] 在一个实施例中,可以从上述情况中可以随机选择一种情况计算相邻周期用户数 据的转移概率,如采用表5中的数据,得到相邻周期用户数据的转移概率为:
[0082]表6情况二的转移概率
[0083] 根据表6中的转移概率即能够得到指标转移概率矩阵。
[0084] 通过这样的方法,无论指标数量为2个、3个,还是更多的情况下,均能够得到作为 迀移特征的指标转移概率矩阵,从而实现用户数据迀移趋势的预测。效用转移概率矩阵也 可利用相似的方法进行计算,从而实现效用迀移趋势的预测。
[0085] 在商品销售的过程中,用户有可能会因不满意某一品牌的产品和服务,转而选择 其他品牌,造成该品牌消费者的流失,发生品牌迀移现象,也可以称为品牌转移。品牌迀移 意味着顾客关系的终结,对企业来说是非常大的损失,因此有必要对用户在品牌间的迀移 进行精细化度量及预测,以便及时采取对策,预防用户在品牌间迀移,预防客户流失,维持 品牌忠诚,挽回品牌损失。
[0086] 利用本发明的数据挖掘方法,预定指标可以为品牌名称,用户数据可以为销售量。 根据相邻预定周期的不同品牌的销售量变化可以得到迀移矩阵,从而预测未来各个品牌的 销售量,及时提醒销售量降低的企业调整策略,增长品牌生存周期。
[0087] 在一个实施例中,还可以根据各个品牌的销售量计算利润情况,进而得到各个品 牌的利润的迀移特征,从而预测未来各个品牌的利润情况,及时提醒利润降低的企业调整 策略,减少企业的损失。
[0088] 本发明的数据挖掘装置的一个实施例的示意图如图5所示。其中,数据获取模块 501能够获取预定周期内多个预定指标的用户数据。在一个实施例中,多个预定指标的用户 数据可以是符合该预定指标特征的用户数量。迀移特征获取模块502能够根据相邻预定周 期的用户数据的变化获取用户数据在多个预定指标间的迀移特征。相邻预定周期间,同一 预定指标的用户数据会发生变化,可以根据多个预定指标的用户数据变化得到用户数据的 迀移特征,如当预定指标的用户数据是符合该预定指标特征的用户数量时,用户数据迀移 特征反映了符合各个预定指标的用户数量的变化,即能够反映用户在各个预定指标之间的 迀移。预测模块503能够根据迀移特征预测预定指标的用户数据迀移趋势。在一个实施例 中,可以基于现有的用户数据,根据迀移特征预测未来的用户数据。可以基于一个预定指标 的用户数据预测该预定指标未来的用户数据,也可以基于多个预定指标的用户数据预测每 个预定指标未来的用户数据,从而得到用户数据迀移趋势,如某个预定指标的用户数量减 少或增多等。
[0089] 这样的装置能够根据各个预定指标的用户数据挖掘各个指标的用户数据迀移特 征,继而进行对于各个指标的未来数据的预测,得到用户数据迀移趋势,从而实现对用户数 据迀移趋势的客观、准确的预测。
[0090] 在一个实施例中,如图6所示,迀移特征获取模块可以包括单周期间迀移特征获取 单元601和迀移特征确定单元602,其中,单周期间迀移特征获取单元601用于根据相邻预定 周期的用户数据的变化获取用户数据在两个预定周期间的单周期间迀移特征。迀移特征确 定单元602用于根据多个单周期间迀移特征确定优化迀移特征。在一个实施例中,可以采用 将多个单周期间迀移特征取均值、取加权平均值以及其他适用的计算方式确定优化迀移特 征。
[0091] 这样的装置能够根据多个预定周期的用户数据的变化得到优化迀移特征,防止偶 然情况对于迀移特征造成太大的影响,采用优化迀移特征进行预测运算能够提高用户数据 预测的准确性。
[0092] 在一个实施例中,不同预定指标的特征可能会产生不同的效用,可以基于预定指 标的用户数据得到效用数据,进而得到效用数据的迀移特征。数据获取模块501还可以用于 根据预定周期内的多个预定指标的用户数据和每个预定指标的效用确定预定周期内的多 个预定指标的效用数据。在一个实施例中,每个预定指标可以有预定的效用系数,通过计算 可以得到用户数据产生的效用数据。迀移特征获取模块502用于根据相邻预定周期的效用 数据的变化获取效用数据在多个预定指标间的效用迀移特征。相邻预定周期间,同一预定 指标的用户数据发生变化时会对效用数据产生影响,可以根据多个预定指标的效用数据变 化得到效用数据的迀移特征,如当预定指标的用户数据是符合该预定指标特征的用户数量 时,效用数据为该用户数据对该预定指标产生的影响,效用迀移特征反映了符合各个预定 指标的效用变化,即能够反映效用在各个指标间的迀移情况。预测模块503用于根据效用迀 移特征预测预定指标的效用数据迀移趋势。在一个实施例中,可以基于现有的用户数据得 到效用数据,根据效用迀移特征预测未来的效用数据。可以基于一个预定指标的效用数据 预测该预定指标未来的效用数据,也可以基于多个预定指标的效用数据预测每个预定指标 未来的效用数据,从而得到效用数据迀移趋势,如某个预定指标的效用减少或增多等。
[0093] 这样的装置可以利用预定指标的用户数据得到效用数据,继而根据效用迀移特征 进行效用数据迀移趋势的预测,从而能够在对预定指标的效用进行客观分析的基础上,实 现对效用数据迀移趋势的客观、准确的预测。
[0094] 在一个实施例中,单周期间迀移特征获取单元601还可以用于根据相邻预定周期 的效用数据的变化获取效用数据在两个预定周期间的单周期间效用迀移特征;迀移特征确 定单元602用于根据多个单周期间效用迀移特征确定优化效用迀移特征。在一个实施例中, 可以采用将多个单周期间效用迀移特征取均值、取加权平均值以及其他适用的计算方式确 定优化效用迀移特征。
[0095] 这样的装置能够根据多个预定周期的效用数据的变化得到优化效用迀移特征,防 止偶然情况对于效用迀移特征造成太大的影响,采用优化效用迀移特征进行预测运算能够 提高效用数据预测的准确性。
[0096] 在一个实施例中,相邻预定周期可以是周期长度相同但起始时间相差一个预定时 间粒度的两个预定周期,时间粒度为预定最小时间长度,如一小时、一天、一个月等。在一个 实施例中,预定时间窗口的长度为定长,如30天,则每天计算的时候统计从该天往前推30天 的数据,下一个预定周期则是从第二天往前推30天。
[0097] 这样的方式适合数据变化很快,当前信息比历史信息重要,不需要过多考虑长期 历史信息的情况。
[0098] 在一个实施例中,相邻预定周期可以是起始时间相同但周期长度相差单个预定时 间粒度的两个预定周期,其中,时间粒度为预定最小时间长度。例如:起始计算时间为第一 天计算的30天前,则第一天周期长度为30天,第二天周期长度为31天,第三天周期长度为32 天,依次类推,第η天的周期长度为(30+n-l)天。
[0099] 这样的方式适合于数据变化平稳,或当前信息较少,历史信息比较重要的情况。
[0100] 这样的装置可以根据数据需求调整截取的预定周期,从而根据不同的预定周期的 数据进行迀移特征的获取,适用于不同类型的数据特点的需求,进一步提高了数据预测的 准确性。
[0101] 在一个实施例中,可以将用户数据、效用数据的变化过程视为马尔科夫链,迀移特 征可以是指标转移概率矩阵P;同理可以得到效用转移概率矩阵U。
[0104] 其中,m为预定指标的个数,m为不小于2的自然数。指标转移概率矩阵的元素PlJ为 第η周期中预定指标i的用户数据在第n+1周期迀移到预定指标j的比例。同理,效用转移概 率矩阵的元素1?为第η周期中预定指标i的效用数据在第n+1周期迀移到预定指标j的比例, 其中,i、j、n均为不小于1的自然数。在一个实施例中,预测模块可以利用:
[0105] 未来第η期的用户数据=当前周期用户数据*Pn
[0106] 未来第η个周期的效用数据=当前周期效用数据*Un
[0107] 实现用户数据、效用数据的预测,不仅能够预测下一个周期的数据,还能够预测未 来多个周期的情况,从而能够实现现有数据的更有效的应用。
[0108] 本发明的数据挖掘系统的一个实施例的示意图如图7所示,包括存储器701和处理 器702。其中:
[0109]存储器701可以是磁盘、闪存或其它任何非易失性存储介质。存储器701用于存储 系统的运行指令、类目信息、展示图片库等。
[0110] 处理器702耦接至存储器701,可以作为一个或多个集成电路来实施,例如微处理 器或微控制器。该处理器702用于执行存储器中存储的指令,进而实现数据运算、与用户间 的交互等。
[0111]在一个实施例中,还可以如图8所示,1800为数据挖掘系统,包括存储器801和处理 器802。处理器802可以包括处理器8023、802卜"80211。处理器8023-80211通过81]5总线803耦 合至存储器801。基于分布式结构的系统能够进行快速运算,提高了运行效率。数据挖掘系 统800还可以通过存储接口 804连接至外部存储装置805以便调用外部数据或将数据转移到 外部存储装置805,还可以通过网络接口 806连接至网络或者另外一台计算机系统(未标 出)。此处不再进行详细介绍。
[0112] 在该实施例中,通过存储器存储数据指令,再通过处理器处理上述指令,能够根据 各个预定指标的用户数据挖掘各个指标的用户数据迀移特征,继而进行对于各个指标的未 来数据的预测,得到用户数据迀移趋势,从而实现对用户数据迀移趋势的客观、准确的预 测 。
[0113] 最后应当说明的是:以上实施例仅用以说明本发明的技术方案而非对其限制;尽 管参照较佳实施例对本发明进行了详细的说明,所属领域的普通技术人员应当理解:依然 可以对本发明的【具体实施方式】进行修改或者对部分技术特征进行等同替换;而不脱离本发 明技术方案的精神,其均应涵盖在本发明请求保护的技术方案范围当中。
【主权项】
1. 一种数据挖掘方法,其特征在于,包括: 获取预定周期内多个预定指标的用户数据; 根据相邻预定周期的所述用户数据的变化获取所述用户数据在所述多个预定指标间 的迀移特征; 根据所述迀移特征预测预定指标的用户数据迀移趋势。2. 根据权利要求1所述的方法,其特征在于,所述根据相邻预定周期的所述用户数据的 变化获取所述用户数据在所述多个预定指标间的迀移特征包括: 根据相邻预定周期的所述用户数据的变化获取所述用户数据在两个所述预定周期间 的单周期间迀移特征; 根据多个所述单周期间迀移特征确定优化迀移特征。3. 根据权利要求1所述的方法,其特征在于,还包括: 根据所述预定周期内的所述多个预定指标的用户数据和每个所述预定指标的效用确 定预定周期内的多个预定指标的效用数据; 根据相邻预定周期的所述效用数据的变化获取所述效用数据在所述多个预定指标间 的效用迀移特征; 根据所述效用迀移特征预测预定指标的效用数据迀移趋势。4. 根据权利要求3所述的方法,其特征在于,所述根据相邻预定周期的所述效用数据的 变化获取所述效用数据在所述多个预定指标间的效用迀移特征包括: 根据相邻预定周期的所述效用数据的变化获取所述效用数据在两个所述预定周期间 的单周期间效用迀移特征; 根据多个所述单周期间效用迀移特征确定优化效用迀移特征。5. 根据权利要求1~4任一所述的方法,其特征在于,所述相邻预定周期包括周期长度 相同但起始时间相差单个预定时间粒度的两个所述预定周期;或,起始时间相同但周期长 度相差单个预定时间粒度的两个所述预定周期,其中,所述时间粒度为预定最小时间长度。6. 根据权利要求1~4任一所述的方法,其特征在于,所述迀移特征用指标转移概率矩 阵表示,所述指标转移概率矩阵的元素 PU为第η周期中预定指标i的用户数据在第n+1周期 迀移到预定指标j的比例,其中,i、j、n均为不小于1的自然数。7. -种数据挖掘装置,其特征在于,包括: 数据获取模块,用于获取预定周期内的多个预定指标的用户数据; 迀移特征获取模块,用于根据相邻预定周期的所述用户数据的变化获取所述用户数据 在所述多个预定指标间的迀移特征; 预测模块,用于根据所述迀移特征预测预定指标的用户数据迀移趋势。8. 根据权利要求7所述的装置,其特征在于,所述迀移特征获取模块包括: 单周期间迀移特征获取单元,用于根据相邻预定周期的所述用户数据的变化获取所述 用户数据在两个所述预定周期间的单周期间迀移特征; 迀移特征确定单元,用于根据多个所述单周期间迀移特征确定优化迀移特征。9. 根据权利要求7所述的装置,其特征在于, 所述数据获取模块还用于根据所述预定周期内的所述多个预定指标的用户数据和每 个所述预定指标的效用确定预定周期内的多个预定指标的效用数据; 所述迀移特征获取模块还用于根据相邻预定周期的所述效用数据的变化获取所述效 用数据在所述多个预定指标间的效用迀移特征。10. 根据权利要求9所述的装置,其特征在于,所述迀移特征获取模块包括: 单周期间迀移特征获取单元,用于根据相邻预定周期的所述效用数据的变化获取所述 效用数据在两个所述预定周期间的单周期间效用迀移特征; 迀移特征确定单元,用于根据多个所述单周期间效用迀移特征确定优化效用迀移特 征。11. 根据权利要求7~10任一所述的装置,其特征在于,所述相邻预定周期包括周期长 度相同但起始时间相差单个预定时间粒度的两个所述预定周期;或,起始时间相同但周期 长度相差单个预定时间粒度的两个所述预定周期,其中,所述时间粒度为预定最小时间长 度。12. 根据权利要求7~10任一所述的装置,其特征在于,所述迀移特征用指标转移概率 矩阵表示,所述指标转移概率矩阵的元素为第η周期中预定指标i的用户数据在第n+1周 期迀移到预定指标j的比例,其中,i、j、n均为不小于1的自然数。13. -种数据挖掘系统,其特征在于: 包括存储器;以及 耦接至所述存储器的处理器,所述处理器被配置为基于存储在所述存储器的指令执行 如权利要求1至6任一项所述的方法。
【文档编号】G06Q30/02GK106097024SQ201610685207
【公开日】2016年11月9日
【申请日】2016年8月18日 公开号201610685207.6, CN 106097024 A, CN 106097024A, CN 201610685207, CN-A-106097024, CN106097024 A, CN106097024A, CN201610685207, CN201610685207.6
【发明人】刘朋飞, 李爱华, 葛胜利
【申请人】北京京东尚科信息技术有限公司, 北京京东世纪贸易有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1