一种基于聚类的大数据态势分析预警方法及系统的利记博彩app
【专利摘要】本发明公开了一种基于聚类的大数据态势分析预警方法及系统。本方法为:1)服务器从各终端采集样本,并按照时间段对样本划分;2)对于每一时间段的样本数据集聚类,得到的簇作为样本的标签进行标注,然后根据选取的属性降维指标计算已标注样本每一属性的属性值辨识度、属性辨识度和或属性值重要性、属性重要性,对属性进行排序,选取若干属性作为大数据降维后保留的属性;3)对每一属性降维后的样本数据集聚类,将得到的簇作为样本数据集的态势指数,建一态势指数时间序列,确定一常态区域;4)计算当前时刻所采集样本数据的态势指数,如果超出常态区域,则对其监控,并计算下一时刻所采集样本数据的态势指数,如果仍超出常态区域,则预警。
【专利说明】一种基于聚类的大数据态势分析预警方法及系统
【技术领域】
[0001] 本发明涉及一种预警方法,尤其涉及一种基于聚类的大数据态势分析预警方法及 系统。
【背景技术】
[0002] 在现实生活中,我们经常会面对具有一定周期性的复杂时间序列数据,在每个时 间点对应的截面上,都对应一组样本数据,各个时间点之间的样本数据没有必然的联系,从 而不是公知的面板数据,甚至各时间点的样本数量都不具有相等关系。我们希望在对这些 数据缺乏足够了解的情况下,确定每个截面上数据之间的相似性,判断不同属性对这种相 似性的影响程度,以及这些蕴含在数据中的关系在时间序列上如何传递和变化,并由此作 出异常情况的预警。
[0003] 由于我们对数据的了解非常缺乏,我们常常需要依据经验、主观地将属性进行分 类,一般进行后续的研究。例如,对于消费者的购物篮数据,我们将消费者按照消费金额分 为高、中、低三类,或者按照消费者年龄分为老、中、青三类,再比较各个分类的众多数据的 均值、方差等指标随时间序列的变化,由此作出预警。这种分类方法存在两大缺陷:其一,严 重依赖于主观的分类,使分析结果丧失客观性;其二,将众多数据压缩成均值、方差等指标, 丧失了大量的信息,使分析结果不能充分反映情况,预警效果差强人意。
[0004] 对具有一定周期性的复杂时间序列数据做出预警时,还会遇到"大数据"的问题。 随着信息技术的高速发展,人们积累的数据量急剧增长,如何从海量的数据中提取有用的 知识成为当务之急。经过清洗的已知标签样本数据汇总到中央数据库。由于样本量巨大, 形成了维数大、规模大、复杂性大的大数据形态,要挖掘其中有意义的知识和内容以指导实 际生产和具体应用,需要首先进行降维处理,即维数约简,它一方面可以解决"维数灾难", 缓解大数据中"信息丰富但知识贫乏"的问题,降低计算的复杂度;另一方面可以引导人们 更好地认识和理解数据。数据降维的方法很多,例如:根据数据本身的特性,可以分为线性 降维和非线性降维两种;根据是否考虑和利用数据的监督信息,可以分为无监督降维、有监 督降维和半监督降维三种;根据是否需要保持数据的结构,可以分为全局保持降维、局部保 持降维和全局与局部保持一致降维等。
【发明内容】
[0005] 针对现有技术中存在的技术问题,本发明的目的在于提供一种基于聚类的大数据 态势分析预警方法和系统。
[0006] 我们首先根据实际需要选择时间段,根据时间段划分样本,以便进行比较。其次使 用"抽样-> 聚类-> 计算降维指标"的流程进行大数据降维,将聚类获得的簇作为已知的标 签,采用完全客观的算法来选择对样本的已知标签具有较大影响力的维度。也就是说,这些 在降维中被保留下来的维度不是主观确定的,不依赖于经验模型。再次针对降维后的数据, 使用聚类分析(clustering)算法将样本进行聚类,获得数据客观蕴含的相似性,再将聚类 结果(簇,cluster)的个数定义为态势指数。最后,将各个时间段的态势指数形成时间序 列,使用拐点分析方法进行异常值预警,预警方法简便、效果较好。
[0007] 本发明公开的基于聚类的态势分析预警方法,其创新点在于定义了一种全新的宏 观指标"态势指数",即截面数据中聚类获得的簇的数量,它反映了数据内部蕴含的子结构 的数量,由此可以对每个时间点的截面数据中蕴含的子结构的数量变化进行预警,是常用 的截面数据样本量指标的有力补充。
[0008] 本发明的技术方案为:
[0009] -种基于聚类的大数据态势分析预警方法,其步骤为:
[0010] 1)中央服务器从各终端服务器采集样本数据,并按照时间段对样本数据进行划 分,每个时间段对应一样本数据集;
[0011] 2)对于每一时间段的样本数据集,从中抽取若干样本构建一抽样样本集合,并对 其进行聚类分析,得到若干簇;将聚类得到的簇作为样本的标签,对样本进行标注,然后根 据选取的属性降维指标计算所述抽样样本集合中已标注样本每一属性的属性值辨识度、属 性辨识度和或属性值重要性、属性重要性;
[0012] 3)分别根据属性值辨识度、属性辨识度和或属性值重要性、属性重要性对属性进 行排序,选取若干属性作为大数据降维后保留的属性;
[0013] 4)对每一属性降维后的所述样本数据集进行聚类,将聚类得到的簇作为所述样本 数据集的态势指数;
[0014] 5)根据各个时间段的态势指数构建一态势指数时间序列;然后根据该态势指数 时间序列确定一常态区域;
[0015] 6)计算当前时刻所采集样本数据的态势指数,如果超出所述常态区域,则对其进 行监控,并计算下一时刻所采集样本数据的态势指数,如果仍超出所述常态区域,则进行预 警;
[0016] 其中,属性值辨识度的计算方法为:选取样本一属性i的一属性值a,计算具有该 属性值a的样本属于标签j的条件概率值,以及未增加该属性值条件时样本属于该标签j 的概率值;将所述条件概率值与所述概率值的差值作为该属性值a对于该标签j的属性值 辨识度;将该属性值a对于所有标签的属性值辨识度的平方平均数作为该属性值a的属性 值辨识度;
[0017] 属性辨识度的计算方法为:根据属性i所有属性值辨识度计算该属性i的属性辨 识度;
[0018] 属性值重要性的计算方法为:将样本属性i取属性值a时属于标签j的样本量乘 以该属性值a对于该标签j的属性辨识度,得到该属性值a对于该标签j的属性值重要性; 将该属性值a对于所有标签的属性值重要性的平方平均数作为该属性值a的属性值重要 性;
[0019] 属性重要性的计算方法为:根据属性i所有属性值重要性计算该属性i的属性重 要性。
[0020] 进一步的,对该属性i所有属性值的属性值辨识度平方平均数作为该属性i的属 性辨识度。
[0021] 进一步的,采用基于条件概率和贝叶斯算法计算所述辨识度。
[0022] 进一步的,将属性i所有属性值的属性重要性的平方平均数作为该属性的属性重 要性。
[0023] 进一步的,对每一时间段的样本数据进行系统抽样得到所述抽样样本集合。
[0024] 本发明的系统如图3所示,其主要包括:
[0025] 1、数据降维模块
[0026] 对采集的样本进行抽样和聚类分析,得到若干簇,将聚类得到的簇作为样本的标 签,对样本进行标注。计算标注样本每一属性的属性值辨识度、属性辨识度以及属性值重要 性、属性重要性,提取由数据本身决定的"属性对相似性的影响力"指标;然后根据指标计算 结果对属性排序;选取排序靠前的属性对样本数据进行降维。本发明定义了四个相互关联 但又互不相同的影响力指标:属性值辨识度、属性辨识度、属性值重要性、属性重要性,从而 更加全面准确的刻画"属性对分类的影响力"大小。下面简要介绍这四个指标的概念,具体 计算方法详见下文"【具体实施方式】"部分。
[0027] (1)属性值辨识度和属性辨识度
[0028] 我们常说的"辨识度"有两种理解:第一,拥有该属性的样本是被辨认出来的能力, 一个歌声辨识度高的歌手只需要演唱一句就可以让大家认出他是谁,一个相貌辨识度高的 演员即使穿着平常走在人群中也可以被大家发现。第二,是拥有该属性的样本被准确分类 的能力,例如,某影视基地同时开拍一部清宫剧和一部现代剧,面对一个脑后垂着长辫子的 男演员,即使他没有说明自己属于哪个剧组,也基本可以断定他属于清宫剧剧组,可见"性 别=男、发型=长辫子"的属性值对"剧组"这一分类的辨识度很高。本专利定义的属性值 辨识度和属性辨识度采用的是后一种概念。
[0029] (2)属性值重要性和属性重要性
[0030] 属性辨识度概念没有考虑具有该属性的样本量,为了进一步平衡属性值的辨别能 力和对应的样本量,在"辨识度"概念的基础上定义"重要性"概念。粗略的说,重要性等于 辨识度乘以样本量。
[0031] (3) "辨识度"和"重要性"
[0032] 我们选择"辨识度"和"重要性"两个指标作为"属性对分类的影响力"的判断指 标,是因为这两个指标在实际操作中具有完全不同的意义。
[0033] 考虑青少年犯罪影响因素案例,如果通过聚类分析获得两个簇,分别代表"暴力犯 罪"和"非暴力犯罪"。其中,青少年"是否吸毒=是"的属性值对"暴力犯罪"的簇具有极 高的辨识度,也就是吸毒的青少年如果参与犯罪,这主要是暴力犯罪,可见应该注意重点排 查、干预这部分青少年的行为,采取针对其个人的预防监控措施。然而,由于一万个青少年 中吸毒的样本非常少,这个属性值的重要性并不大,重要性较高的属性值可能是"是否打 架斗殴=是",该的属性值涉及的样本较多,更适合采用大面积宣传教育的方式进行预防干 预,从而提1?干预效率。
[0034] 2.态势指数计算模块
[0035] 本方法通过对属性降维后的样本数据集进行聚类,将聚类得到的簇作为对应样本 数据集的态势指数。数据采集模块按照时间段对对采集的样本数据进行划分,每个时间段 对应一样本数据集。
[0036] 3、拐点分析模块
[0037] 本发明使用全新的拐点分析技术,通过历史数据计算态势指数确定出一常态区 域,并通过数据点及其发展趋势与常态区域的关系,将数据分为三种状态:可控状态、监控 状态、预警状态。
[0038] 如图1所示,以周期为18的时间序列数据为例。我们首先使用三个周期的数据围 成常态区域,即图中的灰色区域,接下来根据常态区域对新的一个周期的数据(黑色实线) 进行拐点分析和预警。
[0039] 可以发现,黑线上的大多数数据点落在常态区域中,属于可控状态。图中A点和B 点落在常态区域之外,且都是曲线从常态区域中突破出来的第一个点,进入监控状态。如果 数据点进入监控状态,相关人员应该保持密切监控,并对接下来的数据点进行拐点分析,也 就是用拐点分析技术判断数据的发展趋势是"进一步突破"还是"反转回归"。具体而言:
[0040] ①案例中,A点的下一时刻,曲线斜率符号转变(由正变成零或负),即向正常状态 回归,因此该数据值仍然属于监控状态,直到数据点回归到常态区域内,监控解除,或者曲 线斜率符号再度转变,远离常态区域,变成预警状态。
[0041] ②案例中,B点的下一时刻,曲线斜率并未发生符号转变,认为进一步偏离常态区 域,因此该数据值变成预警状态,做出预警。相关人员应该集中精力分析这些预警的"异常" 数据点。
[0042] 本发明的主要原理
[0043] 本部分说明本发明采用的主要原理,也就是为什么聚类获得的簇可以反映截面数 据内部组成结构,为什么态势指数(簇的个数,数据内部蕴含的子结构的数量)可以作为宏 观指标,成为截面数据样本量指标的有力补充。
[0044] 1.相关概念
[0045] 本专利涉及两个概念:基于已知分类的属性辨识度和重要性提取方法、常态模式。
[0046] (1)基于已知分类的属性辨识度和重要性提取方法。
[0047] 该方法基于数据中已知的分类情况,可以提取由数据本身决定的"属性对相似性 的影响力"指标,这些指标包括:属性值辨识度、属性辨识度、属性值重要性、属性重要性。本 专利将聚类分析获得的簇作为该专利的已知分类,由此提取基于聚类分析获得的簇的四项 影响力指标。
[0048] 使用聚类分析方法让数据通过无监督学习生成若干"簇",这些簇是基于距离或相 似度来确定的,满足簇中的对象彼此相似,而与其他簇中的对象相异。粗略的看,聚类的结 果与属性和属性值没有直接关联,即不是由某些属性来划分的。但是,考虑到距离或相似度 的定义基于属性和属性值,因此属性和属性值对簇的形成具有实际的影响,而且不同的属 性和属性值的影响力并不相同。因此,将聚类分析获得的簇作为已知的分类,进而提取属性 对分类的影响力的四项指标具有实际意义。
[0049] (2)常态模式。
[0050] 常态模式,可以理解为样本数据中的常见类型,每个常态模式都是一组属性值的 集合,常态模式集合是对全体样本的一种划分。
[0051] 例如,图4中的一个常态模式可能是{颜色=黑,形状=方,尺寸=小},该类型 包括了所有小的黑方块,它对应属性值{颜色=黑}、{形状=方}和{尺寸=小},是这三 个属性值的集合。当然,某一个确实的常态模式中的属性值不一定是唯一的,因此,{:颜色= 黑或灰,形状=方,尺寸=小}也可能是一个常态模式。另一方面,由于{颜色=黑,形 状=方或圆,尺寸=小}可以化简为{颜色=黑,尺寸=小},因此,常态模式对应的属性 值不一定包含所有的属性,也就是说,有的属性在常态模式的划分中并不重要。常态模式的 另一个重要特点是"划分"性,也就是"不重不漏"。两个常态模式不能拥有共同的样本,即 不相交;同时,绝大部分样本都属于某一个常态模式,只有少部分"异常值"、"离群值"。
[0052] 直观的讲,一个样本总体全体常态模式的集合对应一个分类树,如图5所示,就是 一个可能的常态模式集合。
[0053] 常态模式覆盖了绝大部分样本,除了左下角灰底白点的大圆,这是异常值。
[0054] -个需要区别的概念是正常类型。事实上,常态模式并不等价于正常类型,常态模 式只是从出现的频率上给出了出现频率高的分类方案,并不意味着它一定是正常的、正确 的。例如,在道路上暂时没有机动车通过时行人闯红灯过马路,这是一种常见的行为,但却 不是正确、合法的行为。当然,一般来说,常态模式是正常类型,不属于常态模式的异常值是 不正常的样本。
[0055] 2.常态模式的个数可以作为宏观指标
[0056] 我们首先说明,前文定义的常态模式的个数,反映了数据内部蕴含的子结构的数 量,可以作为宏观指标,而且是截面数据样本量指标的有力补充。
[0057] 首先,使用聚类分析方法让数据通过无监督学习生成若干"簇",这些簇是基于距 离或相似度来确定的,满足簇中的对象彼此相似,而与其他簇中的对象相异。粗略的看,聚 类的结果与属性和属性值没有直接关联,即不是由某些属性来划分的。但是,考虑到距离或 相似度的定义基于属性和属性值,因此属性和属性值对簇的形成具有实际的影响,而且不 同的属性和属性值的影响力并不相同。
[0058] 其次,根据聚类分析的结果,也就是各个"簇"的区别联系,确定属性和属性值在形 成"簇"时的影响力,也就是属性的重要程度。这里使用了类似决策树理论的思想,我们把 "簇"作为训练的"类标记",也就是将各属性分类与"簇"的契合程度作为属性重要程度的判 断标准,我们希望选出将样本分类的结果最接近"簇"的那些属性和属性值。
[0059] 再次,属性的辨识度和重要性都是基于聚类结果提取出来的,均可以用于分类步 骤,针对不同领域和数据结构具有不同分类效果,需要针对实际情况选择。也就是将属性和 属性值按照重要性和辨识度排序,灵活选择"重要性"或"辨识度"最高的属性和属性值,旨 在使分类结果最好的逼近聚类分析得到的"簇",可能合并或划分部分簇。这样得到的分类, 称为常见类型。常见类型覆盖了绝大部分样本,基本做到"不重不漏",具有很强的客观性。
[0060] 因此,如果常态模式的个数发生变化,可以归结为以下几种情况:
[0061] (1)常态模式分类时,选择了不同的属性或属性值,也就是属性或属性值的重要程 度发生了变化。直观的讲,随着时间的推移,某些属性变得相对更重要或不重要了。由于每 个属性对应的属性值切分数量通常不同,因此属性重要程度的变化改变了"切割"的方式, 从而改变了切割的份数(常见类型的个数)。
[0062] (2)某些重要属性增加或减少了属性值,这包括单个属性值的增加或减少,也包括 属性值组合的合并或分拆,例如:{颜色=灰或白}拆分成{颜色=灰}和{颜色=白},这 通常是因为两个属性对应的样本量(支持数)增加,从而增加了属性值的重要程度,当然也 可能是因为两者对应的样本开始表现出不同的特性,不应该再合并处理。
[0063] (3)增加或减少了某些重要属性,这种情况比较罕见,例如样本数据过去没有考虑 某属性,现在考虑了,而且它有较高的重要程度。
[0064] 可见,当常态模式的个数发生变化,无论是上述哪一种原因,都是非常值得关注 的。因此,常态模式的个数,反映了数据内部蕴含的子结构的数量,可以作为整体态势的指 标。
[0065] 3.聚类获得的簇的个数可以作为宏观指标
[0066] 从前文中常态模式的挖掘方法可以看出,常态模式非常接近聚类获得的簇,尽管 可能会出现常态模式与簇多对一或一对多的情况,但非常少见,常态模式的数量与簇的数 量基本一致、差异很小。所以,既然上一小节已经论证了"常态模式的个数,反映了数据内部 蕴含的子结构的数量,可以作为宏观指标",那么聚类获得的簇的个数也应该具有类似的功 能。
[0067] 与现有技术相比,本发明的积极效果为:
[0068] 本发明直接使用聚类获得的簇的个数作为宏观指标,其优点在于操作简单、计算 复杂性低,有利于在实际操作中使用和推广。其缺点在于传统的聚类分析算法基于随机的 初始值进行迭代,因此获得的簇的个数存在一定随机性,为了克服这一缺点,可以使用若干 次聚类获得的簇的个数的平均值作为宏观指标。
[0069] 本发明公开的态势分析预警方法,可应用于公安情报数据分析、反腐败数据分析、 居民家庭用电情况分析、交通出行模式分析、疾病特征数据分析、医疗数据分析、客户市场 细分等多种领域,提取"属性对相似性的影响力"指标,具有较强的普适性。
【专利附图】
【附图说明】
[0070] 图1为拐点分析和预警的简单实例图;
[0071] 图2为基于聚类的大数据属性重要性和辨识度的时间序列预警系统流程图;
[0072] 图3为基于聚类的大数据属性重要性和辨识度的时间序列预警系统结构图; [0073] 图4为常态模式的概念图;
[0074] 图5为常态模式实例图;
[0075] 图6为根据态势指数历史数据绘制的常态区域图;
[0076] 图7为根据新周期中态势指数的状态图;
[0077] 图8为实例分析计算效果图;
[0078] 图9为"簇的合并"环节的分类关联差异矩阵。
【具体实施方式】
[0079] 本发明公开了一种基于聚类的大数据态势分析预警方法和系统,可以得到多层次 的预警结果,方法流程如图2所示,具体操作步骤如下。
[0080] 步骤1 :数据采集。
[0081] 数据采集模块是本系统的硬件基础。该模块将待分析的无标签样本数据从分布在 各地的终端数据库中传输汇总到中央数据库。
[0082] 步骤2:数据清洗。
[0083] 通过数据采集终端汇总得到的数据,难免存在不完整、错误、重复等现象。数据清 洗步骤用于过滤这些不符合要求的数据,过滤的结果将提交给相关主管部门,确认是直接 过滤掉还是作为异常值提取出来做进一步分析。
[0084] 步骤3 :时间段选择及划分。
[0085] 根据客户实际需求,将样本数据划分为若干时间段,针对每个时间段重复步骤4 和步骤5。本系统提供客户时间段划分的选择功能。
[0086] 步骤4:数据降维。
[0087] 经过清洗和时间段划分的的样本数据汇总到中央数据库。由于样本量(N1)巨大, 形成了维数大、规模大、复杂性大的大数据形态,要挖掘其中有意义的知识和内容以指导实 际生产和具体应用,需要首先进行降维处理,即维数约简,它一方面可以解决"维数灾难", 缓解大数据中"信息丰富但知识贫乏"的问题,降低计算的复杂度;另一方面可以引导人们 更好地认识和理解数据。
[0088] 数据降维步骤包括以下子步骤:
[0089] 步骤4.1:数据抽样。
[0090] 对全体样本进行系统抽样(systematic sampling)。系统抽样,又称机械抽样、等 距抽样。具体而言:
[0091] (1)由系统硬件运转能力确定适合的抽样样本量(N2),定义压缩比(M)为:
[0092] M = N1+N2;
[0093] (2)将全体样本数据按某一顺序排列起来,标注唯一的序号;
[0094] (3)从前Μ个样本中随机的选出一个样本作为抽样样本,记其序号为k ;
[0095] (4)将序号为k、k+M、k+2*M、...、k+(N2-l)*M的N2个样本作为抽样结果。
[0096] 步骤4. 2 :数据聚类。
[0097] 本步骤可以建立在任何一种公知的聚类分析算法结果之上,通过对抽样后的样本 数据进行聚类分析,得到若干簇。
[0098] 步骤4. 3 :降维指标选择。
[0099] 针对抽样得到的N2个样本以及聚类获得的若干簇,可以通过后续的步骤计算降 维指标(即"属性对相似性的影响力"),并根据"影响力"的排序来确定降维后保留的属性。 本系统提供降维指标的选择,可选择的降维指标有:
[0100] 降维指标1 :属性辨识度指标;
[0101] 降维指标2 :属性重要性指标。
[0102] 降维指标选择主要看待分析的问题中"样本量"因素是否重要,建议如下:
[0103] (1)如果"样本量"因素不重要,应选择属性辨识度指标给出影响力排序;
[0104] ⑵如果"样本量"因素重要,应选择属性重要性指标给出影响力排序;
[0105] (3)如果想综合考虑上述两种情况,应结合这两个指标给出综合性的排序。
[0106] 步骤4. 4 :降维指标计算。
[0107] 计算降维指标,也就是计算每个属性"对相似性的影响力",具体包括:属性辨识度 和属性重要性,同时还需要计算两个过渡性的指标:属性值辨识度和属性值重要性。我们以 案例为基础,说明这四项指标的主要计算步骤。系统将根据用户在步骤3. 2中的选择情况 计算相应的指标。
[0108] 四项指标计算案例:
[0109] 一个包含100人的研究样本,其中包含50名女性和50名男性,其中20人有前科。 通过聚类分析获得了两个"簇",其中"簇1"包含10个样本,绝大部分是犯有盗窃罪的人, 而"簇2"包含90个样本,绝大部分是未犯有盗窃罪的人。其他数据如表1。
[0110] 表1 :四项指标计算案例
[0111]
【权利要求】
1. 一种基于聚类的大数据态势分析预警方法,其步骤为: 1) 中央服务器从各终端服务器采集样本数据,并按照时间段对样本数据进行划分,每 个时间段对应一样本数据集; 2) 对于每一时间段的样本数据集,从中抽取若干样本构建一抽样样本集合,并对其进 行聚类分析,得到若干簇;将聚类得到的簇作为样本的标签,对样本进行标注,然后根据选 取的属性降维指标计算所述抽样样本集合中已标注样本每一属性的属性值辨识度、属性辨 识度和或属性值重要性、属性重要性; 3) 分别根据属性值辨识度、属性辨识度和或属性值重要性、属性重要性对属性进行排 序,选取若干属性作为大数据降维后保留的属性; 4) 对每一属性降维后的所述样本数据集进行聚类,将聚类得到的簇作为所述样本数据 集的态势指数; 5) 根据各个时间段的态势指数构建一态势指数时间序列;然后根据该态势指数时间 序列确定一常态区域; 6) 计算当前时刻所采集样本数据的态势指数,如果超出所述常态区域,则对其进行监 控,并计算下一时刻所采集样本数据的态势指数,如果仍超出所述常态区域,则进行预警; 其中,属性值辨识度的计算方法为:选取样本一属性i的一属性值a,计算具有该属性 值a的样本属于标签j的条件概率值,以及未增加该属性值条件时样本属于该标签j的概 率值;将所述条件概率值与所述概率值的差值作为该属性值a对于该标签j的属性值辨识 度;将该属性值a对于所有标签的属性值辨识度的平方平均数作为该属性值a的属性值辨 识度; 属性辨识度的计算方法为:根据属性i所有属性值辨识度计算该属性i的属性辨识 度; 属性值重要性的计算方法为:将样本属性i取属性值a时属于标签j的样本量乘以该 属性值a对于该标签j的属性辨识度,得到该属性值a对于该标签j的属性值重要性;将该 属性值a对于所有标签的属性值重要性的平方平均数作为该属性值a的属性值重要性; 属性重要性的计算方法为:根据属性i所有属性值重要性计算该属性i的属性重要性。
2. 如权利要求1所述的方法,其特征在于对该属性i所有属性值的属性值辨识度平方 平均数作为该属性i的属性辨识度。
3. 如权利要求1或2所述的方法,其特征在于采用基于条件概率和贝叶斯算法计算所 述辨识度。
4. 如权利要求1所述的方法,其特征在于将属性i所有属性值的属性重要性的平方平 均数作为该属性的属性重要性。
5. 如权利要求1所述的方法,其特征在于对每一时间段的样本数据进行系统抽样得到 所述抽样样本集合。
6. -种基于聚类的大数据态势分析预警系统,其特征在于包括多个终端服务器和一中 央服务器,所述终端服务器通过网络与所述中央服务器连接;其中,所述中央服务器包括数 据采集模块、数据降维模块、态势指数计算模块和拐点分析模块; 所述数据采集模块,用于从各终端服务器采集样本数据,并按照时间段对样本数据进 行划分,每个时间段对应一样本数据集; 所述数据降维模块,用于从每一时间段的样本数据集中抽取若干样本构建一抽样样本 集合,并对其进行聚类分析,得到若干簇;将聚类得到的簇作为样本的标签,对样本进行标 注,然后根据选取的属性降维指标计算所述抽样样本集合中已标注样本每一属性的属性值 辨识度、属性辨识度和或属性值重要性、属性重要性,并根据计算结果对属性进行排序,选 取若干属性作为大数据降维后保留的属性; 所述态势指数计算模块,用于对每一属性降维后的所述样本数据集进行聚类,将聚类 得到的簇作为所述样本数据集的态势指数; 所述拐点分析模块,用于根据各个时间段的态势指数构建一态势指数时间序列;然后 根据该态势指数时间序列确定一常态区域;以及计算当前时刻所采集样本数据的态势指 数,如果超出所述常态区域,则对其进行监控,并计算下一时刻所采集样本数据的态势指 数,如果仍超出所述常态区域,则进行预警; 其中,属性值辨识度的计算方法为:选取样本一属性i的一属性值a,计算具有该属性 值a的样本属于标签j的条件概率值,以及未增加该属性值条件时样本属于该标签j的概 率值;将所述条件概率值与所述概率值的差值作为该属性值a对于该标签j的属性值辨识 度;将该属性值a对于所有标签的属性值辨识度的平方平均数作为该属性值a的属性值辨 识度; 属性辨识度的计算方法为:根据属性i所有属性值辨识度计算该属性i的属性辨识 度; 属性值重要性的计算方法为:将样本属性i取属性值a时属于标签j的样本量乘以该 属性值a对于该标签j的属性辨识度,得到该属性值a对于该标签j的属性值重要性;将该 属性值a对于所有标签的属性值重要性的平方平均数作为该属性值a的属性值重要性; 属性重要性的计算方法为:根据属性i所有属性值重要性计算该属性i的属性重要性。
7. 如权利要求6所述的系统,其特征在于对该属性i所有属性值的属性值辨识度的平 方平均数作为该属性i的属性辨识度;对该属性i所有属性值的属性值重要性的平方平均 数作为该属性i的属性重要性。
8. 如权利要求6或7所述的系统,其特征在于采用基于条件概率和贝叶斯算法计算所 述辨识度。
9. 如权利要求6或7所述的系统,其特征在于所述中央服务器通过一预警信息发布器 发布预警信息。
10. 如权利要求6所述的系统,其特征在于对每一时间段的样本数据进行系统抽样得 到所述抽样样本集合。
【文档编号】G06F17/30GK104142986SQ201410356031
【公开日】2014年11月12日 申请日期:2014年7月24日 优先权日:2014年7月24日
【发明者】王电, 魏毅, 黄煜可 申请人:中国软件与技术服务股份有限公司