一种面向大规模数据的快速多代表点仿射传播方法

文档序号:10612903阅读:225来源:国知局
一种面向大规模数据的快速多代表点仿射传播方法
【专利摘要】一种面向大规模数据的快速多代表点仿射传播方法。本发明对多代表点仿射传播(MEAP)聚类算法处理大规模数据有提升作用,其特征是:(1)通过核心集的中心约束最小包含球提取原始数据,得到可以代表整个数据集的压缩集;(2)结合多代表点仿射传播聚类算法对压缩集进行聚类,得到全局聚类中心,最后采用K邻近算法得到最终划分。该发明简单易行,在数据集大规模增长时,能够有效地解决复杂模型大数据集下的聚类问题。
【专利说明】
一种面向大规模数据的快速多代表点仿射传播方法
技术领域
:
[0001]本发明涉及聚类分析领域,具体地说给出一种对大规模数据进行聚类分析的方法。
【背景技术】
:
[0002]聚类分析作为一种可以深层次反映数据结构特性的方法,在数据挖掘中有着很重要的地位,它在商务领域、气象科学领域、生物领域、心理学和医学等各个领域都受到了极大关注,并收获了很多优秀的研究成果。针对各种数据特点和问题形式,学者们已经研究出了一些经典的聚类算法。
[0003]聚类分析是数据挖掘的重要环节,对海量数据中有效信息的提取和划分有着重要的促进作用。

【发明内容】

:
[0004]本发明的目的是构建一种具有较高应用价值、简单易行的大规模数据集聚类方法。
[0005]本发明通过基于核心集的中心约束最小包含球方法来提取大规模数据集的特征集,从而获得具有代表性的压缩集,并联合多代表点仿射传播聚类算法和K邻近算法得到最终划分。在不同的人工数据集和真实数据集上的结果表明,与已有方法(如AP、FCM及K-Centers算法等)相比,该方法当数据集规模较大时,在不低于多代表点仿射传播聚类算法的精度情况下,能够大大缩减计算时间。
[0006]具体的技术方案如下:
[0007](I)初始化压缩集,系统地随机选取最小包含球的两个初始点。输入原始数据集,在高维特征空间中求得核心集的中心约束最小包含球的半径和圆心,并得到压缩集。该压缩集保持了原有数据集的特征,但是大大减小了待聚类数据的规模。
[0008](2)利用欧氏距离度量压缩集中数据点的相似性,构建相似度矩阵S,并作为MEAP算法的输入。
[0009](3)初始化震荡因子、偏向参数P和pp,并对压缩集数据进行多代表点仿射传播聚类算法。
[0010](4)对余下的数据进行K-邻近聚类,直至所有的数据点的类别被确定。
[0011]本发明的有益效果是:
[0012]1、建立一个面向大规模数据的多代表点仿射传播方法;
[0013]2、本发明简单易行,提出的算法在数据集的规模变大时,在保持和多代表点仿射传播聚类算法精度的情况下,能够大大缩减计算时间。
[0014]本发明的适用于聚类分析中的大规模数据聚类,可以为数据挖掘相关领域提供思路,对处理大规模数据时可以起到指导作用。【附图说明】:
[0015]图1为本发明分别对人工数据集及其压缩集进行聚类的效果图;
[0016]图2为本发明对人工数据集的聚类评价图;
【具体实施方式】
:
[0017]下面结合附图和实例进一步说明本发明的实质内容,但本发明的内容并不限于此。
[0018]实施例1:
[0019]初始化压缩集,系统地随机选取最小包含球的两个初始点。输入原始数据集,在高维特征空间中求得核心集的中心约束最小包含球的半径和圆心,得到压缩集。利用欧式距离度量计算压缩集中数据点间的相似性,构成相似度矩阵S,作为MEAP算法的输入。初始化震荡因子、偏向参数P和PP,并对压缩集数据进行多代表点仿射传播聚类算法得到全局聚类中心;对余下的数据点进行K邻近聚类算法,直至所有的数据点的类别被确定为止。
【主权项】
1.一种面向大规模数据的快速多代表点仿射传播方法。本发明对MEAP聚类算法处理大规模数据有提升作用,为聚类分析提供新思路。其特征在于: (1)利用基于核心集的中心约束最小包含球的快速压缩方法对原始大规模数据集进行压缩,得到可以代表整个数据集的压缩集; (2)对上述的压缩集使用多代表点仿射传播聚类得到全局聚类中心; (3)采用K-邻近算法对剩余点进行聚类,得到最终划分。2.根据权利要求1所述的一种面向大规模数据的快速多代表点仿射传播方法,其特征在于:利用基于核心集的中心约束最小包含球的快速压缩方法对原始大规模数据集进行压缩,得到可以代表整个数据集的压缩集,以减小待聚类数据集的规模,提高数据集的聚类效率。3.根据权利要求1所述的一种面向大规模数据的快速多代表点仿射传播方法,其特征在于:对所获压缩集使用多代表点仿射传播聚类得到全局聚类中心。4.根据权利要求1所述的一种面向大规模数据的快速多代表点仿射传播方法,其特征在于:利用K-邻近算法对其他数据进行聚类,得到最终数据集的划分。
【文档编号】G06F17/30GK105975583SQ201610292449
【公开日】2016年9月28日
【申请日】2016年5月5日
【发明人】陈秀宏, 刘季
【申请人】江南大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1