对数据进行聚类的方法、设备和系统的利记博彩app

文档序号:6577045阅读:248来源:国知局
专利名称:对数据进行聚类的方法、设备和系统的利记博彩app
技术领域
本发明涉及数据挖掘和信息索引,具体涉及一种对数据进行聚类的方法、设备和 系统,其允许快速并精确地对输入的数据项进行聚类。
背景技术
目前,人们会接触到大量的数据。如何对这些数据进行分析、整理、聚类或者挖掘, 进而获得其中的规律性,的问题是困扰人们的问题。现有的数据聚类方法主要是基于传统的K-means算法,模糊K-means或者分级式 汇聚的聚类模型。专利文献1(CN1881218A)披露了一种聚类技术。在该专利文献1中,提 出了使用多维数据特征和迭代式汇聚合并策略。该方法通过逐级合并聚类来从各个元素创 建分级结构。在汇聚式聚类过程中,每个元素最初被放在其自己的组中。首先确定那个单 元要被融合到一个簇中。通常,根据所选的距离度量,将距离最接近的两个元素融合到一个 簇中。重复执行该迭代步骤多次,将最终产生的簇作为聚类结果。但是,该专利文献1所披露的数据聚类方法对于大规模数据集而言处理速度较 慢。该方法不能使用分布式和并行计算来解决聚类过程中的大规模计算问题,这是因为该 方法针对计算任务的分级式分解而言,没有合适的模型结构。由于无法进行分级式分解,聚 类任务不能在并行平台上进行,并且必须使用串行计算。因此,对于大规模聚类问题来说, 该方法的速度非常低。另外,该专利文献1所披露的数据聚类方法主要使用传统的分级式汇聚分类步 骤,它不能获得数据空间的统计特征。因此,该方法针对现实世界的数据集而言鲁棒性差。 尤其对于大规模数据集,该方法将严重恶化,并且降低了聚类精度和鲁棒性,因为其丢失了 数据集的特征空间中的统计细节。同时,该方法需要用户设置较多的参数。这样对于用户 而言非常不方便,并且对于现实世界的应用没有自适应能力。在该方法中,不同的参数设置 可能会严重影响聚类的精度,因为聚类过程是通过这些参数来初始化的,且聚类结果严重 依赖于参数设置。当使用该方法时,较差的参数设置必将导致较差的聚类结果,但是用户却 不知道如何找到最佳的参数设置。因此,该专利文献1所披露的方法很难为用户产生较好 的聚类结果。该方法对于实际的应用来说,也是不够的。

发明内容
本发明的目的是提出一种对数据进行聚类的方法和设备,允许对大规模数据进行 分级式聚类,以便提高聚类的速度和精度。在本发明的一个方面,提出了一种对数据进行聚类的方法,包括步骤针对输入的 数据项创建分级式生成树;对创建的分级式生成树执行迭代式图缩减,以便缩减分级式生 成树上的边缘点;对缩减后的分级式生成树执行受约束的图切分处理,以计算分级式生成 树中每个边的切分值;以及选择具有最大切分值的边作为要切分的位置来将分级式生成树 切分成子树来获得聚类结果。
在本发明的另一方面,提出了一种对数据进行聚类的设备,包括分级式生成树创 建单元,针对输入的数据项创建分级式生成树;图缩减单元,对创建的分级式生成树执行迭 代式图缩减,以便缩减分级式生成树上的边缘点;图切分单元,对缩减后的分级式生成树执 行受约束的图切分处理,以计算分级式生成树中每个边的切分值;以及分级式分割单元,选 择具有最大切分值的边作为要切分的位置来将分级式生成树切分成多个子树来获得聚类 结果。利用本发明的上述方法和设备,能够基于分级式结构,以并行的方式对大规模数 据集合进行计算,提高了聚类过程的计算速度。另外,本发明的方法和设备使用自适应的分割并包围和从粗到细的策略来对大规 模数据集合进行计算。因此具有较高的数据聚类精度。另外,本发明所提出的方法和设备采用基于并行计算和分级式结构,允许进行在 线的实时应用。


通过下面结合

本发明的优选实施例,将使本发明的上述及其它目的、特 征和优点更加清楚,其中图1A示出了根据本发明实施例的数据处理系统的结构示意图;图1B示出了根据本发明实施例的数据处理系统中的聚类装置的结构示意图;图2示出了根据本发明实施例的聚类设备对数据进行聚类的过程的流程图;图3A和3B是描述分级式生成树的产生过程的示意图;图4是描述迭代式图缩减过程的示意图;图5是描述受约束的图切分处理过程的示意图;图6是描述分级是分割的处理过程的示意图。
具体实施例方式下面参照附图对本发明的优选实施例进行详细说明,在描述过程中省略了对于本 发明来说是不必要的细节和功能,以防止对本发明的理解造成混淆。图1A示出了根据本发明实施例的数据处理系统的结构示意图。该数据处理系统 例如是用于信息浏览和索引的各种数据聚类系统和图像聚类系统。如图1A所示,该系统包括对输入的原始数据进行预处理的预处理部分11、对预处 理后的数据进行特征提取的特征提取部分12、存储数据的存储设备13、对数据进行聚类的 聚类装置和输出聚类结果的输出单元15。虽然以分离的功能模块的形式来描述该系统的功 能,但是也可以以具体的实体结构来实现相应的功能。例如,图1A所示的数据预处理部分 11、特征提取部分12和数据聚类装置14可以实现为计算机的CPU和RAM。并且该系统既能 够在通用计算机上实现,也能够在嵌入式系统中实现。如图1A所示,输入到系统中的是原 始数据,一方面用于记录到存储设备13中,另一方面对其进行聚类操作,输出聚类结果。由 系统的输出单元15输出的是针对数据的聚类标记。该数据预处理部分11例如对输入的图像进行噪声消除之类的操作,输出经过预 处理的图像。对于其他的数据,例如银行或者网页数据,该数据预处理部分11可以对输入的数据进行重新整理,排序等操作,方便后续的处理。然后,特征提取部分12例如对经过预处理的图像进行特征提取,例如进行特征提 取,得到能够描述该图像的特征矢量,作为要进行聚类的数据。本发明的信息处理设备不但支持在线处理,而且也支持离线处理。例如用户可以 首先对输入的原始数据进行预处理和特征提取后,将带聚类的数据项存储在存储设备13 中,然后由数据聚类装置14进行聚类操作。作为另一实施例,聚类装置14可以直接对特征 提取部分12所输入的带聚类的数据进行聚类操作。图1B示出了根据本发明实施例的数据处理系统中的聚类装置的结构示意图。 如图1所示,根据本发明实施例的聚类装置14包括分级式生成树(HST hierarchical Spanning Tree)创建模块 141,图缩减(Graph Shrinking)模块 142、图切分(Graph cuts) 模块143和分级式分割(Hierarchical Partitioning)模块。下面参照附图2 6详细说 明本发明实施例的聚类装置14的详细构成和各个模块的具体操作过程。如图2所示,在步骤S11,将要聚类的数据项和预设参数值从特征提取部分12和/ 或存储设备13中输入到HST创建模块141中。例如输入任意顺序的数据点列表和两个距 离阈值,1\和T2,其中大于T2。然后,在步骤S12,HST创建模块141从列表中取一个数据点,并且计算它与列表中 的其他数据点的距离。将彼此之间的距离小于距离阈值T1的所有数据点放在一个超球内。 并且从列表中移除彼此之间的距离小于距离阈值T2的所有数据点。重复上述过程,直到列表空。结果,在该过程中创建了大量的超球。在每个超球中, 使用Prim算法创建最小生成树,如图3A所示。该计算任务可以以分布式计算的并行方式 来执行。然后,对于具有重叠数据点的任意两个超球,HST创建模块141将最接近的数据点 链接起来,使得该链接能够在两个超球和重叠数据点之间建立桥梁,并且将两个超球链接 起来,如图3B中的虚线所示。该计算任务也可以以并行方式来完成。在所有超球中,使用 Prim算法将超球看作数据点,删除一些边,从而使得将所有超球链接在一起的剩余边形成 针对这些超球的最小生成树。最终在整个数据集上创建了分级式生成树。在步骤S13,图缩减模块142执行迭代式图缩减。如图4所示,在分级式生成树中, 将数据点称为边缘点,因为它们仅仅有一个边。图缩减模块142删除与边缘点联系的边,并 且将所有的边缘点收缩到分级式生成树上。并且,再次融合新的边缘点。重复该迭代式缩 减步骤M次,以便缩减边缘点。重复该迭代式缩减步骤M次,以便缩减边缘点。结果,分级 式生成树被缩减,并且边缘点被标记出来,如图4中的粗线段所示。在步骤S14,图切分模块143执行受约束的图切分处理。如图5所示,在缩减的分 级式生成树中,图切分模块143基于两个数据点所在的集合之间的距离和各个集合中数据 点的稀疏度来计算连接两个数据点的边的图切分值。例如如下对链接数据点m和n的边t 计算受约束的图切分值Mcut(m,n)<formula>formula see original document page 6</formula>其中Am和An是数据点的集合,并且cut (m, n) = wmn,表示两个集合Am和An之间的距离assoc(Am) =.表示集合乂中元素的稀疏度
assoc{An) = ^力么,,1^!瓜沖链接< },表示集合八 中元素的稀疏度是链接数据点i
和j的边的长度。Am是从点m搜索到的点集合。该搜索过程从点m开始,并且不跨过链接 点m和n的边。图切分模块143产生由数据点m和与其毗邻的点构成的列表L,但是其中不 包括数据点n。然后,图切分模块产生仅仅由点m构成的另一列表LL。在列表L的点之间 的边中找到最短的边s。标记链接点m和k的最短的边s。并且将点k和与其毗邻的点添 加到列表L中,以及将点k添加到列表LL中。然后,从列表L中的点之间的边中再次找到 最短的边(除了上述的最短边)。重复上述过程H次,列表LL中就有H+1个点。结果,将列 表LL设置为点集合Am。并且点集合An可以通过相同的搜索过程来得到。最后,分级式生 成树中的每个边都有一个因子Mcut。在步骤S15,分级式分割模块144执行分级式分割操作。如图6所示,分级式分割 模块144选择具有最大Mcut的边作为合适的位置来将分级式生成树切分成子树。在每个 子树中,按照上述的原理将子树分裂成两个子树。因此,该分割过程可以按照分级的方式来 进行。因此,整个数据图被分割成X个子树。每个子树就是作为簇的数据集合。因此,数据 聚类就完成了。相比于现有的技术,本发明实施例的方法能够基于分级式结构,以并行的方式对 大规模数据集合进行计算。因此提高了聚类过程的计算速度。另外,本发明实施例的方案允许使用自适应的分割并包围和从粗到细的策略来对 大规模数据集合进行计算。因此具有较高的数据聚类精度。另外,本发明实施例的方案基于并行计算和分级式结构,允许进行在线的实时应用。上面的描述仅用于实现本发明的实施方式,本领域的技术人员应该理解,在不脱 离本发明的范围的任何修改或局部替换,均应该属于本发明的权利要求来限定的范围,因 此,本发明的保护范围应该以权利要求书的保护范围为准。
权利要求
一种对数据进行聚类的方法,包括步骤针对输入的数据项创建分级式生成树;对创建的分级式生成树执行迭代式图缩减,以便缩减分级式生成树上的边缘点;对缩减后的分级式生成树执行受约束的图切分处理,以计算分级式生成树中每个边的切分值;以及选择具有最大切分值的边作为要切分的位置来将分级式生成树切分成子树来获得聚类结果。
2.如权利要求1所述的方法,其中所述针对输入的数据项创建分级式生成树的步骤包括从包括多个数据项的列表中取一个数据项,并且计算它与列表中的其他数据项的距罔;将彼此之间的距离小于第一距离阈值的所有数据点放在一个超球内; 从列表中移除彼此之间的距离小于第二距离阈值的所有数据项,其中第一距离阈值大 于第二距离阈值;针对所述超球,创建最小生成树;对于具有重叠数据点的任意两个超球,将最接近的数据点链接起来; 在所有超球中,将超球看作数据点,删除一些边,从而使得将所有超球链接在一起的剩 余边形成针对这些超球的最小生成树,作为所述分级式生成树。
3.如权利要求1所述的方法,其中所述对创建的分级式生成树执行迭代式图缩减的步 骤包括重复如下过程来缩减分级式生成树删除与分级式生成树的边缘点联系的边;将分级式生成树的所有的边缘点收缩到分级式生成树上;以及融合新的边缘点。
4.如权利要求3所述的方法,其中所述对创建的分级式生成树执行迭代式图缩减的步 骤还包括标记缩减后的分级式生成树的边缘点。
5.如权利要求1所述的方法,其中切分值的计算包括基于两个数据点所在的集合之间的距离和各个集合中数据点的稀疏度来计算连接两 个数据点的边的图切分值。
6.一种对数据进行聚类的设备,包括分级式生成树创建单元,针对输入的数据项创建分级式生成树; 图缩减单元,对创建的分级式生成树执行迭代式图缩减,以便缩减分级式生成树上的 边缘点;图切分单元,对缩减后的分级式生成树执行受约束的图切分处理,以计算分级式生成 树中每个边的切分值;以及分级式分割单元,选择具有最大切分值的边作为要切分的位置来将分级式生成树切分 成多个子树来获得聚类结果。
7.如权利要求6所述的设备,其中所述分级式生成树创建单元从包括多个数据项的列表中取一个数据项,并且计算它与列表中的其他数据项的距离,将彼此之间的距离小于第 一距离阈值的所有数据点放在一个超球内,从列表中移除彼此之间的距离小于第二距离阈 值的所有数据项,其中第一距离阈值大于第二距离阈值,针对所述超球,创建最小生成树, 对于具有重叠数据点的任意两个超球,将最接近的数据点链接起来,在所有超球中,将超球 看作数据点,删除一些边,从而使得将所有超球链接在一起的剩余边形成针对这些超球的 最小生成树,作为所述分级式生成树。
8.如权利要求6所述的设备,其中所述图缩减单元重复如下过程来缩减分级式生成树删除与分级式生成树的边缘点联系的边;将分级式生成树的所有的边缘点收缩到分级式生成树上;以及融合新的边缘点。
9.如权利要求8所述的设备,其中所述图缩减单元还标记缩减后的分级式生成树的边缘点。
10.如权利要求6所述的设备,其中图切分单元基于两个数据点所在的集合之间的距 离和各个集合中数据点的稀疏度来计算连接两个数据点的边的图切分值。
11.一种信息处理系统,包括如权利要求6 10之一所述的设备。
全文摘要
公开了一种对数据进行聚类的方法、设备和系统。首先创建分级生成树,然后进行迭代图缩减和约束图切分;并且最后实现了分级式分割。通过分割的子图来获得聚类结果。本发明的计算成本低,处理速度快,聚类精度高,并且鲁棒性强。聚类的结果具有较好的统计特征。本发明可以用于各种数据分类系统。
文档编号G06F17/30GK101833553SQ20091012621
公开日2010年9月15日 申请日期2009年3月9日 优先权日2009年3月9日
发明者吴亚栋, 吴波, 李季檩, 范志刚, 陈芒 申请人:夏普株式会社
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1