对于对象的顺序稳定的分类的线性无监督方法

文档序号:6570552阅读:199来源:国知局

专利名称::对于对象的顺序稳定的分类的线性无监督方法对于对象的顺序稳定的分类的线性无监督方法
技术领域
:本发明涉及对于对象的顺序稳定的线性无监督分类方法。其更一般地涉及称为术语"聚类"的自动分类技术。在大型数据库中,其特别地被使用在无预先假设的"知识发现"的"数据挖掘"和"文本挖掘"领域。这种数据可以是例如处理行为的或人口统计的数据时的有结构类型,或者是处理文本数据时的无结构类型。从一组由m个描述符(或变量)描述的一组(或种群)《个对象组成的数据库开始,自动分类在于对这些对象以非常均匀的类别(或群)的形式进行结构化。均匀性表示同一类别的两个对象必须比属于两个不同类别的两个对象彼此更加相似(或类似)。取决于数据是有结构的还是无结构类型,这些类别的构成将允许具有相似概要特征或主题的对象的群被容易地探测到。若通过精确的方法求解,这个问题的排列与组合太多。由于这个原因,为了找到这个问题近似解,已经出现了在处理时间和机器资源方面代价较少的启发式算法。这些启发式算法中的某一些通过任意地固定类别的数量来给出解,而其他的提出具有可变数量类别的划分的层次。例如,可能提及下列启发式算法-"移动中心"类型的方法,比如"k均值",动态聚类,等等......层次分类的方法(增加的或者减少的)"第一领导者(leader)"类型的方法等等下列参考文献给出了各种无监督分类方法的实例1)SaportaG.(1990),Probabilit6s,Analysededonn6esetStatistique(概率,数据分丰斤与统i十),Technip;2)Lebartandal(1995),Statistiqueexploratoiremultidimensionnelle(多维探索统计),Dunod;3)Hartigan,J.(1975),ClusteringAlgorithms(聚类算法),JohnWileyandSons,NewYork,NY,US。"移动中心"和层次分类类型的方法任意地固定类别的数量。另一方面,"第一领导者"类型的方法要求固定一相似性阈值并且依赖于被考虑对象的顺序。实际上,取决于对象排定的顺序,他们可能产生完全不同的结果。不过,他们允许在合理的时间内能够处理大量的数据。然而,为了获得该性能,这些方法要求类别的最大数量被固定在相对于对象数量非常小的数量。其中,处理自动分类主题遇到的主要问题可能涉及所讨论种群中类别数量的确定;就取决于待处理的数量多少的处理时间而言和所得到类别的均匀性质量而言的性能;解释所得结果的能力测量类别的均匀性的统计指示符的定义,以及参加这些类别构成的描述符的区分能力。本发明的思想特别地以关联分析理论为根据。作为提醒,该理论在如下列参考文献中得到描述1)RMichaudandJFMarcotorchino,"Moniesd'optimisationenanalysededonn6esrelatioimelles"(关联数据分析中的优l七模型),Math6matiquesetSciencesHumainesn067,1979,p7-38;2:JFMarcotorchinoandPMichaud,"Agr6gationdesimilarit6senclassificationautomatique"(自动分类中的相似性聚合),Revuedefstatistiqueappliqu6e,Vol30,n°2,1981。该理论为与固定类别数量和解释所得结果相关的问题提供解决方案。但是,每当对象的数量超过100时,所依据的理论模型会产生很大的机器资源成本。本发明使用这个理论的启发式方法,其使得大的数据库的理论结果能够非常接近地被近似。本发明涉及一种线性无监督分类的方法,其允许对由对象和描述符组成的数据库进行结构化,该方法对于对象的顺序是稳定的,该方法包括将定性的、定量的或者文本的数据转换成存在-不存在的二元数据的初始步骤,其特征在于其至少包括下列步骤a)确定被分类的对象之间"2个一致性的结构阈值^函数,该结构阈值定义了适合于数据的优化准则,b)使用描述符作为类别的划分P或者类别的集合的结构化与构造生成器,c)将生成器生成的类别与划分逐步地合并(40、41、42),d)对于涉及函数/『,7,(^,)=膽"(0:,7,^.)的优化准则,将Minimum函数的和进行线性化。该方法可以包括在一个划分中的多个类别自身之间重新组合的步骤。例如,合并步骤c)包括一个步骤,其基于两个相交的类,从下列4项中确定最佳的操作(按照优化准则)"拆分"第一个类别并组成两个类别;"拆分"第二个类别并组成两个类别;"拆分"两个类别以组成三个类别;将两个相交的类别合并以组成一个单个的类别。例如,对一个划分的多个类别的重新组合在数个层次级别上执行,并包括下列步骤在每个级别减少结构阈值的数值,使得弱的负贡献变成正的,将所组成的多个类别之间的连接值最大化,其中该连接值通过使用一对对象的贡献来确定其中"为"的新的值,合并连接值为正的两个类,并在所有级别重复这个过程。本发明还涉及用于进行线性无监督分类的设备,其允许对由对象和描述符组成的数据库进行结构化,该分类对于对象的顺序是稳定的,该分类包括将定性的、定量的或者文本的数据转换成存在-不存在的二元数据的初始步骤,该设备特征在于其至少包括下列部件包括存储器、数据库以及处理器的计算机,其被设计用来实现显示上述特征之一的方法的步骤。本发明显著地具有下列优点在分类过程中自动探测类别数量的能力,在合理数量的时间内处理大量数据的能力,其对于数据库中对象顺序的独立性。本发明对于对象的处理顺序自然地是稳定的,本方法允许测量所获结果质量的指示符非常快速地定义并被计算(线性复杂度),本方法对于对象的复制是稳定的。换言之,如果数据库被数次复制,可以就相同类别中被复制的对象来恢复同样的初始的解。本发明的其他特性和优点将随着阅读本说明书而变得更为明显,其所附的附图所示为图l是支持根据本发明的方法的系统的一般系统的框图,图2是描述应用于文档语料库或数值数据库的数据挖掘领域的处理链的一般操作的流程框图,'图3是示出在预处理阶段中的步骤的流程框图,该阶段在自动分类过程的初期执行,图4是示出组成本发明方法的步骤的顺序的流程框图,图5是详细说明在图4中的处理41期间执行各种操作的流程框图,图6是确定来自两个相交类别的最优本地划分(分成一个、两个或三个类别)的基本操作,图7是在图6中描述的基本操作期间所计算的量,图8是示出类别的层次组织过程中的步骤的流程框图。图1给出根据本发明的方法的应用实例的非限制性说明,其允许自动生成将基于分类结果来实现的各种动作。运行所述方法的系统包括,例如包括存储器2和与分类5的过程相关联的处理器3的计算机1。计算机1与数据库4通信。举例来说,分类的结果以类别集合的形式存储于适合的器件6中。举例来说,器件6与例如电子邮件交换服务器7通信。服务器具有本领域的技术人员所共知的、用于处理接收到的类别信息,以及用于向所讨论的类别中的个体发送消息的潜在触发机制的处理装置。可以使用任何能够进行作为分类结果的函数而进行或控制的动作的设备。下面的说明通过示例的方式,在计算机程序中的可执行指令的普通上下文中给出,例如在计算机或任何其他计算设备上运行的程序模块。本发明可以在任何种类的计算机、PDA等等上实现。在图2中,起始点可以是任何给定的数据库(由一组数值变量描述的个体的集合)或任何给定的文档语料库。这两类数据分别由圆形框20和25表示。在数值数据情形下,可以存在由常规统计处理操作组成的任选的预处理阶段21,比如对数据的中心化或简化,或其它的转换等等。这些处理操作得出数据表格22。这个表格构成信息分析过程23的来源。对于文件语料库,在预处理阶段26过程中,每个文本被转换成向量,其维数对应于经语言学上的处理而获得的描述符,该过程可以是词法-语法分析、概念抽取、共现(co-occmrence)抽取、语言学的或语义处理操作等等。所获得的存在-不存在(二元)或频率矩阵27,其构成处理操作的来源,由方框23表示。方框23特别地对应于数据处理和分析阶段。这些处理操作可以是数个类型的(监督分类、无监督分类、统计"计分"、回归等等)。本发明的范围涉及数据的无监督分类,也称为自动分类或"聚类"。本发明特别地涉及无监督分类过程,取决于初始数据类型,其结果是例如对象24或的文档28的层次化划分。图3中的输入数据以表格r(22或27)的形式(分别表示数值数据的情形和文件语料库的情形),跨越由"个对象Oh(92,...,(9"(个体或文档)组成的集合/和由m个在/上测量的变量(或描述符)r1,F2,"组成的集合K表格r具有作为其一般项的&,其代表变量^在对象a上所取的值,并具有下列形式<formula>formulaseeoriginaldocumentpage8</formula>输入数据的一般项&,表示在定性变量的情形下,对象/所取的变量A的模态(modality),在定量变量的情形下,对象/所取的变量A的值,在文本数据的情形下,文档/中的词汇单元A的存在或不存在。在定性和定量数据情形下,该方法将下文所描述的重编码操作30应用到该表格,例如定量变量的离散化或将定性变量重编码为存在/不存在描述符。定性和定量变量被转换成将组为存在-不存在表格尺的二元变量。在定性变量情形下,举例来说,该转换在于将模态重编码为存在-不存在描述符向量。对于定量变量,离散化在于将定量变量转换成每个模态对应于一个区间的定性变量。举例来说,令定量变量"尺寸"以厘米表示并且在一组个体上测量得到。假设在所讨论的种群中构成种群的个体的尺寸在140厘米和210厘米之间的范围内,一个可能的离散化是将变量划分到下列三个区间[140,160[:[160,180[:[180,210]。然后这三个区间分别对应于下列三个模态小、中和大。因此,经过离散化,例如尺寸为175厘米的个体将具有的模态为中。具有经过这些转换后获得的具有一般项^的表格K(31)表现为下列形式<formula>formulaseeoriginaldocumentpage9</formula>它的一般项^,取决于变量初始是定性变量还是定量变量,可能有两个含义在定性变量的情形下,^具有下列定义&=p如果对象z'具有模态y^—lo其他在定量变量的情形下,&具有下列定义如果对象/属于片段乂其他在文本数据的情形下,不存在重编码步骤,因为在预处理步骤26之后,存在-不存在二元表格已经获得《,其一般项^/具有含义1如果文档/具有词法单元7'<formula>formulaseeoriginaldocumentpage10</formula>表格r的每个变量,无论其是定性的或定量的,将生成数个存在-不存在描述符向量。当然地,表格r和尺具有不同的维数。考虑变量"SPC"(Socio-ProfessionalCategory,社会-专业类别)并假设存在四个个体(I1,I2,D,14),变量SPC的几个可能的模态为管理人员、体力劳动者、专业人员。进一步假设这四个个体具有下列模态<table>tableseeoriginaldocumentpage10</column></row><table>所讨论的变量的每个模态因此变成存在-不存在描述符。因此,经过转换的数据的表格尺将具有("xp)维且/^m,其中m是集合r中的变量数。从表格尺(31)开始,执行统计计算(32),(均值、标准差、分辨系数等等),其特别地允许在一方面设置描述符的过滤参数(33),(排除分辨不佳的描述符),以及在另一方面,计算被称为结构阈值的指示符(34),以消除设置分类过程参数的需要(类别的数量或类别的最大数量均不固定)。该指示符在下面得到详细描述。过滤过程允许排除分辨不佳的描述符。描述符的排除取决于他们的类型而不同。在数值数据情形下,描述符的相关指示符被用作基(basis)。在文档情形下,语料库集合中描述符出现的频率,或者任何其他的分辨测量指示符(比如熵等等)以及看起来不能很好分辨的那些描述符被排除。过滤步骤产生新的简化的二元表格(35),其包含有限数量的列。这是一个用作自动分类过程的输入数据的新的表格,方框36和在图4和5中详细描述。适合于数据的结构阈值和准则本发明的方法使用结构阈值或者指示符,其功能特别是定义适合于数据的优化准则。为了更好地理解其作用,对基于对简化的孔多塞准则最大化的关联分析理论回忆如下其中c",表示在两个对象/和/'之间的相似程度。例如其中d,表示表格尺的第/行给出的对象O,.的概要信息:其中/(Q,C^,)是个体/和/怖最大特定一致性函数。例如<formula>formulaseeoriginaldocumentpage11</formula>肌,。二倫(Q,C,'》I,7,进一步由下式给出1如果对象/和/'在同一类别中0其他基于5]Zc〃'和SZ/(c,7,c,v)类型的公式可以被线性地计算,根据本发明的方法是线性复杂度的。上述作为实例的函数都是可线性化的。显然,所使用的相似性度量<^,是具有已知线性属性的标量积,函数/(Q,c,.r)=I(C,7+C,'v)是线性的,而函数/(C,7,)=M/"(C,,c,",")不是线性的。但是,S2]M"(Q,C,Y)类型的计算可以被线性化。通过说明的方式,本发明描述了特别适合于包含大量丢失数据的数据库的特定的情形/(<^^,.,,,)=膽"((^.,^,,.,),以及允许以线性复杂度来计算SSM"(c〃,c,",")类型的步骤。根据本发明的方法实现例如下列准则M'.'=1其中"是阈值,量Co"fn》/r是两个对象/和/'对准则Ca(X)的单个贡献。根据本发明,结构阈值参数A被自动计算。这是被分类的对象之间的"2个一致性的函数的指示符<formula>formulaseeoriginaldocumentpage12</formula>举例来说,当它表示所有对象之间一致性的算术平均值比上它们的最大一致性的算术平均值的比率时,它用公式表达为<formula>formulaseeoriginaldocumentpage13</formula>如先前所提到的,在相同的条件下,这个公式是可线性化的。例如,在本发明中使用的准则C在于将任何两个对象的一致性同阈值",和它们的最大一致性的乘积相比较(其代表最大一致性的百分率)。因而,两个对象只要它们的相似性高于或等于计算出的最大一致性的百分数(正的贡献),贝i」它们将自动地被分在相同的类别中。本发明的自动分类过程分类过程36在图4中得到详细描述。起始点是其描述符已被过滤过的二元数据表格35。分类过程的第一个步骤是对描述符进行排序(40),其依赖于每个描述符对准则值的贡献(描述符的质量)的测量。举例来说,描述符被用作待分类对象的种群的结构化"生成器"。描述符由1和O(存在-不存在)组成的列向量表示。类别与由取值为1的对象所组成的描述符相关联。对于对象的每个类别然后可以计算出其对全局准则值的贡献水平Co"W^CJ:<formula>formulaseeoriginaldocumentpage13</formula>[1]对类别的贡献的计算是多项式复杂度的。事实上,如果假设所有对象组成单个类别,为了确定准则的值,那么将会需要计算《2个单个贡献。在c,.,是标量积的情形下,在公式右边的第一部分,ZI]q'可以被简化成下列形式其中^=,《广',《」被称为类别q的代表元,它的各个项由类别对象的表格尺的每个模态的列和来给出每个值V,y^,…,p表示类别q具有模态/的对象的数量。在/(Q,C厅^M/w((^,C,、.)的情形下,在等式[l]右边的公式的第二部分等于ZZ^^>7(c,7,c,v)。允许该量以线性复杂度计算的过程在下文给出。过荐麵CCf鄉。要求Can^C>0要求类别C排好序的个体的列表整数r,&=0整数J、C的下一个元素整数/=0While类别C未结束,Doraw//二msw/f+/7Ca^/C-x2—1_/xC》.J'=c的下一个元素/=/+1EndWhile对于每个描述符《,后面生成的类别的贡献的值或其他关于准则的描述符的性质的度量因此而获得。这些贡献值然后被排序,例如降序,来获得被考虑的描述符的顺序。这个顺序的选择对结果的质量几乎没有影响(可能存在极少的局部的差异)。但是,先取出最佳贡献的描述符生成的类别,允许更快地获得稳定的解决方案,且因此对于来自于当前划分与描述符所生成的划分之间的相交的最佳划分41的计算过程,得到加速。这个过程41特别地在于逐步"合并"(42)由描述符生成的类别(40)和当前的划分(由数个类别组成)。该"合并"操作从两个相交的类别开始,从下列4项中确定最佳的操作(根据准则)"拆分"第一个类别并组成两个类别;"拆分"第二个类别并组成两个类别;"拆分"两个类别以组成三个类别;将两个相交的类别合并以组成一个单个的类别。这些操作在图6中说明并且允许最佳操作的计算将在图7中决定。这个过程相当于逐步构造划分,使得局部地且逐步地优化全局准则。一旦所有描述符都已使用,获得的划分Po被认为是对象43的第一个最终确定的划分。在类别的"合并"阶段(40、41、42)期间,只尝试"合并"具有交集的类别。处理操作44的目标是合并,换言之是组合,不具有任何交集的类,如果该操作允许准则被优化(进行测试以对所获得的划分的类别一起合并)。这导致修改的划分,一种级别为1的划分,其构成分类过程的最终划分。划分45组成类别聚类的过程46的输入,该过程在图8中得到描述。图5示出处理操作41的示例性流程框图。其特别地在于将描述符X生成的新的类别50(记为C,),与由K个类别所组成的当前划分i551进行"合并"。过程如下计算划分尸的类别与类别C;之间的交集(52),将划分尸的类别&的集合」与类别C,的交集降序排序,例如以它们的交集的基数的顺序(53),对于集合爿每个类别C"55),合并两个类C^和C,(54)。所有C,与户之间的集合交被处理,并且一旦所有力的类别Cy己经与Cx合并(55),获得新的对象的划分,其提高全局准则值且然后变成新的当前划分51。下一个步骤是转向新的描述符(42),以及重复这个过程直到所有的描述符被处理完毕。类别G和划分尸的类别的交對52)的元素的基数,可以以下面所描述的方式线性地获得。类别G被考虑为其与划分尸的交集被期望来计算的类别。排序后的列表,例如按其所包含的对象的索引进行升序排序,与这个类相关联。出于此目的,每个对象由单个整数来进行标识,作为其索引。为了对这些对象进行排序,由于被排序的值的上界已知,使用例如线性排序过程(例如,基数排序,对于此的一个参考文献如下Cormen等(2002),Introductiontoalgorithmics(算法导论),Dunod)。计算交集基数的操作使用"维的向量^,每一维/表示个体O,所存储的类别的索引。计算交集的基数的实例如果考虑6个对象01,02,—,06的种群,以及这些对象的当前划分P(51),该划分由三个类别C,={Op03},C2={02,04,CU,C3={(95}构成,向量^等于0203040506121232因此,如果现有划分与类别<^={02,03,04,06}(50)"合并",类别C,与现有划分的类别的交集的基数可以被快速地确定,在本例子中,在计算交集(52)期间执行的操作的数目等于在类别C^中的要与划分P合并的对象的数量。事实上,对于新的类别的每个对象,验证其是否属于划分P的类别;如果属于,这个类别的交集计数器被增加。如下文所示,如果类别C,与划分P之间存在数个交集,为了为他们获得被考虑所需的顺序,计算G和划分P的类别。之间各个交集的基数。基于C,和划分P的一个类别。的交集,评估图6中给出的哪一个是最佳配置。出于这个目的,对在图7中被识别的数量进行计算。因此,图6和图7说明了处理步骤54所代表的本发明的基本操作的实例。两个类的"合并"过程示例如下令P和及M乍为类C,和。的表达式向量,向量P、P和&由下述定义来构造其中ce=c,nc;是由c;和q的交集所定义的类别(类别c,和c,均有的对象),左e是其代表元。因此,月"表示只存在于c;中的对象,^6表示只存在于c;中的对象。C"^l4、Oj^B和CaWC将被分别定义为由^。、和^代表的类别的基数。包含在类c^和c;中的对象的两个列表通过增加它们的指数的阶来分类整理了快速地计算三个向量,因此可以应用下列常规程序i。4^=0Cani4=Cor必=GaWC=0A=C,的对象的列表e=列表A的头部丄2=C,的对象的列表/=列表A的头部While列表A未结束,DoWhile列表丄2未结束,Do<formula>formulaseeoriginaldocumentpage17</formula>e=列表A的头部/=列表A的头部cflWC=caniC+1<formula>formulaseeoriginaldocumentpage18</formula>e=列表A的头部Cflni4=carni4+1Elsey=列表丄2的头部<formula>formulaseeoriginaldocumentpage18</formula>EndIfEndWhileEndWhile基于这三个向量,从下列四个之中选择最佳解决方案是可能的,图6的实例中示出这些解决方案"拆分"类别以便提供下列两个类别-Cx和g"拆分"类别以便提供下列两个类别Q-和Cy"拆分"类别Q并且"拆分"类别Cy以便提供下列三个类别合并两个类别以便提供单一的类别CyU^。四个解决方案中的最佳的选择是,例如,基于上文所给出的3个不同的子类之间的"连接值"的计算。两个类Cq和C,.之间的"连接值"的一般计算由下列公式给出'当相似性的量度是标量积时,并且如同先前,当/(C,,C,v)=M'"(C,,C,",..)时,两个不同的类之间的连接值的计算可以被线性化。出于这个目的,该方法使用标量积的线性性,其得出下列化简<formula>formulaseeoriginaldocumentpage18</formula>也可以使用下列过程,其允许以线性复杂度来计算SSil^><C",C''v):<formula>formulaseeoriginaldocumentpage18</formula>过荐倫cc丫类c,类o要求CWC>0要求OzrdC'>0要求类别C和C'排好序的个体的列表rnsw//=0y、c的下一个元素/=0'的下一个元素While类别C未结束并且类别C'未结束,DoIfdo乂=c的下一个元素t6—rovKs=6—rows—1ElseIfdoresw/f=msw/f+"6—rawsxC力,/=c'的下一个元素_CO/S="6—CO/51-1Elseresw〃=myw/f+("6—co/s+"6—ravw—1)xC力"=C的下一个元素/=c'的下一个元素"6—wvw="6—wws—1wZ>—co/s1="6—co/s-1EndIfEndIfEndWhile关于两个类别的交集,该方法计算下列在图7的实例中示出的三个量丄滅,L,."杧c;-Cc,c;—cj=<^,〉—"x刀刀/(c,,c,.,")L緣,zi^^-Cc,Cc;《P,〉-"xZi;/(c,7,cr,,)因此,为了局部地将全局准则值最大化如果Zi"^+丄/"、+""、最大,选择解决方案4(合并两个类);如果L/"^最大,选择解决方案2("拆分"C,);如果丄/"、最大,选择解决方案1("拆分"&);如果0最大,换言之如果丄/w夂+Zi"^+丄/"&〈0,丄/"^<0并且h'"^<o,那么选择解决方案3("拆分"<^和c;)。一旦类c;50已经与第一个类别q合并,划分p其他的类别与类别c,的交集继续被处理(55)。出于这个目的,类C;将被转换成类C:如果选择方案l,=&如果选择方案2,C,,=CX-如果选择方案3,C,如果选择方案4,C,,二C,uq在任何情形下,新的类别C,包含可以属于划分尸的其他的类别的对象,因为提前己知,类别Cy的对象中没有可以属于划分P的另一类别。猴辨麟赠縱程为了从类别中删除对象的集合J,只需从类别的对象的列表删除^并从所述的类别的代表元减去代表元^即可。例如,在操作c^'=Cx-c,期间,等于^^。实际上,代表元^e代表的相交的对象从类别q中减去。因此,^x'二^'一ic。通过这个方法,"拆分"操作不需要大量的计算时间,因为从类别的代表元减去的量总是等于己经被计算出的向量^、而且,从列表删除对象是简单和线性的操作。邀合两个鄉縱程在该过程中,己知c;与C2的交集的代表元(在上文由^e定义)和该交集的基数(在上文由o^/c定义)。因此,想法是不执行完整的线性排序过程来创建类C,uC12。邀合过程f类激c,,类應c2,/e表元/nter,鲞教a^/"妙JTemporary为长度为("CaWC+CarafC2-Cara〖/"/e^)的向量整数position=0A=C,的对象的列表e=列表A的头部丄2=C,的对象的列表/=列表^的头部While列表A未结束,DoWhile列表丄2未结束,DoIfe=/,Do〇/=Ce=列表z^的头部/=列表£2的头部ElseIfe</Doe=列表丄,的头部Else/=列表丄2的头部EndIfTemporary[position]=e/position=position+1EndWhileEndWhile将Temporary复制到对象的列表中Representative=Representative(C,)+Representative(C2)-Inter重邀雌W分""令K为划分P的类别的数量对划分P的每一个类别,计算omfcg」令G为具有最强贡献的类别计算^:有K-1个值得向量S,其定义为<formula>formulaseeoriginaldocumentpage22</formula>其中<formula>formulaseeoriginaldocumentpage22</formula>如果/>J对S中的所有值为正数的连接值,其相对应的类别将被合并。这些类别的集合将被标记为已分配的,而此后将不能再被合并。该过程在为标记类别的集合K'上反复迭代。本发明的类别的层次聚类的过程在图8中,示出了一个将类别层次聚类成为元类别的方法的示例性体系结构。该过程特别地在于在多个层次上(层次的数量由用户来固定)将类别在它们自身之间进行重组。对全局准则的优化涉及例如对组成的类别之间的连接值最大化。换言之,所获得类别最终必须都具有负的连接值。但是,对连接值的计算基于一对对象(^)的贡献的定义c卵^7v。在下文中,对一对对象的贡献的定义进行回忆,其中函数/是最小值函数Co咖A.,"=C,r-axM打(C,,,本发明提出的类别聚类的过程然后在于在每一级别减少结构阈值(80)的值,使得微负的贡献能变成正的。通过这种方法,两个类别之间的连接值可以变为正的,从而允许它们被重组(81),且划分的类别之间的关系得以突出。该过程被重复的次数与级别的数量一样(82)。然后获得嵌套的划分的集合83,其允许层次的和概念的关系在划分45中初始所考虑的类别之间被探测到。通过该原则,本发明因此使得能获得知识发现。对于级别y'的类别在乂+1级别上进行层次聚类的过程与前面所描述的重组过程相似。允许评价本发明的分类结果的质量的计算度量所获得的解的质量的指标的理论公式在这里给出,其以百分数的形式来表达。该指标越接近100%,所研究的解的质量(划分、类别或个体的质量)就越高。先对一些记号进行介绍两个类别之间的一致性々C,=SSC,r两个类别之间的最大一致性^^cr=S5>(C,"C,v)两个类别之间的不一致性Z『=-々c.所获得划分的最终质量由下式给出<formula>formulaseeoriginaldocumentpage23</formula>其中K是该划分的类别的数量。类别C的质量由下式给出<formula>formulaseeoriginaldocumentpage23</formula>属于类别C的对象/的质量由下式给出;'=1其中=/(CH,C,,,.)-C.是个体i与个体i,之间的不一致性。由于标量积的线性性,当相似度Q,是标量积时,在项々c.上的求和是可以线性化的。当/(Q,C,.,.)二MV7(C,.,,C,.》时,下面给出的示例性过程允许下面在各个质量公式中涉及到的量可以被线性地计算出来5>Mcc,=2^5>'"(cH,c;r)、C'乂!"eC'c'这些量分别被记为SS'MinCC',S'MinC'andMiniC:爐^,倫(X,C鄉c,鄉cj要求/c>0整数msw/f=0For/从1到w,以1为增量,Domsw//一msw/Z+((w-/+1)x2-1)xEndFor游證/"CC丫鄉C,鄉要求要求要求CWC>0a:〉0多个类别C的个体的已排好序的列表myw/Z=0"6_rovw二GaniC/=C的下一个元素While类别z'S"并且C未结束,DoIf/=ydomy"//=myw/f+(wZ>—c<Zs+wZ>—,ovw—1)xwZ)—rows=wZ)—wvw—1w6—co/s=6一co/s-1/=z'+1y-c'的下一个元素Elserasw//=resw/f+wZj—rawsxC"./=/+l"6——co/s="6—co/s—1EndIfEndWhile过荐馬/CY类J/要求O^C>0要求类别C的个体的已排好序的列表整数resw/f=0整数"Z一co/s=Gm/C整数y'-C的下一个元素While类别C未结束并且"6—co&^y,DoIf/=y,DoElsemyw//1=myw//+C力.乂-c的下一个元素6一co/s=w6一co/s—1EndIfEndWhile权利要求1、一种线性无监督分类方法,其允许将对象和描述符所组成的数据库结构化,该方法对于所述对象的顺序是稳定的,所述方法包括一初始步骤,该初始步骤将定性的、定量的或者文本的数据变换成为存在-不存在二元数据,所述方法特征在于其包括至少下述步骤·确定关于所述待分类对象之间n2个一致性的结构阈值αs函数,该结构阈值定义了适用于所述数据的优化准则,·使用描述符作为类别的划分或集合的结构化和构造生成器,·将描述符生成的类别与划分逐步地合并(40、41、42),·对于涉及函数f(Cii,Ci′i′)=Min(Cii,Ci′i′)的优化准则,对Minimum函数的和进行线性化。2、根据权利要求1所述的方法,其特征在于,该方法包括将所述划分的类别在他们自身之间进行重组的步骤。3、根据权利要求1所述的方法,其特征在于,所述合并步骤包括基于两个相交的类别,从下面4个操作之中确定最佳(根据所述优化准则)操作的步骤"拆分"第一个类别并组成两个类别;"拆分"第二个类别并组成两个类别;"拆分"所述两个相交的类别以组成三个类别;将所述两个相交的类别合并以组成一个单个的类别。4、根据权利要求2所述的分类方法,其特征在于对一个划分的所述类别进行重组的过程在多个层次级别上进行,并包括下列步骤在每一个级别上减少所述结构阈值的值(70),使得微负的贡献可以变为正的,将所构成的类别之间的连接值最大化,其中所述连接值通过使用来自一对对象的贡献来确定<formula>formulaseeoriginaldocumentpage3</formula>其中a'为"的新的值,将连接值为正的两个类别进行组合(71),并在所有所述级别上重复该过程。5、一种设备,其能够进行线性无监督分类,该线性无监督分类允许将对象和描述符所组成的数据库结构化,该分类对于所述对象的顺序是稳定的,该分类过程包括一初始步骤,该初始步骤将定性的、定量的或者文本的数据变换成为存在-不存在二元数据,该设备特征在于其包括至少下列部件用于实现权利要求14其中之一所述方法的步骤的计算机(1),该计算机包括存储器(2)、数据库(4)和处理器(3)。6、根据权利要求2所述的设备,其特征在于其包括用于依赖于所述分类的结果而采取动作的装置(7)。全文摘要一种线性无监督分类方法,其允许将对象和描述符所组成的数据库结构化,该方法对于所述对象的顺序是稳定的,所述方法包括一初始步骤,该初始步骤将定性的、定量的或者文本的数据变换成为存在-不存在二元数据,所述方法特征在于其包括至少下述步骤确定关于所述待分类对象之间n<sup>2</sup>个一致性的结构阈值α<sub>s</sub>函数,该结构阈值定义了适用于所述数据的优化准则,使用所述描述符作为类别的划分或集合的结构化和构造生成器,将生成器生成的类别与划分逐步地合并(40、41、42),对于涉及函数f(C<sub>ii</sub>,C<sub>i′i′</sub>)=Min(C<sub>ii</sub>,C<sub>i′i′</sub>)的优化准则,对Minimum函数的和进行线性化。文档编号G06F17/30GK101410831SQ200680052844公开日2009年4月15日申请日期2006年12月14日优先权日2005年12月16日发明者H·本哈达,J·勒穆瓦纳,J·阿-派因申请人:塔莱斯公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1