一种基于Web服务标签数据的联合聚类方法

文档序号:8282380阅读:274来源:国知局
一种基于Web服务标签数据的联合聚类方法
【技术领域】
[0001] 本发明属于Web服务领域,主要利用了 Web服务标签数据与联合聚类算法,实现了 一种对Web服务进行有效聚类的方法。
【背景技术】
[0002] SOA(Service-Oriented Architecture,面向服务的体系架构)是一种新型的分 布式计算模型。其在电子商务、系统集成等领域中起到了越来越重要的作用。近年来,国内 有关院校、研宄单位、IT相关单位都比较重视软件体系结构的研宄工作,面向服务软件体系 结构的研宄已经成为热点,比较多研宄项目尚处于概念研宄阶段。随着SOA技术的不断发 展,中国的SOA架构模型和应用推广已经有了良好的需求环境。
[0003] 在SOA思想中,服务是功能组件的基本单元,而通过发现和组合服务可以满足用 户的各种需求。随着SOA的迅猛发展,互联网上的可用Web服务的普及率也在增长,有效 地发现需要的服务变得不可或缺。Web服务发现是Web服务系统架构中的一个重要组成 部分,其效果直接关系到服务复用的质量,服务组合的相容性和可替换性,以及能否真正实 现服务的"即插即用"。研宄表明,相较于传统的基于关键词匹配和简单分类进行服务发现 (UDDI)的解决方案,采用基于服务搜索引擎的模型进行服务发现更为有效。Web服务聚类 是提高Web服务搜索引擎效率的方法之一。目前对于服务聚类方法的研宄,大部分都是基 于Web服务描述语言WSDL文件计算服务间相似度以实现Web服务的聚类,但是单一的信息 源和单向的聚类过程约束了服务聚类的准确率。因此,一种在WSDL文件基础上加入服务标 签数据,能够同时聚类Web服务及描述服务的信息的服务聚类方法,已成为目前学术界与 工业界的急切需求。

【发明内容】

[0004] Web服务是由服务提供商发布在互联网上的功能体,调用Web服务可以实现一定 的功能。随着互联网上的可用Web服务的数量的激增,在海量的Web服务中找到充分满足 用户需求的服务变得越来越困难。服务聚类是缓解服务发现困难的一个有效方法。
[0005] -种基于Web服务标签数据的联合聚类方法,包括如下步骤:
[0006] (1)数据预处理模块对Web服务的WSDL文档及标签数据进行预处理:包括过滤文 本中的停用词,对过滤后的文本进行分词处理,利用TF-IDF算法赋予每个文本中每个词相 应的权重并生成词-服务矩阵;
[0007] (2)数据整合模块根据整合WSDL文档数据和标签数据的策略,并根据选定的策略 将两个词-服务矩阵相结合,获得最终的词-服务矩阵;
[0008] (3)服务联合聚类模块采用联合聚类算法,将Web服务联合聚类问题看作是二分 图的划分问题并采用谱图划分算法,通过求解标准化后的词-服务矩阵的奇异矩阵,得到 二分图划分的解,从而获得含有词聚类信息及Web服务聚类信息的向量;
[0009] (4)基于步骤⑶中获得的向量,采用K均值聚类方法,获得最终的服务及词的聚 类情况。
[0010] 优选的,所述步骤(1)中的标签数据信息不充分的情况,通过标签推荐模块,使得 标签数据更加完整可靠。
[0011] 优选的,所述标签推荐模块采用Sum、Vote等标签推荐策略,根据每个Web服务已 有的标签,为其推荐新的标签,保证Web服务标签数据的可靠性。
[0012] 优选的,数据预处理模块对从Web服务搜索引擎获取的WSDL文档和标签数据进行 停用词过滤、分词处理,最后根据分词处理后的文本计算词频,利用TF-IDF算法生成词-服 务矩阵。
[0013] 优选的,所述数据整合模块从数据预处理模块中获取分别基于WSD文档和标签数 据的两个词-服务矩阵,采用特定的整合策略,生成一个综合的词-服务矩阵。
[0014] 优选的,所述服务联合聚类模块从数据整合模块输入整合后的词-服务矩阵,采 用联合聚类算法,计算出含有词聚类及Web服务聚类信息的向量,并通过K均值算法获得最 终聚类结果。
[0015] 本发明主要采用联合聚类的算法,首先对Web服务的WSDL文档及标签数据进行了 一系列的预处理,包括过滤文本中的停用词,如"on","of"等,对过滤后的文本进行分词处 理,利用TF-IDF算法赋予每个文本中每个词相应的权重并生成词-服务矩阵;然后设计了 整合WSDL文档数据和标签数据的策略,并根据选定的策略将两个词-服务矩阵相结合,获 得最终的词-服务矩阵;接着采用联合聚类算法,将Web服务联合聚类问题看作是二分图的 划分问题并采用谱图划分算法,通过求解标准化后的词-服务矩阵的奇异矩阵,得到二分 图划分的解,从而获得含有词聚类信息及Web服务聚类信息的向量;最终基于上一步骤中 获得的向量,采用K均值聚类方法,获得最终的服务及词的聚类情况。另外,本发明针对标 签数据信息不充分的情况,引入了标签推荐机制,使得标签数据更加完整可靠。
[0016] 整个Web服务聚类主要由四个部分组成:标签推荐模块、数据预处理模块、数据整 合模块以及服务联合聚类模块。
[0017] 标签推荐模块采用Sum、Vote等标签推荐策略,根据每个Web服务已有的标签,为 其推荐新的标签,保证Web服务标签数据的可靠性。
[0018] 数据预处理模块对从Web服务搜索引擎获取的WSDL文档和标签数据进行停用词 过滤、分词处理,最后根据分词处理后的文本计算词频,利用TF-IDF算法生成词-服务矩 阵。
[0019] 数据整合模块从数据预处理模块中获取分别基于WSDL文档和标签数据的两个 词-服务矩阵,采用特定的整合策略,生成一个综合的词-服务矩阵。
[0020] 服务联合聚类模块从数据整合模块输入整合后的词-服务矩阵,采用联合聚类算 法,计算出含有词聚类及Web服务聚类信息的向量,并通过K均值算法获得最终聚类结果。
[0021] 本发明的优点如下:
[0022] 1.聚类过程中在原来单一的信息源(WSDL文档)基础上,引入Web服务标签数据, 提高了服务描述的可信度,从而提升了服务聚类效果。
[0023] 2.传统聚类算法是单向的,即只对服务进行聚类,本发明同时聚类了服务和描述 服务的词,两个方向上的聚类过程互相促进,很大程度上提高了服务聚类的准确率。
[0024] 3.联合聚类算法中的参数很少,能够充分利用行列信息,实现过程较为简单。
【附图说明】
[0025] 图1为整体结构图。
[0026] 图2为服务联合聚类模块内部流程图。
[0027] 图3为标签推荐模块内部流程图。
【具体实施方式】
[0028] 在整个服务联合聚类过程中,将Web服务和其描述信息构造为以下二分图形式:
[0029] 二分图:G = (WS,TE,E),其中WS为待聚类的Web服务集合,TE为词集合,分别来 自WSDL文档和服务的标签数据。E可表示为集合Hws i, te』} =WsiG WS, teTE},若te』 是从服务《^中获取的,则边{ws ptej存在。二分图的邻接矩阵M可定义为以下形式:
[0030]
【主权项】
1. 一种基于Web服务标签数据的联合聚类方法,包括如下步骤: 数据预处理模块对Web服务的WS化文档及标签数据进行预处理;包括过滤文本中的停 用词,对过滤后的文本进行分词处理,利用TF-IDF算法赋予每个文本中每个词相应的权重 并生成词-服务矩阵; 数据整合模块根据整合WS化文档数据和标签数据的策略,并根据选定的策略将两个 词-服务矩阵相结合,获得最终的词-服务矩阵; 服务联合聚类模块采用联合聚类算法,将Web服务联合聚类问题看作是二分图的划分 问题并采用谱图划分算法,通过求解标准化后的词-服务矩阵的奇异矩阵,得到二分图划 分的解,从而获得含有词聚类信息及Web服务聚类信息的向量; 基于步骤(3)中获得的向量,采用K均值聚类方法,获得最终的服务及词的聚类情况。
2. 根据权利要求1所述的基于Web服务标签数据的联合聚类方法,其特征在于:所述 步骤(1)中的标签数据信息不充分的情况,通过标签推荐模块,使得标签数据更加完整可 靠。
3. 根据权利要求2所述的基于Web服务标签数据的联合聚类方法,其特征在于:所述 标签推荐模块采用Sum、Vote等标签推荐策略,根据每个Web服务已有的标签,为其推荐新 的标签,保证Web服务标签数据的可靠性。
4. 根据权利要求1-3任一所述的基于Web服务标签数据的联合聚类方法,其特征在于: 数据预处理模块对从Web服务捜索引擎获取的WS化文档和标签数据进行停用词过滤、分词 处理,最后根据分词处理后的文本计算词频,利用TF-IDF算法生成词-服务矩阵。
5. 根据权利要求1-3任一所述的基于Web服务标签数据的联合聚类方法,其特征在于: 所述数据整合模块从数据预处理模块中获取分别基于WSD文档和标签数据的两个词-服务 矩阵,采用特定的整合策略,生成一个综合的词-服务矩阵。
6. 根据权利要求1-3任一所述的基于Web服务标签数据的联合聚类方法,其特征在于: 所述服务联合聚类模块从数据整合模块输入整合后的词-服务矩阵,采用联合聚类算法, 计算出含有词聚类及Web服务聚类信息的向量,并通过K均值算法获得最终聚类结果。
【专利摘要】本发明属于Web服务领域,主要利用了Web服务标签数据与联合聚类算法,实现了一种对Web服务进行有效聚类的方法。本发明主要采用联合聚类的算法,首先对Web服务的WSDL文档及标签数据进行了一系列的预处理;然后根据选定的策略将两个词-服务矩阵相结合,获得最终的词-服务矩阵;接着采用联合聚类算法、 K均值聚类方法,获得最终的服务及词的聚类情况。另外,本发明针对标签数据信息不充分的情况,引入了标签推荐机制,使得标签数据更加完整可靠。本发明引入Web服务标签数据,提高了服务描述的可信度,从而提升了服务聚类效果。
【IPC分类】G06F17-30
【公开号】CN104598559
【申请号】CN201510005433
【发明人】吴健, 梁婷婷, 陈亮, 邓水光, 李莹, 尹建伟, 吴朝晖
【申请人】浙江大学
【公开日】2015年5月6日
【申请日】2015年1月6日
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1