一种用于网络内容安全管理的中文文本聚类的方法

文档序号:6437697阅读:209来源:国知局
专利名称:一种用于网络内容安全管理的中文文本聚类的方法
技术领域
本发明涉及一种用于网络内容安全管理的中文文本聚类的方法。
背景技术
在网络内容安全管理应用领域重点包括文本分类、文本聚类技术研究,这两类技术的目的都是将大规模的文本数据对象分组形成多个类别。其中文本聚类作为一种无监督的机器学习方法,技术实现过程无需预设文档分类、类别手工标注等更多的人为因素参与, 是针对海量文本信息进行有效组织、摘要和导航的主要技术解决手段,已经成为海量文本信息融合方向的重要研究专题,对于网络舆情信息监管、趋势研判等信息内容安全管理重要应用领域具有显著的技术支撑作用、实际应用价值。传统的信息聚类方法,主要可分为平面划分法(partitioning method)、层次方法 (hierarchical method ) ^ ^- ;] ' (density-based method )、· 1 白勺力夕去 (grid-based method)和基于模型的方法(model-based method)共计五大类,下面就当前文本聚类的主要代表算法做说明,分析其优劣点,同时在此基础上提出改造后的算法。平面划分法首先人为地给出一个初始的分组方法,以后通过反复迭代的方法改变分组,直到满足某种收敛准则为止,该算法迭代速度快,能有效地处理海量数据,但无法解决初始聚类中心的选取问题,聚类个数也无法精确确定。它不能发现任意形状的簇,其初始聚类中心的选取对聚类结果有很大的影响。层次法对给定的数据集进行类似层次似的分解,直到满足某种收敛准则为止,该聚类方法较简单,但是它经常遇到合并或分裂点选择的困难,算法复杂度比较小,但是如果没有很好地选择合并和分裂点,则可能会导致低质量的聚类结果。并且该算法定需要检查和估算大量的对象或簇,不适合海量数据的聚类。基于密度的方法就是只要一个区域中的点的密度打过某个阀值就把它加到与之相近的聚类中去,这样可以过滤“噪声”孤立点数据,发现任何形状的簇,但是它对用户定义的参数非常敏感,不同的eps (邻域)和MinPts (对象最小数目个数)将对聚类的最终结果产生很大的影响,以至于导致差别巨大的聚类结果。基于网格的方法将数据空间划分成为有限个单元的网格结构,聚类操作都在这个网格结构(即量化的空间)上进行,处理速度很快,其处理时间独立于数据对象的数目,只与量化空间中每一维的单元数目有关,它的聚类质量取决于网格结构最底层的粒度,如果粒度比较细,处理的代价会显著的增加,但如果最底层的粒度太粗将会降低文本聚类分析的质量。基于模型的方法试图优化给定的数据和某数学模型之间的拟合,为每个簇假定一个模型,寻找数据对给定模型的最佳拟合,实践中,它收敛很快,但是可能达不到全局最优。 对于某些给定形式的优化参数,收敛性可以保证。它的计算复杂度线性取决于d(输入特征数)、n (对象数)和t (迭代次数)。

发明内容
本发明的目的是提供一种能保证聚类的全面性,避免过多人为因素对聚类结果的影响,同时又能得到相对更高的聚类准度与效率的用于网络内容安全管理的中文文本聚类的方法。为了便于说明问题,先了解两个定义 定义1 两个向量之间的距离采用欧式距离
其中X=(xil,xi2,…,xip)和Y=(yil,yi2,- ,yip)是两个P维的文本向量。
定义2 计算样本之间的平均距离
η为样本总数,g是η个点中取两个点的组合数,d(xi, xj)是数据对象之间的距离。本发明的一种用于网络内容安全管理的中文文本聚类的方法,具体步骤是
1、将文档集D={dl,d2,*",dn}中的每一个文档di作为一个具有单个成员的簇类 Ci= {di},这些簇类构成0的聚类0={01,(32,···^!!};
2、采用定义1的方式计算两两簇对之间的欧式距离,形成文本向量之间的距离矩阵;
3、根据得到的距离矩阵,采用定义2计算出所有簇对之间的平均距离,记为R,同时 Φ=2*Ι ;
4、对每个簇类Ci={di}为中心,以R为半径作球,落在球内的点的个数为密度,计算每个点的密度;
5、根据每个点的样本密度进行排序,找到最大密度的簇类记为Cl;
6、以簇Cl为第一个聚类中心点,找出满足距离大于Φ的点,S卩|C2-C1|>0记为第2 个聚类中心点,找到第3个点|C3-Cl|>c5记为第3个聚类中心点,如此循环直到找完整个文档集D= {dl, d2,…,dn}为止,依此找到第k个聚类中心点,这样即可确定k的数目以及中心点 Z1,Z2,···, Zk ;
7、把得到的K以及K个聚类中心Z1,Z2,…,Zk作为K-means算法的初始中心,采用聚类k-means算法迭代,直到K个聚类中心不再发生变化为止,这样得到K个聚类。这样结合传统的K-means方法加上改进的聚类初始中心的选择,使得每个文本向量根据与聚类中心距离的相似程度,形成K个互不相交的聚类,较为相似的向量都聚在同一个类中。本发明的用于网络内容安全管理的中文文本聚类的方法,通过基于密度的聚类思想来自动确定聚类数与聚类初始中心点,同时优化聚类数的收敛准则,降低聚类算法的复杂度,这样即可在整体样本库上确定聚类数与初始中心点,保证了聚类的全面性,避免了过多人为因素对聚类结果的影响,同时具有迭代速度快,能有效处理大数据集的特点,在对海量数据集聚类的检测中,准确率和召回率都有较好的提升。


图1是本发明的实施例结构图。
权利要求
1. 一种用于网络内容安全管理的中文文本聚类的方法,其特征在于它包括以下步骤(1)、将文档集D={dl,d2,*",dn}中的每一个文档di作为一个具有单个成员的簇类 Ci= {di},这些簇类构成0的聚类0={01,(32,···^!!};(2)、采用下述方式计算两两簇对之间的欧式距离,形成文本向量之间的距离矩阵, 两个向量之间的距离采用欧式距离其中 X=(xil,xi2, ...,xip)和 Y=(yil,yi2,- ,yip)是两个 P 维的文本向量; (3)、根据得到的距离矩阵,采用下述方式计算出所有簇对之间的平均距离,记为R,同时。=2*R,计算样本之间的平均距离η为样本总数,Cj是η个点中取两个点的组合数,& ..、是数据对象之间的距离;(4)、对每个簇类Ci={di}为中心,以R为半径作球,落在球内的点的个数为密度,计算每个点的密度;(5)、根据每个点的样本密度进行排序,找到最大密度的簇类记为Cl;(6)、以簇Cl为第一个聚类中心点,找出满足距离大于Φ的点,即IC2-C11 >Φ记为第 2个聚类中心点,找到第3个点|C3-Cl|>c5记为第3个聚类中心点,如此循环直到找完整个文档集D= {dl, d2,…,dn}为止,依此找到第k个聚类中心点,这样即可确定k的数目以及中心点 Z1,Z2,···, Zk ;(7)、把得到的K以及K个聚类中心Z1,Z2,…,Zk作为K-means算法的初始中心,采用聚类k-means算法迭代,直到K个聚类中心不再发生变化为止,这样得到K个聚类。
全文摘要
本发明涉及一种全新的基于网络内容分析的文本聚类方法,通过基于密度的聚类思想来自动确定聚类数与聚类初始中心点,同时优化聚类数的收敛准则,降低聚类算法的复杂度,这样即可在整体样本库上确定聚类数与初始中心点,保证了聚类的全面性,避免了过多人为因素对聚类结果的影响,同时又能得到相对更高的聚类准度与效率。
文档编号G06F17/30GK102426598SQ201110350120
公开日2012年4月25日 申请日期2011年11月8日 优先权日2011年11月8日
发明者杨更 申请人:军工思波信息科技产业有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1