邻接节点指:与节点m’发生互动,并且,相对于节点m’,作为单向互动接收方的所有节点;
[0062]迭代处理模块,用于在每次迭代中,以随机顺序排列关系网络图中的各个节点,按所排列的顺序遍历更新所述关系网络图中的所有节点的标签;其中,对于任意一个节点m,对所述节点m进行更新的方法为:首先获取节点m的所有邻接节点;然后,判断节点m的所有邻接节点中出现次数最多的标签是否为一个,如果是,则将所有邻接节点中出现次数最多的标签更新为节点m的新标签;如果不是,则将出现次数最多的标签所对应的邻接节点组成邻接节点集M,然后,从所述邻接节点集M中选取与所述节点m连接的向量的权重值最大的邻接节点作为选定节点,将所述选定节点的标签更新为节点m的新标签;
[0063]迭代终止判断模块,用于当所述迭代处理模块运行完一次迭代后,判断是否满足所述迭代终止条件设置模块所设置的迭代终止条件,如果未满足,则循环执行所述迭代处理模块,反复进行迭代处理;如果满足,则对所述网络论坛的社团划分过程结束,具有相同标签的节点所对应的用户ID属于同一个社团。
[0064]综上所述,本发明提供的基于标签传播算法的社团发现方法及系统,可应用于舆情分析后台中,对社团进行划分和展示,具有以下优点:
[0065]当邻接节点中出现次数最多的标签有两个以上时,跟现有技术中忽略向量权重而随机选择一个出现次数最多的标签作为本节点的标签的方式不同,本发明通过判断节点间向量的权重而决定需要选取的标签,能够更准确的实现社团的划分,得到网络论坛的社团分布情况,从而更有效的帮助运营决策者获知论坛用户的兴趣点,例如,论坛中用户感兴趣的话题或游戏等,进而帮助运营决策者进行运营决策,同时也能够帮助运营决策者获知某个用户在关系网络中的地位和作用。
[0066]以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视本发明的保护范围。
【主权项】
1.一种基于标签传播算法的社团发现方法,其特征在于,包括以下步骤: SI,获得源数据:S卩,对于被分析的网络论坛,通过读取数据库,获得所述网络论坛中某一历史时刻Tl至当前时刻T2之间的所有单向互动记录,其中,所述单向互动记录包括发起方的用户ID以及接收方的用户ID ; S2,将所述网络论坛中某一历史时刻Tl至当前时刻T2之间的参与单向互动的所有用户ID分别映射为关系拓扑网络图的节点;将单向互动关系映射为关系拓扑网络图中节点之间相互连接的向量,其中,向量的方向为:由代表单向互动发起方的节点指向代表单向互动接收方的节点;将在某一历史时刻Tl至当前时刻T2之间通过向量连接的两个节点之间的单向互动次数作为连接所述两个节点的向量的权重值,由此得到初始的关系网络图; S3,初始化所述初始的关系网络图,即:为所述初始的关系网络图中的每个节点均赋予唯一的标签; S4,令迭代计数器t = I ; S5,以随机顺序排列S3得到的关系网络图中的各个节点,按所排列的顺序遍历更新所述关系网络图中的所有节点的标签;其中,对于任意一个节点m,对所述节点m进行更新的方法为: 首先获取节点m的所有邻接节点;其中,所述邻接节点指:与节点m发生互动,并且,相对于节点m,作为单向互动接收方的所有节点;然后,判断节点m的所有邻接节点中出现次数最多的标签是否为一个,如果是,则将所有邻接节点中出现次数最多的标签更新为节点m的新标签;如果不是,则将出现次数最多的标签所对应的邻接节点组成邻接节点集M,然后,从所述邻接节点集M中选取与所述节点m连接的向量的权重值最大的邻接节点作为选定节点,将所述选定节点的标签更新为节点m的新标签; S6,判断是否满足预设置的迭代终止条件,其中,所述迭代终止条件指:所述关系网络图中的任意节点m’的标签满足以下条件:如果节点m’的所有邻接节点中出现次数最多的标签为一个,则节点m’的标签等于其所有邻接节点中出现次数最多的标签;如果节点m’的所有邻接节点中出现次数最多的标签为两个以上,将出现次数最多的标签所对应的邻接节点组成邻接节点集M’,则节点m’的标签等于邻接节点集Μ’中与节点m’连接的向量的权重值最大的邻接节点的标签; 如果未满足,则令t = t+Ι,反复迭代执行S5,直至满足预设置的终止条件;如果满足,则对所述网络论坛的社团划分过程结束,具有相同标签的节点所对应的用户ID属于同一个社团。2.根据权利要求1所述的基于标签传播算法的社团发现方法,其特征在于,S3中,为每个节点所赋予的唯一的标签即为用户ID。3.根据权利要求1所述的基于标签传播算法的社团发现方法,其特征在于,S5中,通过以下方法获取节点m的所有邻接节点: 建立邻接节点映射表;所述邻接节点映射表存储所述关系网络图中每一个用户ID与其所有邻接节点对应的用户ID的对应关系; 通过查找所述邻接节点映射表,获得节点m的所有邻接节点。4.根据权利要求1所述的基于标签传播算法的社团发现方法,其特征在于,S6之后,还包括: 通过簇结构的方式显示所述关系网络图的所有节点,其中,具有相同标签的节点属于同一个簇。5.一种基于标签传播算法的社团发现系统,其特征在于,包括: 源数据获取模块,对于被分析的网络论坛,获得所述网络论坛中的源数据;其中,所述源数据指所述网络论坛中某一历史时刻Tl至当前时刻T2之间的所有单向互动记录,其中,所述单向互动记录包括发起方的用户ID以及接收方的用户ID ; 关系网络图创建模块,用于读取所述源数据获取模块,将所述网络论坛中某一历史时刻Tl至当前时刻T2之间的参与单向互动的所有用户ID分别映射为关系拓扑网络图的节点,将单向互动关系映射为关系拓扑网络图中节点之间相互连接的向量,将在某一历史时刻Tl至当前时刻T2之间相互连接的两个节点之间的单向互动次数作为连接所述两个节点的向量的权重值,由此得到初始的关系网络图; 关系网络图初始化模块,用于初始化所述关系网络图创建模块所创建的初始的关系网络图,即:为所述初始的关系网络图中的每个节点均赋予唯一的标签; 迭代终止条件设置模块,用于设置迭代终止条件,所述迭代终止条件指:所述关系网络图中的任意节点m’的标签满足以下条件:如果节点m’的所有邻接节点中出现次数最多的标签为一个,则节点m’的标签等于其所有邻接节点中出现次数最多的标签;如果节点m’的所有邻接节点中出现次数最多的标签为两个以上,将出现次数最多的标签所对应的邻接节点组成邻接节点集M,,则节点m’的标签等于邻接节点集M,中与节点m’连接的向量的权重值最大的邻接节点的标签;其中,节点m’的邻接节点指:与节点m’发生互动,并且,相对于节点m’,作为单向互动接收方的所有节点; 迭代处理模块,用于在每次迭代中,以随机顺序排列关系网络图中的各个节点,按所排列的顺序遍历更新所述关系网络图中的所有节点的标签;其中,对于任意一个节点m,对所述节点m进行更新的方法为:首先获取节点m的所有邻接节点;然后,判断节点m的所有邻接节点中出现次数最多的标签是否为一个,如果是,则将所有邻接节点中出现次数最多的标签更新为节点m的新标签;如果不是,则将出现次数最多的标签所对应的邻接节点组成邻接节点集M,然后,从所述邻接节点集M中选取与所述节点m连接的向量的权重值最大的邻接节点作为选定节点,将所述选定节点的标签更新为节点m的新标签; 迭代终止判断模块,用于当所述迭代处理模块运行完一次迭代后,判断是否满足所述迭代终止条件设置模块所设置的迭代终止条件,如果未满足,则循环执行所述迭代处理模块,反复进行迭代处理;如果满足,则对所述网络论坛的社团划分过程结束,具有相同标签的节点所对应的用户ID属于同一个社团。
【专利摘要】本发明提供一种基于标签传播算法的社团发现方法及系统,方法包括:获得源数据,初始化初始的关系网络图;以随机顺序排列关系网络图中的各个节点,按所排列的顺序遍历更新关系网络图中的所有节点的标签;其中,节点m更新方法为:判断节点m的所有邻接节点中出现次数最多的标签是否为一个,如果不是,则将出现次数最多的标签所对应的邻接节点组成邻接节点集M,从邻接节点集M中选取与节点m连接的向量的权重值最大的邻接节点作为选定节点,将选定节点的标签更新为节点m的新标签;当满足终止条件时,网络论坛的社团划分过程结束,具有相同标签的节点所对应的用户ID属于同一个社团。能够更准确的实现社团的划分,得到网络论坛的社团分布情况。
【IPC分类】G06F17/30
【公开号】CN105677648
【申请号】
【发明人】吴海贵
【申请人】四三九九网络股份有限公司
【公开日】2016年6月15日
【申请日】2014年11月18日