基于网络离散文本的舆情信息分析方法

文档序号:6353877阅读:209来源:国知局
专利名称:基于网络离散文本的舆情信息分析方法
技术领域
本发明涉及网络信息分析,具体是一种基于网络离散文本的舆情信息分析方法。
背景技术
随着互联网技术的发展和人们生活水平的提高,网络已经成为人们获取信息和日 常交流的最重要的平台。根据CNNIC发布的《第沈次中国互联网络发展状况统计报告》,中 国网民规模达到4. 2亿人,并且上半年新增网民中,62 %是手机网民。这些数据透视了中国 互联网络的现有规模和前景,同时也表明了人们交流的方式已从传统方式演变到计算机网 络和手机移动网。互联网上的言论是网民们实时观点的反应,对社会舆论及其走向会产生 巨大影响,严重的还会因此引发社会事件,而这些言论形成的信息文档不具备传统文档的 完整篇章结构,内容省略和远程指代较多,并且包含较多的网络新词,因此有必要对此进行 研究,开发出相应的舆情信息分析系统。中国专利CN200810147645.2(专利名称为一种网 络舆情观点收集方法)是计算热点词词频和词频变化的方法,以关键句中的动词和名词作 为特征值,通过计算各关键句特征向量间的余弦相似度对关键句进行聚类,得到多个观点 主题句集,最后采用带权重的情感词库和手工判别相结合的方法来计算各个观点主题句的 情感倾向。这种方法用统计的方法以词为单位进行热点词提取和关键句聚类,在处理具有 完整篇章结构的文本信息是可行的。但经我们研究发现,在当今网络环境下,舆情文本信息 的篇章结构已经发生了变化,特别是随着手机用户的剧增和网路技术的发展,诸如微博这 样的交流平台应运而生,通过手机参与话题讨论的信息增多。这些舆情信息不再是具有一 定篇幅、组织结构较为完善的完整篇章结构,网络舆情信息的处理对象是话语简短、省略语 较多、结构非完整的离散文本格式的信息,其中的省略用语和远程指代都是需要处理的问 题。同时,在现今网络交流平台中,新生词和具有特殊意义的网络用语对网民舆情观点的反 应更具有重要的意义,仅以统计的方法并不能得出这些词的语义信息,因此话题和事件聚 类的准确率将受影响。此外,互联网上除了众多主题文档外,对这些主题文档的评论文档也 包含了网民的观点,也是网络舆情倾向的重要组成部分。

发明内容
本发明针对上述提出的现有网络舆情信息的特点,提出一种基于网络离散文本的 舆情信息分析方法,通过对采集到的网络信息进行离散文本的追踪与复原,实现对网络文 本信息流的内容省略和远程指代的有效重建。在此基础上采用潜在语义索引技术实现语义 信息挖掘和特征选择。最后对舆情信息进行分析。本发明是通过以下技术方案实现的,基于网络离散文本的舆情信息分析方法,包 括离散文本信息采集、离散文本信息处理,以及相应的数据库,包括如下步骤a.离散文本信息采集模块首先按设定的分析周期对网络信息进行采集,保存到本 地数据库;b.接下来,离散文本信息追踪与复原模块对原内容省略之处和远程指代之处复原;c.在步骤b基础上,语义信息挖掘与特征提取模块利用潜在语义索引技术对文本 信息进行语义挖掘和特征提取;d.由步骤c得到的数据进入舆情信息聚类模块,通过小生境遗传算法和K-Means 方法相结合进行信息的聚类;同时,由后台信息处理和数据支持中心的数据指导类别信息 对网络信息进行话题和事件聚类;e.最后由热点舆情事件发现模块对聚类得到的话题和事件进行热点舆情挖掘,得 到最终的处理结果,交至系统管理员,以根据需要进行后续的处理工作。所述的离散文本信息采集(步骤a),是指从网络获取信息流,以HTML格式保存到 本地数据库。由于现在的网络信息流通常包含相应的图片、音频,甚至大量的广告画面,所 以需要对本地保存的HTML格式的信息进行去噪处理,以去除图片、音频、广告等信息,从而 达到只保留文本信息的目的。网页去噪的具体步骤是先将HTML文件中的数据统一规范 化,把出现元素交叉的标记如<abcXdefX/abcX/def>,配对还原成<abcXdefX/def></ abc><def></def>的完整格式;接着将HTML网页用树形的链式结构存储,处理后每个html 网页对应一棵html树;最后,现在的动态网页技术一般将页面的内容放在数据库,而布局 则使用模板,显示时从数据库中取出内容放到模板中,这些模板的特征是主要用表格元素 来划分版面,并且会用单独一个表格来显示主体文本。因此我们处理网页文本的方式是,根 据上述生成的html树将表格元素中的文本合并,取信息量最大的一个表格中的文本作为 主体文本,由此提取到相应的文本信息,包括标题、正文和回帖等内容,得到离散文本信息。 同时,去噪过程中建立文档索引,保存重要的如^erID信息和参与讨论的时间、人数等。所述的离散文本信息追踪与复原(步骤b),首先根据后台信息处理和数据支持中 心提供的网络专用用语库用最大匹配原则在离散文本中确定出内容省略、远程指代等需要 关注之处,内容省略、远程指代的具体形式包括仅简短引用他人观点(如“支持楼主”)而未 明确给出自己观点的评论、远程超链接形式的评论等;在此基础上根据离散文本信息采集 模块中形成的html树的层次结构或者访问远程超链接实现对省略的原内容、远程指代的 原内容的有效定位,最后对内容省略之处和远程指代之处利用所定位出的原内容进行内容 替换。同时,这一模块还将去除离散文本中的特殊符号。经过此系列处理的离散文本已经 具备较完整的篇章结构。这里的网络专用用语库,是指针对网络离散文本语言环境下出现 的非常规的语言表达现象,由后台信息处理和数据支持中心发现和增加新增的网络专用用 语,并结合已有的网络专用用语逐步积累而形成的。所述的语义信息挖掘与特征提取(步骤C),是对复原后的离散文本即舆情文档用 中科院ICTCLAS分词系统进行分词,用TF-IDF进行权重计算,得到词语_文档矩阵,然后鉴 于所得到的词语-文档矩阵通常维数比较大并且鉴于已有的潜在语义索引技术可在保留 语义基础上能够有效降维,为降低计算量,采用潜在语义索引技术对词语-文档矩阵进行 降维处理,找出词与概念、概念与舆情文档的关系,并基于此进行特征提取,由此得到用于 舆情分析的维数被降低的概念-舆情文档矩阵,以将此作为输入进入下一模块进行信息聚 类。同时,在分词的过程中,基于网络新词的需要,由后台信息处理和数据支持中心提供用 户专用词库,以提高分词的准确度。这里的采用潜在语义索引技术获得概念-舆情文档矩 阵,其处理方法是对于经过分词和权重计算得到的Amxn,矩阵的行表示词语,列表示文档,对其进行奇异值分解」_=[ ]_ =t7O-I0 -Kt,U0体现了词语-概念关系,V0体现概
念-文档关系,对角阵Σ ^的元素从大到小排列。然后保留Σ ^的前m个元素并取Utl和Vtl 的前m列分别形成对应的矩阵Σ、υ和V。最后得到Amxn的近似解A' =υ·Σ·ντ,该A' 即为概念-舆情文档矩阵,其最大限度地保持了原来Amxn的语义信息,同时特征空间的维数 降至m维。所述的舆情信息聚类(步骤d),是用基于小生境遗传算法和K-Means相结合的方 法将具有相同主题信息或者话题类别的舆情信息聚到同一类。遗传算法是一种模拟生物进 化的方法,其实现步骤为设定初始种群、计算个体适应值、遗传选择、遗传交叉、遗传变异、 形成下一种群、判定是否满足停止准则。遗传算法的基本原理是物竞天择、适者生存,但生 物进化过程中除了竞争以外,还具有一定程度的合作,小生境遗传算法正是利用这种思想。 本发明方案中将种群分为若干个小生境(niche),每个小生境(niche)内部根据文档的平 均类内相似度对遗传选择产生影响,进而影响小生境内的个体适应值,交叉和变异操作则 在整个种群中进行。在每次进化迭代中用K-Means进行聚类,以计算个体适应值和类内平 均相似度,初始种群中的K-Means聚类初始中心随机选择,以后每一次进化后选择适应值 大的K个体作为初始中心。所述的热点舆情事件发现(步骤e),由聚类模块得到的聚类结果和离散文本去噪 过程中保存的文档索引信息,分析得到当前热点话题和热点事件。依据聚类结果中每类的 舆情信息文档数和文档索引中的讨论人数挖掘在一定时间内热点舆情事件,并将每次定期 更新采集HTML页面后发现的热点舆情事件与后台信息处理和数据支持中心提供的已有热 点进行比较分析,结果交至系统管理员。后台信息处理和数据支持中心保存由上述过程得到的分析结果,与以前已保存下 来的分析结果进行比较,发现和增加新增的网络专用用语,建立用于分词系统的用户专用 词库、用于离散文本信息追踪与复原的网络专用用语库、聚类后的类别信息、现已发现的热 点舆情事件信息。与现有技术相比,本发明具有如下有益效果1)针对当前网络手机用户增多,网 络舆情文本信息不具备完整篇章结构、远程指代和内容省略较多等离散文本现象,实现舆 情信息的追踪与复原,提高舆情分析的准确度;幻针对已有舆情信息进行处理,增加后台 支持模块,有效提取网络离散文本的网络专用用语库以及网络新词库,进一步改善分析效 果;3)提供了基于小生境遗传算法和K-Means结合的聚类方法,实现高效舆情信息聚类。


图1是本发明方法工作流程图。图2是本发明系统离散文本追踪与复原模块示意图。图3是本发明系统舆情信息聚类模块流程图。
具体实施例方式下面结合附图对本发明的实施例作详细说明本实施例在以本发明技术方案为前 提下进行实施,给出了详细的实施方式和具体的操作过程,但本发明的保护范围不限于下 述的实施例。
如图1所示,本发明的方法中,包括离散文本信息采集模块、离散文本信息追踪与 复原模块、语义信息挖掘与特征提取模块、舆情信息聚类模块、热点舆情事件发现模块和后 台信息处理和数据支持中心,以及用于分词系统的用户专用词库、用于离散文本信息追踪 与复原的网络专用用语库、聚类后的类别信息和现已发现的已有热点数据库。其处理流程 是1)离散文本信息采集从网络获取信息流,以HTML格式保存到本地数据库,然后对保存的HTML格式的信 息进行规格化和网页去噪处理,去除相应的图片、音频和广告、导航条等,提取到相应的文 本信息,包括标题、正文和回帖等内容,得到离散文本信息。同时,去噪过程中建立文档索 弓丨,保存重要的如^erID信息和参与讨论的时间、人数。网页去噪过程的处理方法是首先,HTML用tag来描述文档结构,所有的语句可 以嵌套循环,故为了方便处理,首先把形如〈abcXdefX/abcX/def〉的标记配对后还原成 <abcXdefX/defX/abcXdefX/def>形式。至此,一个HTML网页文件的框架,可以简单的 表示如下<HTML><HEAD><TITLEX/TITLE>// 标题<SCRIPTX/SCRIPT> // 脚本</HEAD><B0DYX/B0DY>// 内容、注释</HTML>接着,将上述格式的HTML网页用树形的链式结构存储,处理后每个html网页对应 一棵html树。最后,现在的动态网页技术一般将页面的内容放在数据库,而布局则使用模 板,显示时从数据库中取出内容放到模板中,这些模板的特征是主要用表格元素来划分版 面,并且会用单独一个表格来显示主体文本。因此我们处理网页文本的方式是,根据上述生 成的html树将表格元素中的文本合并,取信息量最大的一个表格中的文本作为主体文本。 由此得到由标题、正文、回帖构成的离散文本。2)离散文本信息追踪与复原如图2所示,根据后台信息处理和数据支持中心提供的网络专用用语库,通过最 大匹配原则在离散文本中确定内容省略、远程指代等需要关注之处,在此基础上根据离散 文本信息采集模块中形成的html树的层次结构或者访问远程超链接实现对省略的原内 容、远程指代的原内容的有效定位,最后对内容省略之处和远程指代之处利用所定位出的 原内容进行内容替换。同时,这一模块还将去除离散文本中的特殊符号。经过此系列处理 的离散文本已经具备较完整的篇章结构。这一模块主要用于处理回帖和远程链接问题,处理方式是,将文本中出现的指代 如“支持楼主”(由网络专用用语库提供)以及url链接等进行内容替代。我们在1)中已 经提取到主体文本,它是html数的一棵子树中的内容,子树根节点代表主贴内容,直接对 主贴的回复作为根节点的孩子结点,对回帖的回复作为此回帖的子节点。这样,对“楼主”、 “楼上”直接找到对应结点进行内容替换,对远程url进行链接访问,递归提取文本内容进行替代。3)语义信息挖掘与特征提取具体步骤是首先,使用中国科学院计算技术研究所研制出的ICTCLAS分词系统 对复原后的离散文本进行分词;然后用TF-IDF计算词语权重,得到词语-文档矩阵Amxn,;
最后将Amxn进行奇异值分解=[ ],_=仏,保留Σ C1的前m个元素并取U。和V。
的前m列分别形成对应的矩阵Σ、υ和V,进而得到概念-舆情文档矩阵A' =A' =U-Σ -Vt4)舆情信息聚类如图3所示,用基于小生境遗传算法和K-Means相结合的方法将具有相同主题信 息或者话题类别的舆情信息聚到同一类。具体步骤为Sl 随机选择文本作为初始聚类中心,组成初始种群,用k-means初始聚类以计算 种群中个体初始适应度;S2 种群内选择,交叉,变异;S3 用k-means算法对种群内每一个文本进行聚类;S4 计算个体适应度;S5 对每个个体,若其适应度高于父代,则取代父代进入下一循环;S6 满足终止条件则转到S7,否则转到S2 ;S7 选取适应度高的个体作为初始聚类中心,并用k-means进行聚类;5)热点舆情事件发现由聚类模块得到的聚类结果和离散文本去噪过程中保存的文档索引信息,分析得 到当前热点话题和热点事件。挖掘在一定时间内热点舆情事件的依据是聚类结果中每类的 舆情信息文档数和文档索引中的讨论人数。每次定期更新采集HTML页面后发现的热点舆 情事件与后台信息处理和数据支持中心提供的已有热点进行比较分析,结果交至系统管理 员;6)后台信息处理和数据支持中心保存由上述过程得到的分析结果,与以前已保存下来的分析结果进行比较,发现 和增加新增的网络专用用语,建立用于分词系统的用户专用词库、用于离散文本信息追踪 与复原的网络专用用语库、聚类后的类别信息、现已发现的热点舆情事件信息。本实施例中给出了系统分析流程和具体处理方式,包括所用的信息存储结构,对 定期更新的网上舆情信息得到实时的分析结果,包括信息聚类的结果和热点话题、热点事 件,同时还保存和更新分析过程所用的后台数据,这些后台数据的维护需要系统管理员的 参与以保证下一轮分析的可靠性。
权利要求
1.基于网络离散文本的舆情信息分析方法,包括离散文本信息采集、离散文本信息处 理,以及相应的数据库,其特征在于包括如下步骤a.离散文本信息采集模块首先按设定的分析周期对网络信息进行采集,保存到本地数 据库;b.接下来,离散文本信息追踪与复原模块对原内容省略之处和远程指代之处复原;c.在步骤b基础上,语义信息挖掘与特征提取模块利用潜在语义索引技术对文本信息 进行语义挖掘和特征提取;d.由步骤c得到的数据进入舆情信息聚类模块,通过小生境遗传算法和K-Means方法 相结合进行信息的聚类;同时,由后台信息处理和数据支持中心的数据指导类别信息对网 络信息进行话题和事件聚类;e.最后由热点舆情事件发现模块对聚类得到的话题和事件进行热点舆情挖掘,得到最 终的处理结果,交至系统管理员。
2.根据权利要求1所述的基于网络离散文本的舆情信息分析方法,其特征是,在步骤 a,先从网络获取信息流,以HTML格式保存到本地数据库,然后对本地保存的HTML格式的信 息进行去噪处理,同时,去噪过程中建立文档索引,保存^erID信息和参与讨论的时间、人 数。
3.根据权利要求1所述的基于网络离散文本的舆情信息分析方法,其特征是,在步骤 b,首先根据后台信息处理和数据支持中心提供的网络专用用语库用最大匹配原则在离散 文本中确定出内容省略、远程指代之处,在此基础上根据离散文本信息采集模块中形成的 html树的层次结构或者访问远程超链接实现对省略的原内容、远程指代的原内容的有效定 位,最后对内容省略之处和远程指代之处利用所定位出的原内容进行内容替换;同时,去除 离散文本中的特殊符号。
4.根据权利要求1所述的基于网络离散文本的舆情信息分析方法,其特征是,在步骤 c,对复原后的离散文本即舆情文档,用中科院ICTCLAS分词系统进行分词,用TF-IDF进行 权重计算,得到词语-文档矩阵,然后采用潜在语义索引技术对词语-文档矩阵进行降维处 理,找出词与概念、概念与舆情文档的关系,并基于此进行特征提取,得到用于下一步骤进 行信息聚类用的维数被降低的概念-舆情文档矩阵。
5.根据权利要求1所述的基于网络离散文本的舆情信息分析方法,其特征是,在步骤 d中,小生境遗传算法是将种群分为若干个小生境,每个小生境内部根据文档的平均类内相 似度对遗传选择产生影响,进而影响小生境内的个体适应值,交叉和变异操作则在整个种 群中进行;在每次进化迭代中用K-Means进行聚类,以计算个体适应值和类内平均相似度, 初始种群中的K-Means聚类初始中心随机选择,以后每一次进化后选择适应值大的K个体 作为初始中心,用K-Means的方法将具有相同主题信息或者话题类别的舆情信息聚到同一 类。
6.根据权利要求1所述的基于网络离散文本的舆情信息分析方法,其特征是,在步骤 e,由聚类模块得到的聚类结果和离散文本去噪过程中保存的文档索引信息,依据聚类结果 中每类的舆情信息文档数和文档索引中的讨论人数挖掘在一定时间内热点舆情事件,并将 每次定期更新采集HTML页面后发现的热点舆情事件与后台信息处理和数据支持中心提供 的已有热点进行比较分析,结果交至系统管理员。
7.根据权利要求1所述的基于网络离散文本的舆情信息分析方法,其特征是,后台信 息处理和数据支持中心
8.根据权利要求2所述的基于网络离散文本的舆情信息分析方法,其特征是,去噪处 理的具体步骤是先将HTML文件中的数据统一规范化,把出现元素交叉的标记配对还原成 完整格式;接着将HTML网页用树形的链式结构存储,处理后每个html网页对应一棵html 树;最后根据上述生成的html树将表格元素中的文本合并,取信息量最大的一个表格中的 文本作为主体文本,由此提取到相应的文本信息,包括标题、正文和回帖等内容,得到离散 文本信息。
全文摘要
一种网络信息安全领域的基于网络离散文本的舆情信息分析系统,包括以下模块离散文本信息采集模块,按设定的分析周期对网络信息进行采集;离散文本信息追踪与复原模块,对原内容省略之处和远程指代之处进行复原,得到包含较为完整的篇章结构和语义信息的文本;语义信息挖掘与特征提取模块,利用潜在语义索引技术实现对文本信息的语义挖掘和特征提取;舆情信息聚类模块,通过将小生境遗传算法和K-Means方法相结合实现对信息的聚类;热点舆情事件发现模块,对聚类得到的话题和事件进行热点舆情挖掘;后台信息处理和数据支持中心,分析数据并提供网络专用用语库、网络新词、已有类别信息和已有热点话题等。本发明解决现有网络舆情信息篇章结构不完整、内容省略和远程指代多、网络新词多等对信息分析的影响,并用高效聚类方法提高舆情热点事件发现的准确性。
文档编号G06F17/30GK102110140SQ20111003015
公开日2011年6月29日 申请日期2011年1月26日 优先权日2011年1月26日
发明者李海燕, 李生红, 赵峰, 陈秀真, 黄慧琼 申请人:桂林电子科技大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1