一种基于回归分析的新闻竞争力分析方法及其可视化装置的制造方法
【技术领域】
[0001] 本发明涉及数据挖掘、信息检索和数据可视化领域,尤其涉及一种基于回归分析 的新闻竞争力分析方法及其可视化装置。
【背景技术】
[0002] 目前在数据可视化技术中,主要分为两大方面。一是社交媒体的可视化,马库斯等 研究人员发明了Twitlnfo来自动检测和显示微博活动高峰;Dork等研究人员介绍了基于 web的系统提供一个可视化的技术来总结大型Twitter数据流,其运用了集群来减少数据 的复杂性以便分析。Gansner提出一种文本流的可视化方法,它通过使用多尺度云在微博上 建立主题云模型,来显示主题的变化趋势。
[0003] 上述技术都是专注于将社交媒体上的一个事件的扩散过程给可视化出来,却难以 可视化出多个在传播中的话题。
[0004] 另一个相关技术是时态数据的可视化。目前,有许多不同的方式来处理分析时态 数据,并将它们可视化出来。相关研究人员为了将时态多元数据很好的可视化出来,在原 可视化技术上进行了扩展,例如:提出了平行坐标法等。在平行坐标法中,时间常被作为横 轴,或者通过周期性的模式突显出来,将相同时间序列的数据聚合起来,便于可视化大量的 时态数据。但其模式过于单一,需要与实际分析相结合进行扩展。
【发明内容】
[0005] 本发明提供了一种基于回归分析的新闻竞争力分析方法及其可视化装置,本发明 利用可视化技术将新闻事件间复杂的协同竞争关系给展示出来,便于分析人员对新闻的分 析,详见下文描述:
[0006] -种基于回归分析的新闻竞争力分析方法,所述方法包括以下步骤:
[0007] 通过零和博弈与新闻事件发展趋势增长率,获取基于新闻事件发展趋势增长率的 竞争力模型;
[0008] 将竞争力模型进行多元回归分析,扩展成一个多元回归模型;
[0009] 通过半偏相关系数评测新闻事件间的竞争力,并对竞争力进行量化;
[0010] 多元回归模型通过计算竞争力模型的拟合程度,对竞争力模型进行评估。
[0011] 其中,所述方法还包括;对新闻数据进行分词、统计词频的预处理。
[0012] 其中,所述将竞争力模型进行多元回归分析,扩展成一个多元回归模型的步骤具 体为:
[0013] 将竞争力模型整合成一个线性回归方程,使得自变量与因变量成线性关系,然后 将影响因子矩阵的估计转变成对于多元回归模型的参数估计,通过最小二乘法求解参数。
[0014] 其中,所述方法还包括;使用ThemeRiver模型将量化后的竞争力、以及新闻自身 的发展趋势与主题,以可视化的方式展示出来,建立可视化模型。
[0015] -种基于回归分析的新闻竞争力分析的可视化装置,所述可视化装置包括:
[0016] 获取模块,用于通过零和博弈与新闻事件发展趋势增长率,获取基于新闻事件发 展趋势增长率的竞争力模型;
[0017] 扩展模块,用于将竞争力模型进行多元回归分析,扩展成一个多元回归模型;
[0018] 评测及量化模块,用于通过半偏相关系数评测新闻事件间的竞争力,并对竞争力 进行量化;
[0019] 评估模块,用于多元回归模型通过计算竞争力模型的拟合程度,对竞争力模型进 行评估。
[0020] 其中,所述可视化装置还包括:
[0021] 预处理模块,用于对新闻数据进行分词、统计词频的预处理。
[0022] 其中,所述扩展模块包括:
[0023] 扩展子模块,用于将竞争力模型整合成一个线性回归方程,使得自变量与因变量 成线性关系,然后将影响因子矩阵的估计转变成对于多元回归模型的参数估计,通过最小 二乘法求解参数。
[0024] 其中,所述可视化装置还包括:
[0025] 建立模块,用于通过ThemeRiver模型将量化后的竞争力、以及新闻自身的发展趋 势与主题,以可视化的方式展示出来,建立可视化模型。
[0026] 本发明提供的技术方案的有益效果是:本发明实施例通过零和博弈、新闻事件发 展趋势增长率提出新闻事件竞争力模型;根据ThemeRiver的特点,结合多种可视化方法建 立可视化模型,将所研究的新闻竞争力的变化和新闻自身的发展趋势直观的展现出来,并 且可以将新闻自身的发展趋势进行适当的展示。本发明实现了对新闻数据的分析,且通过 实验验证了本发明具有较高的拟合程度。本发明适用于新闻媒体上新闻事件竞争力的可视 化分析。
【附图说明】
[0027] 图1为一种基于回归分析的新闻竞争力分析方法的流程图;
[0028] 图2为可视化模型的示意图;
[0029]图3为新闻事件的趋势曲线示意图;
[0030] 图4为新闻事件主题词汇云示意图;
[0031]图5为一种基于回归分析的新闻竞争力分析的可视化装置的结构示意图;
[0032] 图6为一种基于回归分析的新闻竞争力分析的可视化装置的另一结构示意图;
[0033] 图7为扩展模块的示意图;
[0034] 图8为一种基于回归分析的新闻竞争力分析的可视化装置的另一结构示意图。
[0035] 附图中,各标号所代表的部件列表如下:
[0036] 1 :获取模块; 2 :扩展模块;
[0037] 3 :评测及量化模块; 4:评估模块;
[0038]5 :预处理模块; 6 :建立模块;
[0039] 21 :扩展子模块。
【具体实施方式】
[0040] 为使本发明的目的、技术方案和优点更加清楚,下面对本发明实施方式作进一步 地详细描述。
[0041] 实施例1
[0042] 一种基于回归分析的新闻竞争力分析方法,参见图1,该方法通过可视化模型将竞 争关系展示出来,该新闻竞争力分析方法包括以下步骤:
[0043] 101 :对新闻数据进行分词、统计词频的预处理;
[0044] 本发明实施例利用现有的分词工具对新闻媒体所发布的新闻数据进行中文分词 处理,并统计该新闻数据的发布量以及发布时间,通过分词结果统计词频。本发明实施例对 该步骤的具体操作不做赘述。
[0045] 102 :通过零和博弈与新闻事件发展趋势增长率,获取基于新闻事件发展趋势增长 率的竞争力模型;
[0046] 对于新闻事件来说,媒体对于新闻事件的传播是和该事件本身的发展趋势密切相 关的,因而媒体对新闻事件报道的总趋势是按照一定的上凸曲线规律发展的。
[0047] 在新闻事件传播中,新闻事件不得不为了吸引媒体的报道和公众的关注去相互竞 争。作为新闻事件的兴起,它必定会牺牲别的新闻事件的受关注程度。新闻之间的竞争必 然会受到一些客观条件的限制,其中:包括公共处理信息的能力,有限的传播空间或者媒体 报道新闻事件的事件,甚至整个社会系统都是影响因素。这导致新闻之间存在一种博弈关 系,类似零和博弈。从而,通过零和博弈与新闻发展规律的共性来提出一种差分方程,该差 分方程记为建立基于新闻事件发展趋势增长率的竞争力模型,具体步骤如下:
[0048] 将一个时间段内所有新闻事件的报道量总和记为新闻媒体报道量增量。由于新 闻事件的发展趋势会影响到新闻事件的被报道量,因而新闻事件被报道量的增长率不仅只 与当前时刻的报道量总和有关,还与之前时刻的报道量总和有关。本发明实施例提出了新 闻事件发展趋势增长率,最后结合零和博弈与话题竞争力的共性(例如:PanpanXu在文献 《VisualAnalysisofTopicCompetitiononSocialMedia[J].IEEETRANSACTIONSON VISUALIZATIONANDCOMPUTERGRAPHICS, 2013, 19(12) :2012 - 2021.》中提出的话题竞争力 模型),提出基于新闻媒体的竞争力模型。
[0049] 103 :将竞争力模型进行多元回归分析,扩展成一个多元回归模型;
[0050] 其中,对竞争力模型进行剖析,发现新闻时间的媒体报道量的变化发展趋势是取 决于几个影响因素的,这就是一个因变量和多个自变量有依存关系,而且这多个影响因素 之间主次难以区分,因而使用多元回归分析预测法,具体步骤如下:
[0051] 将上述步骤提出的竞争力模型整合成一个线性回归方程,使得自变量与因变量成 高度线性关系,然后将影响因子矩阵的估计转变成对于多元回归模型的参数估计,通过最 小二乘法可求解该参数。
[0052] 104:通过半偏相关系数评测新闻事件间的竞争力,通过半偏相关系数对竞争力进 行量化;
[0053] 在多元回归模型中,可以很好的预测