专利名称:一种文本集合中事件的重要度的计算方法
技术领域:
本发明属于语言文字信息处理领域,具体地说是涉及一种文本集合中事件的重要度的计算方法。
背景技术:
大量研究成果表明,事件在许多文本中是客观存在的,事件之间有着紧密的联系,不同的事件在文本中有不同的重要度。计算文本集合中的事件重要度,是文本信息处理的基础工作。基于文本中的重要事件,在自动问答领域,可以有针对性的抽取一些重要事件作为问题的答案;在自动文摘领域可以选择包含重要事件的句子作为文摘的单位;在信息检索领域,可以根据事件重要度的不同选择一些事件作为查询扩展的对象,事件重要度也可以作为扩展对象的权重设置的参考;在本体领域,可以为领域本体的构建推荐重要的事件,可以为领域本体的评价提供标准,等等。
计算文本集合中事件重要度的研究主要应用在自动文摘领域。普遍认为事件之间的关系是通过事件的要素而直接关联的,表现在文本中就是事件的同一要素出现在不同的事件中。例如有文章报道,其题目为Extractive summarization using inter-and intra-eventrelevance(该文作者是W.J.Li,M.L.Wu,and Q.Lu,发表于2006年出版的期刊Proceedings of the 21st International Conference on Computational Linguistics andthe 44th annual meeting of the ACL)和文章Event-centric summary generation(该文作者是L.Vanderwende,M.Banko,and A.Menezes,发表于2004年出版的期刊Proceedingsof the DUC-2004 Workshop),该文公开了通过事件要素的关联,建立事件关系图,进而采用经典的PageRank算法计算事件的重要度的方法。已有方法存在的不足(1)对每个事件提取其要素是一件非常困难的工作,目前的提取效果还是非常不理想的;(2)在很多情况下,事件间的关系并不是直接通过事件要素而关联的;(3)使用经典的PageRank算法计算事件的重要度并不是很合适的选择。因此,已有方法在文本集合中计算事件的重要度时难以自动实现,且准确率低。
发明内容
鉴于以上所述现有技术存在的问题和不足,本发明要解决的技术问题是提供一种文本集合中事件的重要度的计算方法,该方法可以自动实现、能够提高文本集合中事件的重要度计算的准确率。
为了解决上述问题,本发明采用下述技术方案 一种文本集合中事件的重要度的计算方法,其特征在于利用事件间相互的影响关系计算文本集合中事件的重要度,首先输入文本集合,从文本集合中识别出所有的事件,由该所有事件组成事件集合E;其次根据一个事件的发生导致另一个事件发生的概率计算两事件间的影响因子;接着依据两两事件间的影响因子构造事件影响因子矩阵;最后利用链接分析算法迭代计算事件影响因子矩阵中每个事件的重要度,具体步骤如下 A、输入文本集合,从文本集合中识别出事件集合E; B、计算事件集合E中的事件间的影响因子; C、构造事件影响因子矩阵; D、计算事件集合E中每个事件的重要度。
上述步骤A中所述的从文本集合中得到事件集合E,其操作步骤如下 A1、将文本集合经ICTCLAS分词后,依据《汉语文本词性标注标记集》选取所有的动词(v)、名动词(vn)构成候选事件集合E1; A2、从候选事件集合E1中删除主观感知、猜想、阐述等类似动词,得到候选事件集合E2; A3、从候选事件集合E2中删除一部分抽象意义高的动词,并将与其一起出现的名词(n)添加到候选事件集合E2,最后得到的候选事件集合E3,即为所述文本集合的事件集合E。
上述步骤B中所述的计算事件集合E中的事件间的影响因子,其事件ei对事件ej的影响因子的计算公式为 其中,wij是事件ei对事件ej的影响因子; M是所述的文本集合, d是所述的文本集合M中的任意一篇文档, Ndei表示事件ei在文档d中出现的次数, Fd(ei,ej)表示事件ei出现的文档d,事件ej也同时在其中出现的次数, 如果wij>1,则令wij=1。
上述步骤C中所述的构造事件影响因子矩阵,其事件影响因子矩阵为 W=(wij)n×n 其中,n为事件集合E中事件的个数,1≤i,j≤n,wij表示事件ei对ej的影响因子。
上述步骤D中所述的计算事件集合E中每个事件的重要度,其操作步骤如下 D1、初始化事件集合E中每个事件的重要度; D2、初始化每个事件的Authorities值和Hubs值均为0; D3、计算每个事件的Authorities值; D4、计算每个事件的Hubs值; D5、依据事件的Authorities值和Hubs值计算每个事件的重要度; D6、规范化每个事件的重要度; D7、判断每个事件的重要度是否满足迭代收敛的精度,如果是,则执行完毕,否则,转步骤D2,如此循环直到满足迭代收敛的精度ε,计算事件重要度结束。
本发明的一种文本集合中事件的重要度的计算方法与现有技术相比较,具有以下效果该方法构造了事件影响因子矩阵来描述文本集合中事件的关联强弱,依据事件间的影响因子具有双向和不对称的特征,提出了一种综合考虑了事件的Authorities值和Hubs值的链接分析算法,显著地提高了文本集合中事件的重要度计算的准确率;该方法在事件识别规则的基础上,可以自动的实现文本集合中事件的重要度的计算。
图1是本发明的一种文本集合中事件的重要度的计算方法的流程图; 图2是图1中步骤104所述的事件集合E中计算每个事件的重要度的流程图。
具体实施例方式 下面结合附图和具体实施方式
对本发明作进一步详细的描述。
参照图1,本发明的一种文本集合中事件的重要度的计算方法包括如下步骤 步骤101、输入文本集合,从文本集合中得到所有事件,由该所有事件组成事件集合E,其具体如下 A1、将文本集合经ICTCLAS分词后,依据《汉语文本词性标注标记集》选取所有的动词(v)、名动词(vn)构成候选事件集合E1; A2、从候选事件集合E1中删除主观感知、猜想、阐述等类似动词,得到候选事件集合E2。例如,句子“我认为应该进行比赛”、“人们猜想这是不对的”和“有人说,还是回去吧”,句中的“认为”、“猜想”、“说”等词,均不属于事件,而句中的“比赛”、“回去”则属于事件; A3、从候选事件集合E2中删除一部分抽象意义高的动词,并将与其一起出现的名词添加到候选事件集合E2。例如,句子“汶川发生地震了”、“我们开始座谈”、“大家准备开会”,句中的动词“发生”、“开始”、“准备”的抽象意义较高,不作为事件,句中的名词“地震”、“座谈”、“开会”分别作为事件,最后得到的候选事件集合E3,即为所述文本集合的事件集合E; 步骤102、计算事件集合E中的事件间的影响因子。
事件间的影响因子α是指事件ei的发生导致事件ej发生的概率大小。事件间的影响因子α的大小是指 (1)影响因子越大表示一个事件发生后,另一个事件发生的概率越大,0≤α≤1,根据影响因子的大小,可以人为的为事件间的关系赋予名称,比如因果关系、跟随关系等; (2)两个事件间的影响因子的大小常常是不对称的。比如,“地震”对“死亡”的影响就应该很大,而“死亡”对“地震”的影响相对较小。
事件ei对事件ej的影响因子的计算公式为 其中,wij是事件ei对事件ej的影响因子; M是所述的文本集合, d是所述的文本集合M中的任意一篇文档, Ndei表示事件ei在文档d中出现的次数, Fd(ei,ej)表示事件ei出现的文档d,事件ej也同时在其中出现的次数。
如果wij>1,则令wij=1。
步骤103、构造事件影响因子矩阵 事件影响因子矩阵为 W=(wij)n×n 其中,n为事件集合E中事件的个数,1≤i,j≤n,wij表示事件ei对ej的影响因子。
步骤104、计算事件集合E中每个事件的重要度,参照图2,包括如下步骤 步骤201、初始化事件集合E中每个事件的重要度; 对事件集合E中每个事件的重要度的初始化按照以下公式进行 其中,R(ei)是事件ei的重要度,n是事件集合E中事件的个数。
步骤202、初始化每个事件的Authorities值和Hubs值均为0。
步骤203、计算每个事件的Authorities值 计算每个事件的Authorities值公式为 其中,Si是事件ei的Authorities值,In(ei)表示对ei有影响的事件集合,R(ej)k-1是事件ej的第k-1次迭代时的重要度,wji是事件ej对事件ei的影响因子; 步骤204、计算每个事件的Hubs值 计算每个事件的Hubs值的公式为 其中,So是事件ei的Hubs值,Out(ei)表示ei对其它有影响的事件集合R(eg)k-1是事件eg的第k-1次迭代时的重要度,wig是事件ei对事件eg的影响因子。
步骤205、依据事件的Authorities值和Hubs值,计算每个事件的重要度。
计算每个事件的重要度的公式为 其中,R(ei)k是事件ei的第k次迭代时的重要度;d是一个阻尼系数,取值范围为0~1,通常取d=0.85;α、β是调节Authorities值和Hubs值的两个参数,α,β≥0,且α+β=1,如果α=0,就以Authorities值作为迭代计算的依据,演变成了类似于PageRank算法,如果β=0,就以Hubs值作为迭代计算的依据,类似于Reverse PageRank算法,为了综合考虑事件的Authorities值和Hubs值,通常取α=β=0.5。
计算事件重要度的公式由初始分布和一个转移概率矩阵W=(wij)n×n(即事件影响因子矩阵)决定,W在每次迭代计算时都相同,因此计算事件重要度的公式是一个齐次马尔可夫过程。其计算过程可以看作是一个矩阵特征向量求解的过程,从而保证了计算过程的收敛性。
步骤206、规范化每个事件的重要度。
规范化每个事件的重要度的公式为 其中,R(ei)k是事件ei的第k次迭代时的重要度;
是所有事件的重要度之和。
步骤207、判断所有事件是否满足迭代收敛的精度。
判断事件ei是否满足迭代收敛的精度ε,判断是否迭代收敛公式为 |R(ei)k-R(ei)k-1|>ε 其中,R(ei)k是事件ei的第k次迭代时的重要度,R(ei)k-1是事件ei的第k-1次迭代时的重要度,ε是迭代收敛的精度要求,如果事件ei满足迭代收敛的精度ε,则文本集合中计算事件的重要度结束,如果事件ei不能满足迭代收敛的精度ε,则返回重新执行步骤202,如此循环直到满足迭代收敛的精度ε,计算事件的重要度结束。
本发明的一种文本集合中事件的重要度的计算方法(简记作HARank)与具有代表性的对象级排序两种算法(PopRank和Reverse PageRank)在事件的重要度排序的效果上进行了实验比较。
实验语料通过搜索引擎获取,包括5类事件“汶川地震”、“印尼海啸”、“马英九竞选”、“5.8空难”和“中国SARS”。由于搜索引擎返回的有些结果仅仅是网站的主页或者是一些图片,不是新闻报道等文本资料,所以按照搜索返回的网页的顺序,人工参与筛选了返回结果中排在前面的30篇文本作为实验语料。
文本中重要事件的确定方法5位和本课题研究无关的本科生阅读了5类事件的30篇文本,每个学生给出了每类的10个重要事件,最后有课题组的3名研究生采用了Pooling技术确定了每个类别的10个重要事件。Pooling技术的做法是每个类别根据5个本科生提交的10个重要事件,求他们的并集形成一个pool,然后由3名研究生在pool中挑选出10个重要事件,作为一个类别的重要事件的标准答案,这10个事件重要度的顺序是3名研究生商量人工确定的。
计算事件的重要度时,取d=0.85,α=β=0.5,当前后两次迭代误差ε≤1×10-9时,认为迭代过程收敛到不动点。5类事件语料的事件重要度排序比较结果如表1所示。
使用召回率(Recall)和肯德尔系数(Kendall)两种方法对表1中数据进行分析,分别定义为 其中,CS是使用某种算法得到的事件集合,元素按照事件重要度降序排列;ES是专家给定的事件集合,也是降序排列。
表15类事件语料的事件重要度排序比较
实验结果表明,本发明所述的方法对事件重要性的排序与人工评测最为吻合,PopRank和Reverse PageRank的排序效果相差不大。原因是Reverse PageRank算法侧重于事件的Hubs值,PopRank侧重于事件的Authoritites值。但在事件影响因子矩阵中,有的事件的Hubs值和Authorities值都不大,但其Hubs与Authorities值之和却可能很大;另外,同一个领域事件中,有的事件的Hubs值偏大,有的事件的Authorities值偏大,单纯的侧重于Hubs值或Authorities值的事件排序算法都是不合理的。
本发明所述的方法并不限于具体实施方式
中所述的实施例,本领域技术人员根据本发明的技术方案得出的其它的实施方式,同样属于本发明的技术创新范围。
权利要求
1.一种文本集合中事件的重要度的计算方法,其特征在于首先输入文本集合,从文本集合中识别出所有的事件,由该所有事件组成事件集合E;其次根据一个事件的发生导致另一个事件发生的概率计算两事件间的影响因子;接着依据两两事件间的影响因子构造事件影响因子矩阵;最后利用链接分析算法迭代计算事件影响因子矩阵中每个事件的重要度,具体步骤如下
A、输入文本集合,从文本集合中识别出事件集合E;
B、计算事件集合E中的事件间的影响因子;
C、构造事件影响因子矩阵;
D、计算事件集合E中每个事件的重要度。
2.根据权利要求1所述的文本集合中事件的重要度的计算方法,其特征在于,上述步骤A中所述的从文本集合中得到事件集合E,其操作步骤如下
A1、将文本集合经ICTCLAS分词后,依据《汉语文本词性标注标记集》选取所有的动词(v)、名动词(vn)构成候选事件集合E1;
A2、从候选事件集合E1中删除主观感知、猜想、阐述等类似动词,得到候选事件集合E2;
A3、从候选事件集合E2中删除一部分抽象意义高的动词,并将与其一起出现的名词(n)添加到候选事件集合E2,最后得到的候选事件集合E3,即为所述文本集合的事件集合E。
3.根据权利要求2所述的文本集合中事件的重要度的计算方法,其特征在于,上述步骤B中所述的计算事件集合E中的事件间的影响因子,其事件ei对事件ej的影响因子的计算公式为
其中,wij是事件ei对事件ej的影响因子;
M是所述的文本集合;
d是所述的文本集合M中的任意一篇文档;
Ndei是事件ei在文档d中出现的次数;
Fd(ei,ej)是事件ei出现的文档d,事件ej也同时在其中出现的次数,
如果wij>1,则令wij=1。
4.根据权利要求3所述的文本集合中事件的重要度的计算方法,其特征在于,上述步骤C中所述的构造事件影响因子矩阵,其事件影响因子矩阵为
W=(wij)n×n
其中,n为事件集合E中事件的个数,1≤i,j≤n,wij表示事件ei对ej的影响因子。
5.根据权利要求4所述的文本集合中事件的重要度的计算方法,其特征在于,上述步骤D中所述的计算事件集合E中每个事件的重要度,其操作步骤如下
D1、初始化事件集合E中每个事件的重要度
对事件集合E中的每个事件的重要度的初始化公式为
其中,R(ei)是事件ei的重要度,n是事件集合E中事件的个数;
D2、初始化每个事件的Authorities值和Hubs值均为0
D3、计算每个事件的Authorities值
计算每个事件的Authorities值公式为
其中,Si是事件ei的Authorities值,In(ei)表示对ei有影响的事件集合,R(ej)k-1是事件ej的第k-1次迭代时的重要度,wji是事件ej对事件ei的影响因子;
D4、计算每个事件的Hubs值
计算每个事件的Hubs值的公式为
其中,So是事件ei的Hubs值,Out(ei)表示ei对其它有影响的事件集合R(eg)k-1是事件eg的第k-1次迭代时的重要度,wig是事件ei对事件eg的影响因子;
D5、计算每个事件的重要度
计算每个事件的重要度的公式为
其中,R(ei)k是事件ei的第k次迭代时的重要度;d是一个阻尼系数,取值范围为0~1,通常取d=0.85;α、β是调节Authorities值和Hubs值的两个参数,α,β≥0,且α+β=1,如果α=0,就以Authorities值作为迭代计算的依据,演变成了类似于PageRank算法,如果β=0,就以Hubs值作为迭代计算的依据,类似于Reverse PageRank算法,为了综合考虑事件的Authorities值和Hubs值,通常取α=β=0.5;
D6、规范化每个事件的重要度
规范化每个事件的重要度的公式为
其中,R(ei)k是事件ei的第k次迭代时的重要度;
是所有事件的重要度之和。
D7、判断每个事件的重要度是否满足迭代收敛的精度
判断事件ei是否满足迭代收敛的精度ε,判断是否迭代收敛公式为
|R(ei)k-R(ei)k-1|>ε
其中,R(ei)k是事件ei的第k次迭代时的重要度,R(ei)k-1是事件ei的第k-1次迭代时的重要度,ε是迭代收敛的精度要求,如果事件ei满足迭代收敛的精度ε,则文本集合中计算事件的重要度结束,如果事件ei不能满足迭代收敛的精度ε,则返回重新执行步骤202,如此循环直到满足迭代收敛的精度ε,计算事件的重要度结束。
全文摘要
本发明公开了一种计算文本集合中事件的重要度的方法,该方法其特征在于首先从文本集合中识别出所有的事件,由该所有事件组成事件集合E;其次根据一个事件的发生导致另一个事件发生的概率计算两事件间的影响因子;接着依据两两事件间的影响因子构造事件影响因子矩阵;最后利用链接分析算法迭代计算事件影响因子矩阵中每个事件的重要度。该方法构造了事件间的影响因子矩阵来描述文本集合中事件间的关联强弱,依据事件间影响因子具有双向和不对称的特征,提出了一种综合考虑了事件的Authorities值和Hubs值的链接分析算法,显著地提高了文本集合中事件的重要度计算的准确率。该方法在事件识别规则的基础上,可以自动的实现文本集合中事件的重要度的计算。
文档编号G06F17/21GK101727437SQ20091019957
公开日2010年6月9日 申请日期2009年11月26日 优先权日2009年11月26日
发明者仲兆满, 刘宗田, 周文, 刘炜, 付剑锋 申请人:上海大学