摘要生成方法的另一流程图;
[0047] 图3为本发明实施例二提供的自动摘要生成装置结构示意图。
【具体实施方式】
[0048] 为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作进 一步地详细描述,显然,所描述的实施例仅仅是本发明一部份实施例,而不是全部的实施 例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的 所有其它实施例,都属于本发明保护的范围。
[0049] 下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
[0050] 图1为本发明实施例一提供的自动摘要生成方法流程图。如图1所示,本实施例包 括以下步骤:
[0051] S110,对文本进行建模,生成句网络图,所述句网络图包括边权值。
[0052]其中,以句子为顶点,相似性为边,将文本建模为一个句网络图G=(S,E,w),S是句 子节点的集合,E是边的集合,w是边权值,即句子间的相似度。其中,边权值w可选用Jaccard 相似性系数、余弦相似度、BM25算法等方法计算,本发明对其不做限制。
[0053] 可选地,在S110之前还包括:对文本进行预处理,该预处理具体为分词、去除停用 词和按照标点符号逗号、句号、冒号等进行分句。
[0054] S120,根据所述边权值、所述文本中各句子的初始权重,计算所述文本中各句子的 第一权重。
[0055] 可选地,所述根据所述边权值、所述文本中各句子的初始权重,计算所述文本中各 句子的第一权重具体包括:
[0056] 利用公另
汁算所述文本中各句子的第 一权重;
[0057]其中,W(Sj)为第j个句子的第一权重,W(Si)为第i个句子的第一权重,d为阻尼系 数,Link(Sj)为与句子Sj相连接的句子集合,Wij为句子Si和句子Sj之间的边权值。
[0058]具体地,采用迭代的方式句子的第一权重。在初次迭代中,对句网络中每个句子随 机赋权重初值,然后根据上述公式计算得出第j个句子的第一权重W(Sj)。
[0059] S130,根据词在所述各句子中的频率、所述词对应的句子的第一权重,计算出所述 词的词权重。
[0060] 可选地,所述根据词在所述各句子中的频率、所述词对应的句子的第一权重,计算 所述词的词权重具体包括:
[0061] 利用公式
汁算所述词的词权重;
[0062] 其中,WS(Wi)为第i个词的词权重,W(Sj)为第j个句子的第一权重,nji为第i个词在 第j个句子中的频率。
[0063] 具体地,根据词在句子中出现的频率以及对应句子的第一权重计算出词的词权 重。其计算方法是,对于每一个词,以句子为单位,将该词在句子中出现的次数与相应的句 子第一权重相乘,对每一个句子得到的词频与句子第一权重的乘积求和,并除以词在文本 中出现的总次数得到该词的权重。
[0064] S140,根据各所述词在所述各句子中的频率、以及各所述词的词权重,计算各所述 句子的第二权重。
[0065] 可选地,所述根据各所述词在所述各句子中的频率、以及各所述词的词权重,计算 各所述句子的第二权重具体包括:
[0066] 利用公式
计算各所述句子的第二权重;
[0067] 其中,WW(Sj)为第j个句子的第二权重,WS(Wi)为第i个词的词权重,nji为第i个词 在第j个句子中的频率。
[0068] S150,根据所述第一权重和所述第二权重,计算所述各句子的最终权重。
[0069] 可选地,所述根据所述第一权重和所述第二权重,计算所述各句子的最终权重具 体包括:
[0070] 利用公式矿(Sj^aWOa-cOffKSj)计算所述各句子的最终权重;
[0071] 其中,W' (Sj)为第j个句子的最终权重,W(Sj)第j个句子的第一权重,WW(Sj)为第j 个句子的第二权重,a为调节因子,ae[0,l]。
[0072] S160,比较第N次迭代后的最终权重和第N-1次迭代后的最终权重差值是否小于预 设阈值以及第N次迭代后的词权重和第N-1次迭代后的词权重差值是否小于预设阈值。
[0073] S170,如果第N次迭代后的最终权重和第N-1次迭代后的最终权重差值不小于预设 阈值以及第N次迭代后的词权重和第N-1次迭代后的词权重差值不小于预设阈值,将所述第 N次迭代后的最终权重作为第N+1次迭代的初始权重;
[0074] S180,如果第N次迭代后的最终权重和第N-1次迭代后的最终权重差值小于预设阈 值以及第N次迭代后的词权重和第N-1次迭代后的词权重差值小于预设阈值,生成自动摘 要。
[0075] 具体地,如果第N次迭代后的最终权重和第N-1次迭代后的最终权重差值不小于预 设阈值以及第N次迭代后的词权重和第N-1次迭代后的词权重差值不小于预设阈值,则将第 N次迭代后的最终权重作为第N+1次迭代的初始权重,重复S120至S160,直到满足收敛条件。 比如,若某一轮迭代之后,所有句子的最终权重与前一次迭代后的最终权重之差小于预设 阈值ε时以及词权重和前一次迭代后的词权重差值小于预设阈值ε,则判定达到收敛状态, 迭代终止。在获得所有句子的最终权重后,将所有句子按照最终权重的大小进行排序。在给 定摘要约束条件下,比如摘要的字数限制,选出k个句子,按照这Κ个句子在原始文本中出现 的顺序排列,提取top-k个句子,生成摘要。
[0076] 利用本实施例提供的自动摘要生成方法,对文本进行建模,生成句网络图,句网络 图包括边权值;根据边权值、文本中各句子的初始权重,计算文本中各句子的第一权重;根 据词在各句子中的频率、词对应的句子的第一权重,计算出词的词权重;根据各词在各句子 中的频率、以及各词的词权重,计算各句子的第二权重;根据第一权重和第二权重,计算各 句子的最终权重;比较单元,比较第N次迭代后的最终权重和第N-1次迭代后的最终权重差 值是否小于预设阈值以及第N次迭代后的词权重和第N-1次迭代后的词权重差值是否小于 预设阈值;如果第N次迭代后的最终权重和第N-1次迭代后的最终权重差值不小于预设阈值 以及第N次迭代后的词权重和第N-1次迭代后的词权重差值不小于预设阈值,将所述第N次 迭代后的最终权重作为第N+1次迭代的初始权重;如果第N次迭代后的最终权重和第N-1次 迭代后的最终权重差值小于预设阈值以及第N次迭代后的词权重和第N-1次迭代后的词权 重差值小于预设阈值,生成自动摘要,通过考虑文本中词与句之间的相互影响,在句关联网 络上融入词对句排序分值的影响,解决了单个长文本摘要质量低下的问题,缓解了信息过 载、提升了摘要质量。
[0077] 在一个具体的实施例中,对自动摘要生成方法进行详细叙述,其中每个句子前的 数字为句子编号。如图2所示,图2为本发明实施例一提供的自动摘要生成方法的另一流程 图。
[0078] (1)2002年,(2)中国大企业集团整体呈现出规模不断扩张、竞争力不断提升、经济 效益日趋好转的良性发展格局,(3)与上年相比,(4)数目减少38家,(5)营业收入增长 17.5%,(6)资产总计增长11.3%,(7)利润增长30.2%。(8)-批大型、特大型企业集团发展 迅猛,(9)成为拉动经济增长的骨干力量。(10)国家统计局11日发布的中国企业集团最新统 计信息表明,(11 )2002年,(12)中国企业集团的各项改革进一步深化,(13)各地有关部门通 过清理,(14)注销了一批不规范集团,(15)同时新建包括中国航空集团、中国民航信息集 团、中国航空油料集团、中国航空器材进出口集团公司、中国网络通信集团等在内的各类企 业集团52家,(16)使企业集团总数减少,(17)但发展更加有序,(18)整体实力进一步加强。 (19)调查资料显示,(20)2002年中国中央管理企业中的企业集团、国家试点企业集团、国家 重点企业中的企业集团、省部级单位审批的企业集团,(21)以及年营业收入和年末资产总 计均在5亿元及以上的其它各类大企业集团共计2627家,(22)营业收入77120亿元,(23)年 末资产总计142538亿元,(24)实现利润总额4179亿元。(25)统计表明,(26)中国西部地区企 业集团的发展速度明显加快。(27)2002年,(28)西部地区企业集团的数量从上年的337家减 少到325家,(29)但营业收入、年末资产总计分别比上年增长17.5%、13.5%,(30)其中营业 收入的增速与平均增长速度持平,(31)年末资产总计的增速高于平均增长速度2.2个百分 点。(32)值得关注的是,(33)在全部企业集团总数减少的情况下,(34)营业收