自动摘要生成方法及装置的制造方法_3

文档序号:9887804阅读:来源:国知局
入和年末资产 总计均在50亿元及以上的特大型企业集团发展为214家,(35)比上年增加35家。(36)特大型 企业集团的数量比重仅为8.1%,(37)而营业收入和年末资产总计比重均接近7成,(38)实 现利润超过7成半,(39)增长速度表现得更为突出,(40)营业收入和资产总计分别比上年增 长22.7%和15.7%,(41)增速高于其它规模企业集团14.4和14.7个百分点。(42)据美国《财 富》杂志评选出的2002年世界500家最大企业排行榜显示,(43)中国大企业有12家榜上有 名。"
[0079]首先对上述文本进行预处理,预处理可以是分词、去除停用词和按照标点符号逗 号、句号、冒号等进行分句,实施后的效果如下:
[0080] "2002年,中国大企业集团整体呈现出规模不断扩张竞争力不断提升经济效益日 趋好转良性发展格局,上年相比,数目减少38家,营业收入增长17.5%,资产总计增长 11.3%,利润增长30.2%。批大型特大型企业集团发展迅猛,成为拉动经济增长骨干力量。 国家统计局11日发布中国企业集团最新统计信息表明,2002年,中国企业集团各项改革进 一步深化,各地部门清理,注销批不规范集团,新建包括中国航空集团中国民航信息集团中 国航空油料集团中国航空器材进出口集团公司中国网络通信集团在内各类企业集团52家, 使企业集团总数减少,发展更加有序,整体实力进一步加强。调查资料显示,2002年中国中 央管理企业中企业集团国家试点企业集团国家重点企业中企业集团省部级单位审批企业 集团,年营业收入年末资产总计均5亿元以上各类大企业集团共计2627家,营业收入77120 亿元,年末资产总计142538亿元,实现利润总额4179亿元。统计表明,中国西部地区企业集 团发展速度明显加快。2002年,西部地区企业集团数量上年337家减少325家,营业收入年末 资产总计分别上年增长17.5% 13.5%,营业收入增速平均增长速度持平,年末资产总计增 速高于平均增长速度2.2百分点。值得关注,全部企业集团总数减少情况下,营业收入年末 资产总计均50亿元以上特大型企业集团发展214家,上年增加35家。特大型企业集团数量比 重仅8.1 %,营业收入年末资产总计比重均接近7成,实现利润超过7成半,增长速度表现更 为突出,营业收入资产总计分别上年增长22.7 % 15.7 %,增速高于规模企业集团14.414.7 百分点。美国财富杂志评选出2002年世界500家最大企业排行榜显示,中国大企业12家榜上 有名。"
[0081 ] 对预处理后的文本,做如下处理:
[0082] S210,构建句网络计算句子第一权重。
[0083] 为计算句子第一权重,将文本建模为一个句网络图,边权值即句子间的相似度,在 本实施例中,选用Jaccard系数来计算边权值。
[0084] 在首次迭代中,对句网络中每个句子随机赋权重初值,之后句子每轮迭代的权重 初值都由上一轮迭代得出。根据S120下的公式计算出每个句子的第一权重,其中阻尼系数d 取0.85。
[0085] 对文本1中每个句子编号,编号对应句子的第一轮迭代中的第一权重如下:
[0086]
[0087] S220,进行句词增强计算。
[0088] 对文本中的所有不重复的词进行编号,根据S130下的公式计算每个词的权重。以 词"减少"为例,该词出现在编号为4、16、28、33的句子中,且都只出现一次,计算该词的词权 重为:(1*0.986+1*1.266+1*1.045+1*1.11 )/4 = 1.102,则经过句词增强,词"减少"的词权 重为1.102。由于词数量较多,故选取编号部分词的某一轮权重展示如下:
[0089]
[0090] S230,进行词句增强计算。
[0091] 根据S140下的公式计算每个句子的第二权重,以编号为12的句子为例,句中包含 "中国"、"企业"、"集团"、"各项"、"改革"、"进一步"和"深化" 7个词,它们的词权重分别为: 1.18、1.154、1.137、1.663、1·663、0· 934、1.663,计算该句子的第二权重:(1*1.18+1*1.154 + 1*1 · 137+1*1.663+1*1.663+1*1.663+1*0.934+1*1.663)/7 = 1 · 11,则经过词句增强计算 的编号为12的句子的第二权重为1.11。最后得到的各句子的第二权重如下:
[0092]
[0093]
[0094] S240,进行句句增强计算。
[0095]根据S150下的公式对本轮迭代过程中的句子的第一权重和第二权重进行线性加 权,其中调节因子α取0.5,以编号为12的句子为例,第一权重为1.142,第二权重为1.11,计 算句子最终权重为:〇. 5*1.142+0.5*1.11 = 1.126,则编号为12的句子在该轮迭代的最终权 重为1.126。
[0096] 文本中所有句子在该轮迭代后的句子最终权重如下:
[0097]
[0098] S250,重复步骤S210-S240,生成自动摘要。
[0099]收敛阈值ε取0.0001。在经过41次迭代后,句子的最终权重与第40轮迭代后的句子 的最终权重,以及在经过41次迭代后,词的词权重与第40轮迭代后的词的词权重差值均小 于0.0001,因此算法结束,所获句子的41次迭代后的最终权重列表如下所示:
[0100]
[0101] 对句子最终权重进行排序,假设摘要的字数限制为150,则根据最终权重的排序, 编号为2、3、4、5、6、7、8、10、11、12、16的句子用来生成摘要。根据这些句子在原文中的顺序, 生成的摘要如下:
[0102]
[0103] 本发明的算法共抽取出11个句子,产生的句子所构成的摘要较为流畅,能够涵盖 文本主要内容,质量较高。
[0104] 相应的,本发明提供一种自动摘要生成装置,如图3所示,其为本发明实施例二提 供的自动摘要生成装置结构示意图。该装置包括:生成单元310,计算单元320,比较单元 330〇
[0105]生成单元310,用于对文本进行建模,生成句网络图,所述句网络图包括边权值;
[0106] 计算单元320,用于根据所述边权值、所述文本中各句子的初始权重,计算所述文 本中各句子的第一权重;
[0107] 所述计算单元320还用于,根据词在所述各句子中的频率、所述词对应的句子的第 一权重,计算出所述词的词权重;
[0108] 所述计算单元320还用于,根据各所述词在所述各句子中的频率、以及各所述词的 词权重,计算各所述句子的第二权重;
[0109] 所述计算单元320还用于,根据所述第一权重和所述第二权重,计算所述各句子的 最终权重;
[0110] 比较单元330,比较第N次迭代后的最终权重和第N-1次迭代后的最终权重差值是 否小于预设阈值以及第N次迭代后的词权重和第N-1次迭代后的词权重差值是否小于预设 阈值;
[0111] 如果第N次迭代后的最终权重和第N-1次迭代后的最终权重差值不小于预设阈值 以及第N次迭代后的词权重和第N-1次迭代后的词权重差值不小于预设阈值,将所述第N次 迭代后的最终权重作为第N+1次迭代的初始权重;
[0112] 如果第N次迭代后的最终权重和第N-1次迭代后的最终权重差值小于预设阈值以 及第N次迭代后的词权重和第N-1次迭代后的词权重差值小于预设阈值,生成自动摘要。 [0 113] 优选地,所述计算单元310具体用于,
[0114] 利用公另
计算所述文本中各句子的第 一权重;
[0115] 其中,W(Sj)为第j个句子的第一权重,W(Si)为第i个句子的第一权重,d为阻尼系 数,Link(Sj)为与句子Sj相连接的句子集合, Wij为句子Si和句子Sj之间的边权值。
[0116] 优选地,所述计算单元310具体用于,利用公式
计算所述 词的词权重;
[0117] 其中,WS(Wi)为第i个词的词权重,W(Sj)为第j个句子的第一权重,nji为第i个词在 第j个句子中的频率。
[0118] 优选地,所述计算单元310具体用于,利用公式
f算各所 述句子的第二权重;
[0119] 其中,WW(Sj)为第j个句子的第二权重,WS(Wi)为第i个词的词权重,nji为第i个词 在第j个句子中的频率。
[0120]优选地,所述计算单元310具体用于,利用公式WlSjzaWUJ + a-cOWWUJ计算 所述各句子的最终权重;
[01
当前第3页1 2 3 4 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1