专利名称:数字图书系统中的个性化自动文摘方法
技术领域:
本发明涉及信息处理技术领域,确切地说涉及一种数字图书系统中的个性化自动文摘方法。
背景技术:
基于查询的自动文摘,即对于给定的文档,返回一个或者多个与查询相关的摘要信息,当一个文本集合建立好或者更新之后,自动将文档分为多个离散的摘要信息。现在的自动文摘处理,一种方法是根据与当前文档相关的一些文档,预先估计摘要信息长度,有了文档摘要的大概长度之后,查找与查询最匹配的指定长度的信息片段作为文章摘要。另一种方法是通过预处理,先把文档切分成一个或者多个语义信息块。语义信息块确定之后,匹配查询语句和语义信息块之间的关联度,选择与查询语句关联度最高的,并能覆盖文档主要信息的信息块作为文档摘要。然而,第一种方法中摘要信息的长度很难预先确定;而第二种方法,通过预处理之后,固定了摘要信息的始末位置,而且文档预处理之后,如果文档的主要信息出现在几个不同的分割片段中,这种情况下提取的摘要信息对文档主要信息的覆盖率较低。比如,一篇文档可以被切分为多个没有重合的片段,但这样切分会有一个潜在的问题,当最佳文档摘要需要覆盖两个相邻片段的内容时,由于预处理分离了文档片段,自动提取的摘要信息不完離
iF. ο如公开号为CN 101231634,
公开日为2008年7月30日得中国专利文献公开了一种利用图划分方法来自动提取多文档文摘的方法,包括以下步骤进行句子边界切分,把文档用切分出来的句子表示;将句子表示成向量,计算句子两两间的相似度构成句子关联矩阵,并按指定的阈值对关联矩阵进行约简,同时进行规范化处理;在多文档文摘中引入主题的隐性逻辑结构的挖掘,将文档集按主题划分成不同的隐性子主题,从而把文摘任务转化为对子主题的选取和抽取过程;利用图划分的方法,既从全局特性上保证句子所在子主题的重要度,又从局部特性上保证不同子主题之间内容的低冗余性,从而有效提高了文摘质量。但以上述专利文献为代表的现有技术,仍然存在着如下技术问题CN 101231634 专利中按照句子计算权重向量,导致摘要信息按句子分割,这种情况下提取的摘要信息对文档主要信息的覆盖率较低。
发明内容
为解决上述技术问题,本发明提出了一种数字图书系统中的个性化自动文摘方法,采用本方法,能解决上述现有技术中所存在的“提取的摘要信息对文档主要信息的覆盖率较低”的技术问题,并且,不会固定摘要信息的长度,能灵活的获得摘要信息,在提取文档摘要时,能很好的判断出文档片段和查询的相关度,提取的摘要信息抗干扰能力强,并且采用本方法所获取的文章摘要,比用传统的摘要算法获得的文章摘要的准确率高。本发明是通过采用下述技术方案实现的
一种数字图书系统中的个性化自动文摘方法,其特征在于包括如下步骤
权利要求
1.一种数字图书系统中的个性化自动文摘方法,其特征在于包括如下步骤a、输入查询信息,所述查询信息包括关键字和和用户的个性化信息;b、根据所输入的查询信息建立相关模型和不相关模型,所述相关模型是指查询语句的自然语言模型的概率分布函数,用关键字查询数字图书系统,得到最前面的5-50篇文档;所述的不相关模型是所述相关模型的补充概率分布函数,指数字图书系统中的所有文档集合;C、对需要得到摘要信息的文档中的每一个字,计算所述字在相关模型和不相关模型下产生的概率,并用相关模型下的概率减去不相关模型下得概率作为所述字和查询信息的相关度;d、将每个关键字的所述相关度保存到一个队列中,并对队列进行平滑处理;e、选取所述队列中一组连续关键字相关度相加,相关度最高的文档片段做为一条文档摘要,将这条相关度最高的文档片段放入摘要数据集合中,并在所述队列中删除这条相关度最高的文档片段;f、根据阈值大小判断是否继续寻找下条文摘;g、如果需要,继续e步骤操作,如果不需要,就返回摘要数据集合中的所有文档作为摘要信息。
2.根据权利要求1所述的数字图书系统中的个性化自动文摘方法,其特征在于 所述c步骤中,计算所述字在相关模型和不相关模型下产生的概率具体包括所述字在不相关模型下产生的概率方法为在给定关键字w和整个文档集合的情况下,文档中出现关键字“^的次数用J&表示,而整个文档集合中的数量用J 表示,不相关模型中关键字·》产生的概率为
3.根据权利要求1或2所述的数字图书系统中的个性化自动文摘方法,其特征在于 所述d步骤中,对队列进行平滑处理具体是指计算需要得到摘要信息的文档中的每一个字与查询信息的相关度,每个相关度和前后十个字的相关度比较过高或者过低,则认为当前字处于波动较大的情况,在运算前将其去掉。
4.根据权利要求3所述的数字图书系统中的个性化自动文摘方法,其特征在于所述f步骤中,根据阈值大小判断是否继续寻找下条文摘具体是指预先设定阈值的值,之前取出来的摘要片段的相关度总和除以当前取出来的摘要片段的相关度总和小于所述设定的阈值,则保留当前文摘信息,并重复e步骤;如大于所述设定的阈值,则丢弃当前的文摘信息, 并结束文摘提取算法,返回摘要数据集合中的所有文档作为摘要信息。
5.根据权利要求1所述的数字图书系统中的个性化自动文摘方法,其特征在于所述 c步骤中,用相关模型下的概率减去不相关模型下得概率作为所述字和查询信息的相关度, 相关度的分布在[-1,1]之间。
6.根据权利要求1所述的数字图书系统中的个性化自动文摘方法,其特征在于所述的a步骤中,用户的个性化信息是指用户的历史浏览数据或用户在数字图书系统中曾经使用的个人偏好信息。
全文摘要
本发明公开了一种数字图书系统中的个性化自动文摘方法,涉及信息处理技术领域,包括a、输入查询信息;b、根据所输入的查询信息建立相关模型和不相关模型;c、对需要得到摘要信息的文档中的每一个字,计算所述字在相关模型和不相关模型下产生的概率;d、将每个关键字的所述相关度保存到一个队列中;e、选取所述队列中一组连续关键字相关度相加,相关度最高的文档片段做为一条文档摘要;f、根据阈值大小判断是否继续寻找下条文摘;g、如果需要,继续e步骤操作,如果不需要,就返回摘要数据集合中的所有文档作为摘要信息。本方法比用传统的摘要算法获得的文章摘要的准确率高。并且,在模拟真实数据情况时,本方法具有很强的抗干扰能力。
文档编号G06F17/30GK102222119SQ201110213750
公开日2011年10月19日 申请日期2011年7月28日 优先权日2011年7月28日
发明者刘家芬, 张晨, 李庆, 罗旭斌, 胡川 申请人:成都希创掌中科技有限公司