文本分析方法及装置制造方法
【专利摘要】本发明公开了一种文本分析方法及装置,属于信息检索领域。所述方法包括:获得目标文本的一种或者多种特征信息;对所述目标文本的每种特征信息分别计算量化得分;对所述目标文本的每种特征信息的量化得分与各自对应的权重相乘后进行累计获得所述目标文本的总得分。本发明通过对目标文本的各种特征信息分别计算量化得分,以及根据各自对应的权重来累计各个量化得分以得到最终得分,并且可在应用场景下自适应修正特征权重及特征项自适应扩展的效果,解决了现有技术中没有合适的方法对论坛中的帖子进行质量分析的问题,达到了可以对论坛帖子类文本的文本质量进行准确分析的效果。
【专利说明】文本分析方法及装置
【技术领域】
[0001]本发明涉及信息检索领域,特别涉及一种文本分析方法及装置。
【背景技术】
[0002]文本分析广泛应用于信息检索、数据挖掘、机器学习和统计以及计算语言学等领域。
[0003]现有的文本分析方法主要包括有语言概率模型分析方法、PageRank (页面等级)分析方法和分类分析方法等。其中,语言概率模型分析方法主要利用基于语料库的语言模型来分析文本中的句子是否为自然生成,而非人为的篡改,比如人为的堆砌关键词来恶意获得较高排名;PageRank分析方法主要利用网页的入链和出链信息来计算页面的有效性,从而实现对网页的排名以作为检索结果等用途;分类分析方法则用于对文本内容进行分类标记,主要用来做文本类别方面的相关推荐或计算。
[0004]在实现本发明的过程中,发明人发现现有技术至少存在以下问题:网络论坛中的帖子作为一类型特殊的文本,采用上述几种分析方法无法取得较好的质量分析效果。具体地讲,首先,论坛中的帖子都是版主维护,大部分都是行文流畅的自然语言,采用语言概率模型分析方法来分析行文的流畅基本毫无意义;其次,论坛中的帖子更新快,时新性强,入链出链信息都没有,无法采用PageRank类分析方法来获得帖子的特征;再者,论坛中通常原生划分有各个不同主题的版本,也无需专门进行分类。
【发明内容】
[0005]为了解决现有技术中没有合适的方法对论坛中的帖子进行质量分析的问题,本发明实施例提供了一种文本分析方法及装置。所述技术方案如下:
[0006]一个方面,提供了一种文本分析方法,所述方法包括:
[0007]获得目标文本的一种或者多种特征信息;
[0008]对所述目标文本的每种特征信息分别计算量化得分;
[0009]对所述目标文本的每种特征信息的量化得分与各自对应的权重相乘后进行累计获得所述目标文本的总得分。
[0010]另一方面,提供了一种文本分析装置,所述装置包括:
[0011]信息获取模块,用于获得目标文本的一种或者多种特征信息;
[0012]得分计算模块,用于对所述目标文本的每种特征信息分别计算量化得分;
[0013]权重累计模块,用于对所述目标文本的每种特征信息的量化得分与各自对应的权重相乘后进行累计获得所述目标文本的总得分。
[0014]本发明实施例提供的技术方案带来的有益效果是:
[0015]通过对目标文本的各种特征信息分别计算量化得分,以及根据各自对应的权重来累计各个量化得分以得到最终得分,解决了现有技术中没有合适的方法对论坛中的帖子进行质量分析的问题,达到了可以对论坛帖子类文本的文本质量进行准确分析的效果。【专利附图】
【附图说明】
[0016]为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0017]图1是本发明实施例一提供的文本分析方法的方法流程图;
[0018]图2是本发明实施例二提供的文本分析方法的方法流程图;
[0019]图3是本发明实施例三提供的文本分析装置的结构示意图;
[0020]图4是本发明实施例四提供的文本分析装置的结构示意图;
[0021]图5是本发明实施例四提供的得分计算模块的结构方框图;
[0022]图6是本发明实施例四提供的权重修正模块的结构方框图;
[0023]图7是本发明实施例四提供的期望输出计算单元的结构方框图。
【具体实施方式】
[0024]为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施方式作进一步地详细描述。
[0025]实施例一
[0026]请参考图1,其示出了本发明实施例一提供的文本分析方法的方法流程图。本实施例主要以该文本分析方法应用于对论坛中的帖子进行质量分析来举例说明。该文本分析方法,包括:
[0027]步骤101,获得目标文本的一种或者多种特征信息;
[0028]目标文本可以是论坛中的帖子,目标文本的特征信息包括标题字数、标题中关键词字数与标题字数的比例、标题中类别兴趣词汇的数量、标题中热点词汇的数量、标题中是否包含广告词、正文字数、正文中标点数与正文字数的比例、正文中连接词数与句子数的比例、正文词汇信息熵、正文独立词性数、正文词性信息熵、正文段落数、正文图文混排性、帖子时新性、帖子回复数、帖子回复趋势、帖子浏览数、正文是否为主贴、帖子精华等级、帖子作者等级和帖子版块等级中的一种或者几种;
[0029]步骤102,对目标文本的每种特征信息分别计算量化得分;
[0030]步骤103,对目标文本的每种特征信息的量化得分与各自对应的权重相乘后进行累计获得目标文本的总得分。
[0031]综上所述,本实施例提供的文本分析方法,通过对目标文本的各种特征信息分别计算量化得分,以及根据各自对应的权重来累计各个量化得分以得到最终得分,解决了现有技术中没有合适的方法对论坛中的帖子进行质量分析的问题,达到了可以对论坛帖子类文本的文本质量进行准确分析的效果。
[0032]实施例二
[0033]请参考图2,其示出了本发明实施例二提供的文本分析方法的方法流程图。本实施例主要以该文本分析方法应用于对论坛中的帖子进行质量分析来举例说明。该文本分析方法,包括:[0034]步骤201,获得目标文本的一种或者多种特征信息;
[0035]当目标文本是一个论坛中的帖子时,目标文本的特征信息可以包括标题字数、标题中关键词字数与标题字数的比例、标题中类别兴趣词汇的数量、标题中热点词汇的数量、标题中是否包含广告词、正文字数、正文中标点数与正文字数的比例、正文中连接词数与句子数的比例、正文词汇信息熵、正文独立词性数、正文词性信息熵、正文段落数、正文图文混排性、帖子时新性、帖子回复数、帖子回复趋势、帖子浏览数、正文是否为主贴、帖子精华等级、帖子作者等级和帖子版块等级中的一种或者几种。
[0036]需要说明的是,目标文本的特征信息通常都包括上述21种特征信息中的几种,包括的特征信息越多,质量分析的结果越准确。为此,可以获取目标文本的至少5种、8种、10种特征信息来进行质量分析,以保证分析质量,优选可以包括上述全部21种特征信息。当然,目标文本的特征信息也可以不局限于上述21种特征信息,还可以包括其它第22种特征信息,第23种特征信息等。
[0037]步骤202,对目标文本的每种特征信息分别计算量化得分;
[0038]由于目标文本中的每种特征信息都不相同,在计算每个特征信息的量化得分时也可以采用不同的方式。具体地讲,可以采用下述几种方式的一种或者几种的组合:
[0039]第一,若特征信息包括正文中标点数与正文字数的比例、正文中连接词数与句子数的比例、正文词汇信息熵和正文词性熵中的一种或者几种,则通过第一类型函数对正文中标点数与正文字数的比例、正文中连接词数与句子数的比例、正文词汇信息熵或正文词性熵各自计算量化得分,第一类型函数为两端衰减的函数。因为这一类特征信息,数值过大或者过小均为不合适,只有中间部分的取值符合优秀帖子的特征。
[0040]第二,若特征信息包括标题中关键词字数与标题字数的比例、标题中类别兴趣词汇的数量、标题中热点词汇的数量、帖子回复数、帖子回复趋势、帖子浏览数、帖子作者等级和帖子版块等级中的一种或者几种,则通过第二类型函数对标题中关键词字数与标题字数的比例、标题中类别兴趣词汇的数量、标题中热点词汇的数量、帖子回复数、帖子回复趋势、帖子浏览数、帖子作者等级或帖子版块等级各自计算量化得分,第二类型函数为单向递增的函数。因为这一类特征信息,数值越大越好,数值越大越有可能是优秀帖子。
[0041]第三,若特征信息包括标题字数、标题中是否包含广告词、正文字数、正文独立词性数、正文段落数和正文是否为主贴中的一种或者几种,则计算标题字数、标题中是否包含广告词、正文字数、正文独立词性数、正文段落数或正文是否为主贴的量化得分为两值量化中的第一预定值或者第二预定值。这一类特征信息的具体数值无法很直观地代表特征,所以采用二值量化方法,其中第一预定值通常为1,第二预定值通常为O。第一预定值为I时,更符合优秀帖子的特征。
[0042]第四,若特征信息包括图文混排性,则计算图文混排性的量化得分为图片与正文的间隔序列方差与图片数的乘积。此时,图片与正文的间隔越均匀,图片数越多,图文混排性的量化得分越高,越符合优秀帖子的特征。
[0043]第五,若特征信息包括帖子时新性,则根据第三类型函数对帖子存在时间进行计算来得到所述帖子时新性的量化得分,第三类型函数为单向递减的函数。也即,帖子的存在时间越长,越不符合优秀帖子的特征。
[0044]第六,若特征信息包括帖子精华等级,则根据精华等级与权重之间的预定对应关系,计算当前精华等级与对应的权重的乘积为帖子精华等级的量化得分。通常,精华等级与权重之间的预定对应关系为正相关关系,也即精华等级越高,越符合优秀帖子的特征,计算得到的量化得分也越高。
[0045]为了更好地描述上述第一至第六方式,下述以一种具体的实现方式来详细阐述。在该具体的实现方式中,设第一类型函数为:
[0046]f (χ) =exp (_d* (χ- μ )2);
[0047]其中,μ控制横移特性,d控制两端衰减特性且d不等于O ;
[0048]第二类型函数为:
[0049]
【权利要求】
1.一种文本分析方法,其特征在于,所述方法包括: 获得目标文本的一种或多种特征信息; 对所述目标文本的每种特征信息分别计算量化得分; 对所述目标文本的每种特征信息的量化得分与各自对应的权重相乘后进行累计获得所述目标文本的总得分。
2.根据权利要求1所述的文本分析方法,其特征在于,所述特征信息包括标题字数、标题中关键词字数与标题字数的比例、标题中类别兴趣词汇的数量、标题中热点词汇的数量、标题中是否包含广告词、正文字数、正文中标点数与正文字数的比例、正文中连接词数与句子数的比例、正文词汇信息熵、正文独立词性数、正文词性信息熵、正文段落数、正文图文混排性、帖子时新性、帖子回复数、帖子回复趋势、帖子浏览数、正文是否为主贴、帖子精华等级、帖子作者等级和帖子版块等级中的一种或者几种。
3.根据权利要求2所述的文本分析方法,其特征在于,所述对所述目标文本的每种特征信息分别计算量化得分,具体包括: 若所述特征信息包括所述正文中标点数与正文字数的比例、所述正文中连接词数与句子数的比例、所述正文词汇信息熵和所述正文词性熵中的一种或者几种,则通过第一类型函数对所述正文中标点数与正文字数的比例、所述正文中连接词数与句子数的比例、所述正文词汇信息熵或所述正文词性熵各自计算量化得分,所述第一类型函数为两端衰减的函数; 和/或,若所述特征信息 包括所述标题中关键词字数与标题字数的比例、所述标题中类别兴趣词汇的数量、所述标题中热点词汇的数量、所述帖子回复数、所述帖子回复趋势、所述帖子浏览数、所述帖子作者等级和所述帖子版块等级中的一种或者几种,则通过第二类型函数对所述标题中关键词字数与标题字数的比例、所述标题中类别兴趣词汇的数量、所述标题中热点词汇的数量、所述帖子回复数、所述帖子回复趋势、所述帖子浏览数、所述帖子作者等级或所述帖子版块等级各自计算量化得分,所述第二类型函数为单向递增的函数; 和/或,若所述特征信息包括所述标题字数、所述标题中是否包含广告词、所述正文字数、所述正文独立词性数、所述正文段落数和所述正文是否为主贴中的一种或者几种,则计算所述标题字数、所述标题中是否包含广告词、所述正文字数、所述正文独立词性数、所述正文段落数或所述正文是否为主贴的量化得分为两值量化中的第一预定值或者第二预定值; 和/或,若所述特征信息包括所述图文混排性,则计算所述图文混排性的量化得分为所述图片与正文的间隔序列方差与图片数的乘积; 和/或,若所述特征信息包括所述帖子时新性,则根据第三类型函数对帖子存在时间进行计算来得到所述帖子时新性的量化得分,所述第三类型函数为单向递减的函数; 和/或,若所述特征信息包括所述帖子精华等级,则根据精华等级与权重之间的预定对应关系,计算当前精华等级与对应的权重的乘积为所述帖子精华等级的量化得分。
4.根据权利要求3所述的文本分析方法,其特征在于,所述第一类型函数为:
f (x) =exp (-d* (χ- μ )2); 其中,P控制横移特性,d控制两端衰减特性且d不等于O;所述第二类型函数为:
5.根据权利要求1至4任一所述的文本分析方法,其特征在于,所述方法还包括: 根据每个目标文本的总得分生成推荐列表; 根据所述推荐列表的用户点击日志对目标文本的每种特征信息各自对应的权重进行修正。
6.根据权利要求5所述的文本分析方法,其特征在于,所述根据所述推荐列表的用户点击日志对目标文本的每种特征信息各自对应的权重进行修正,具体包括: 根据所述推荐列表的用户点击日志来计算目标文本j的期待输出Clj ; 设目标文本j的特征向量为Xj=U11, Xj,2,…,Xj,n);对应的特征权重为^(WpW2,…,O,其中,η表示第η项特征信息; 设当前输出为yt(t),t为迭代次数,迭代计算下述两个步骤:
yt(t)=f [w(t).Xj] =f [w0 (t) +W1 (t) Xj- !+W2 (t) xJ; 2+...+Wn (t) Xj- J ;
Wi (t+1) =Wi (t) + a (dj-yj (t)) xJ; i ; 直至所述
7.根据权利要求6所述的文本分析方法,其特征在于,所述根据所述推荐列表的用户点击日志来计算目标文本j的期待输出4,具体包括: 根据所述用户点击日志将所述推荐列表中最后被点击的第r个文本以及之前的所有文本设为训练集D,其中,所述训练集D中被点击的文本作为点击训练集W,所述训练集中未被点击的文本作为未点击训练集Dm; 获得所述训练集中原始文本顺序与所述总得分之间的第一对应关系; 保持所述第一对应关系中的总得分顺序不变,将所述原始文本顺序按照排序规则重新排序,获得重新排序后的文本顺序与所述总得分之间的第二对应关系,所述排序规则包括将所有被点击的文本排序在所有未被点击的文本之前,所有被点击的文本之间的前后顺序保持不变,所有未被点击的文本之间的前后顺序保持不变; 设所述目标文本j为所述点击训练集W中的一个文本,根据第二对应关系可知,所述目标文本j对应的总得分为81,0〈1〈1',且所述点击训练集1\中的最小总得分为Smin,则所述目标文本j的期望输出为:
8.一种文本分析装置,其特征在于,所述装置包括: 信息获取模块,用于获得目标文本的一种或者多种特征信息; 得分计算模块,用于对所述目标文本的每种特征信息分别计算量化得分; 权重累计模块,用于对所述目标文本的每种特征信息的量化得分与各自对应的权重相乘后进行累计获得所述目标文本的总得分。
9.根据权利要求8所述的文本分析装置,其特征在于,所述信息获取模块获取到的特征信息,包括标题字数、标题中关键词字数与标题字数的比例、标题中类别兴趣词汇的数量、标题中热点词汇的数量、标题中是否包含广告词、正文字数、正文中标点数与正文字数的比例、正文中连接词数与句子数的比例、正文词汇信息熵、正文独立词性数、正文词性信息熵、正文段落数、正文图文混排性、帖子时新性、帖子回复数、帖子回复趋势、帖子浏览数、正文是否为主贴、帖子精华等级、帖子作者等级和帖子版块等级中的一种或者几种。
10.根据权利要求9所述的文本分析装置,其特征在于,所述得分计算模块,具体包括:第一计算单元、第二计算单元、第三计算单元、第四计算单元、第五计算单元和第六计算单元中的至少一个; 所述第一计算单元,用于若所述特征信息包括所述正文中标点数与正文字数的比例、所述正文中连接词数与句子数的比例、所述正文词汇信息熵和所述正文独立词性数中的一种或者几种,则通过第一类型函数对所述正文中标点数与正文字数的比例、所述正文中连接词数与句子数的比例、所述正文词汇信息熵或所述正文独立词性数各自计算量化得分,所述第一类型函数为两端衰减的函数; 所述第二计算单元,用于 若所述特征信息包括所述标题中关键词字数与标题字数的比例、所述标题中类别兴趣词汇的数量、所述标题中热点词汇的数量、所述帖子回复数、所述帖子回复趋势、所述帖子浏览数、所述帖子作者等级和所述帖子版块等级中的一种或者几种,则通过第二类型函数对所述标题中关键词字数与标题字数的比例、所述标题中类别兴趣词汇的数量、所述标题中热点词汇的数量、所述帖子回复数、所述帖子回复趋势、所述帖子浏览数、所述帖子作者等级或所述帖子版块等级各自计算量化得分,所述第二类型函数为单向递增的函数; 所述第三计算单元,用于若所述特征信息包括所述标题字数、所述标题中是否包含广告词、所述正文字数、所述正文独立词性数、所述正文段落数和所述正文是否为主贴中的一种或者几种,则计算所述标题字数、所述标题中是否包含广告词、所述正文字数、所述正文独立词性数、所述正文段落数或所述正文是否为主贴的量化得分为两值量化中的第一预定值或者第二预定值; 所述第四计算单元,用于若所述特征信息包括所述图文混排性,则计算所述图文混排性的量化得分为所述图片与正文的间隔序列方差与图片数的乘积; 所述第五计算单元,用于若所述特征信息包括所述帖子时新性,则根据第三类型函数对帖子存在时间进行计算来得到所述帖子时新性的量化得分,所述第三类型函数为单向递减的函数; 所述第六计算单元,用于若所述特征信息包括所述帖子精华等级,则根据精华等级与权重之间的预定对应关系,计算当前精华等级与对应的权重的乘积为所述帖子精华等级的量化得分。
11.根据权利要求10所述的文本分析装置,其特征在于,所述第一类型函数为:
12.根据权利要求8至11任一所述的文本分析装置,其特征在于,所述装置还包括:列表生成模块和权重修正模块; 所述列表生成模块,用于根据每个目标文本的总得分生成推荐列表; 所述权重修正模块,用于根据所述推荐列表的用户点击日志对每种特征信息各自对应的权重进行修正。
13.根据权利要求12所述的文本分析装置,其特征在于,所述权重修正模块,具体包括: 期待输出计算单元和权重修正单元; 所述期待输出计算单元,用于根据所述推荐列表的用户点击日志来计算目标文本j的期待输出Clj ; 所述权重修正单元,用于设目标文本j的特征向量为Xj=(Xj,i,Xj,2.…,xj,n);对应的特征权重为:w=(Wi,W2,…,Wn),其中,η表示第η项特征信息; 设当前输出为yt(t),t为迭代次数,迭代计算下述两个步骤:
yt(t)=f [w(t).Xj] =f [w0 (t) +W1 (t) Xj- !+W2 (t) xJ; 2+...+Wn (t) Xj- J ;
Wi (t+1) =Wi (t) + a (dj-yj (t)) xJ; i ; 直至所述+tk, -Α',ω]小于第三预定值,或者所述迭代次数t达到第四预定值,则将初始特征权重修正为当前特征权重。
14.根据权利要求13所述的文本分析装置,其特征在于,所述期待输出计算单元,具体包括: 训练集抽取子单元、第一生成子单元、第二生成子单元和期望输出子单元; 所述训练集抽取子单元,用于根据所述用户点击日志将所述推荐列表中最后被点击的第r个文本以及之前的所有文本设为训练集D,其中,所述训练集D中被点击的文本作为点击训练集化,所述训练集中未被点击的文本作为未点击训练集Dnr; 所述第一生成子单元,用于获得所述训练集中原始文本顺序与所述总得分之间的第一对应关系; 所述第二生成子单元,用于保持所述第一对应关系中的总得分顺序不变,将所述原始文本顺序按照排序规则重新排序,获得重新排序后的文本顺序与所述总得分之间的第二对应关系,所述排序规则包括将所有被点击的文本排序在所有未被点击的文本之前,所有被点击的文本之间的前后顺序保持不变,所有未被点击的文本之间的前后顺序保持不变;所述期望输出子单元,用于设所述目标文本j为点击训练集W中的一个文本,根据第二对应关系可知,所述目标文本j对应的总得分为Si,0〈i〈r,且点击训练集^中的最小总得分为Smin,则所述目标文本j的期望输出为:
【文档编号】G06F17/30GK103699521SQ201210374329
【公开日】2014年4月2日 申请日期:2012年9月27日 优先权日:2012年9月27日
【发明者】翟俊杰, 姚从磊, 王亮, 温泉, 李亚楠 申请人:腾讯科技(深圳)有限公司