一种改良的文本分类特征选择方法

文档序号:10534837阅读:339来源:国知局
一种改良的文本分类特征选择方法
【专利摘要】本发明公开了一种改良的文本分类特征选择方法,其中,所述一种改良的文本分类特征选择方法包括:获取训练集文本;对获取的训练集文本分词、去除停用词;改良特征选择方法,使用特征词的文本频率对全体词集进行划分,使用信息增益值对低频词集进行特征选择,再通过改进的χ2统计法对高频词集进行特征选择;合并两部分特征词形成最终分类特征词集。采用本发明,可以通过两次特征选择过程,选择出更具类别代表性的特征词,提高分类效率和准确度。
【专利说明】
一种改良的文本分类特征选择方法
技术领域
[0001] 本发明属于文本挖掘技术领域,特别涉及一种改良的文本分类特征选择方法。
【背景技术】
[0002] 随着信息技术的发展,当今世界的信息量也在以惊人的速度不断增加。如何在较 短的时间内迅速、有效地处理数量庞大的文本文档,已经成为当前研究的热点。传统的信息 检索技术已经不能够满足人们日益增加的需求,此时,文本分类技术应运而生,文本分类技 术能够很大程度上解决文本文档信息量大并且杂乱的问题,帮助人们检索、查询、过滤文档 信息,提高信息的可用效率,同时,文本分类也是文本挖掘的重要手段。
[0003] 文本分类即在给定分类体系的前提下,根据分类体系中相应的分类规则,将待分 类文本分配到预定义的某个类别中。文本分类的过程实际上是对输入文本内容模式特征的 识别与归类的过程。文本分类的整个过程可以分为文本预处理、特征选择、特征值计算、构 造分类器、待分类文本的处理及归类这五个主要部分,其具体流程图见图1。
[0004] 经过文本预处理之后,用于表示文本的特征向量的维数往往非常庞大,里面可能 含有很多对文本分类无贡献的噪音词,导致分类效率降低,影响分类效果。特征选择能够通 过一定的方法保留对文本分类有一定贡献的词汇,降低文本向量空间的维数,提高分类器 的分类效率和分类精度。在中文文本分类中,常用的特征选择方法主要有以下几种:
[0005] (1)文档频率法(Document Frequency,DF),是指在训练预料中出现该特征的文档 数,其基本思想为文档频率较高的词在文本集中出现的次数较多,有可能携带较多的类别 信息。但是采用DF的方法进行特征的选择会漏掉低频高信息量的词。
[0006] (2)信息增益法(Information Gain,IG),定义为某一特征在文档中出现前后的信 息熵之差,基本思想为通过计算某个词能为整个分类提供多少信息量来衡量它对于分类的 重要程度,其中信息量的多少用熵来衡量。IG算法能够解决DF算法中出现的漏掉低频高信 息量的词的问题,但是此算法可能导致特征词集稀疏。
[0007] (3) x 2统计法(Chi-square,CHI),基本思想为某个词关于类j的x 2统计值越大, 说明该词在类j中的分布情况与该词在总文档中的分布情况越不一致,该词携带的类别信 息也就越多。CHI算法考虑了特征词对某一个分类的影响。但是如果出现特征词均匀的影 响全部分类时,则无法取得很好的分类效果。
[0008] (4)互信息法(Mutual Information,MI),其基本思想与CHI算法类似,互信息值 的大小表征的是文档与类的相关程度。此法在试验环境下性能表现不稳定。
[0009] 由上可见,有必要设计一种更有效的特征选择方法,以克服各特征选择算法的不 足,选出更具类别代表性的特征词,进而提高文本分类的准确率和召回率。

【发明内容】

[0010] 为解决现有文本分类特征选择方法准确度差,特征性不强等不足,本发明提出了 一种基于改良特征选择的文本分类方法。所述方案包括以下步骤:
[0011] 步骤1:获取不同类别的一定数量文本,将其赋予类别标签,作为文本分类的训练 样本集;
[0012] 步骤2 :对训练集的文本进行预处理,包括中文分词,去停用词处理;
[0013] 步骤3 :使用改良的特征选择方法对文本进行特征选择。其特征在于,所述方法包 括:
[0014] 结合特征词的文档频率(DF)对全体词集进行划分,具体为:将预处理后各词按照 文档频率进行排序,将词集T划分成两个集合:一个是文档频率小于某阈值的词集TA,一个 是文档频率大于或等于某阈值的词集T b。
[0015] 使用信息增益法(IG)对低文档频率词集1\进行特征词选择,具体为:设定一个信 息增益值阈值M,计算词集T A中各词的信息增益值,将信息增益值小于M的词删掉,信息增 益值大于等于M的词作为特征词保留。
[0016] 使用改进的x 2统计法对高文档频率词集T 8进行特征词选择,具体为:计算T 8中 每个词对于各类别CHI统计值的方差;,其中
,n为类别 个数。计算得出的方差可以表征该词在全部类中分布的不平衡性,方差值越大,分布不平衡 性越强,则该词的分类表征能力越强,携带的分类信息越大。
[0017] 按照计算得出的各个词的CHI统计值方差从高到低的顺序对词进行排序,得到词 方差降序队列。
[0018] 整合两部分特征词,形成文本分类特征词集,具体为:指定特征词总个数,优先选 取低文档频率词集T A中的特征词,根据选取T A后仍需要选取的特征词个数,对应在T B的词 方差降序队列中选取相应个数的词,与TA中的特征词共同构成分类特征词集合。
[0019] 本发明所提供的技术方案的有益效果是:
[0020] 通过DF对全词集进行划分,在低文档频率词集中,利用IG选择出出现频率虽低, 但是带有大量信息量的词,从而同时克服单纯使用IG导致特征词集稀疏以及DF容易丢失 低频关键词的缺点;选择对每个词的各类的CHI统计值求方差的方式,来反映词对于不同 类之间分布情况的"波动程度",即反映词与类关联度的特异性,并在高文档频率词集中按 此方差值进行筛选,以进一步在高文档频率词集中选出更具代表性的特征词,最后合并两 部分特征词,得到更具表征性的特征词集,在避免维度灾难的同时,也可以有效的提升分类 的准确性。
【附图说明】
[0021] 图1是中文文本分类的一般流程。
[0022] 图2是本发明改良后的特征选择过程的示意图。
【具体实施方式】
[0023] 为使本发明之目的、技术方案和优点阐述更加清晰,下面将结合附图与实际用例, 对本发明做进一步的详细描述。
[0024] 利用网络爬虫或人工收集从互联网上获取一定数量的多个领域中有代表性的文 章,对这些文章进行分析整理,按照类别归入语料训练集,作为文本分类系统的训练样本 集。
[0025] 为了从文本中抽取出能够代表该文本特征的词语,对其进行分词、去除停用词等 处理。
[0026] 假设训练集E中含有n个类别:心C2, C3,. . . Cn,每个类别里含有若干个文本,训练 集可表示为:
[0027] {E | | dn,d12,d13,…},{C21 d21,d22,d23,…},…,{Cn | dnl,dn2,dn3,…}}
[0028] 那么进行了文本预处理之后,训练集变成了:
[0029] {E | | tn,t12,t13,…},{C211 21,t22,t23,…},…,{Cn | tnl,tn2,tn3,…}
[0030] 其中的 bQ = 1,2,…,n ;j = 1,2,…)表示文本 Ui = 1,2,…,n ;j = 1, 2,…)经过分词和去停用词之后留下的词的集合。
[0031] 图2为本发明所述的改良后特征选择过程的示意图,本发明所述的一种改良的特 征选择方法具体如下:
[0032] 步骤1 :根据词的文档频率对词集进行划分。
[0033] 令词集T = U b (i = 1,2,. . . n,j = 1,2,...),则T中某个词t的文档频率计算 公式如下:
[0034] 乃尸(,)=文2池4);(4 e £) J=\
[0035] 其中E为训练集中的所有文本,&为训练集中第i类第j个文本,p (t,d d为词 t和第i类中第j个文本共同出现的概率。
[0036] 设定文档频率阈值为K,则可将词集T划分成两个集合:一个是文档频率小于K的 词集T a,一个是文档频率大于或等于K的词集Tb。
[0037] 步骤2 :依据信息增益值,对低文档频率词集TA进行特征词选择。
[0038] 词集1\中某个词t的信息增益值的计算公式如下:
[0039] IG{t) = ) log2 p(C,)+pit^piC, 11) log2 p(C, 10+p(〇2p(Q I 〇 l〇g2 P(Q 10 1=1 i=l /=1
[0040] 其中P (Ci)表示文本属于类别Ci (j = 1,2, ? ? ?,n)的概率,P (t)表示包含词t的 文本出现的概率,表示不包含词t的文本出现的概率,p (Ci 11)表示文本中包含词t时 属于类别(^的概率,p(C,. P)表示文本中不包含词t时属于类别(^的概率,n表示文本类别 总数。
[0041] 计算词集TA中各词的信息增益值,将信息增益值小于预设阈值M的词过滤掉,信 息增益值大于等于预设阈值M的词予以保留。
[0042] 步骤3 :基于改进的x 2统计法对词集T B进行进一步的选择。
[0043] 具体包括如下三个步骤:
[0044] 步骤(1),假设:词fat TB)与不同类别的文本之间符合一阶自由度的x 2分布, 计算该词的CHI统计值,计算方法为:
[0046] 其中N为训练集中E的文本数量。
[0047] 步骤(2),计算该词各类别CHI统计值的方差-f)2,将计算得出的方差作 (=1 为该词在类中的分布情况与该词在其他类中的分布情况不一致的剧烈程度的一种衡量,其 中
,方差越大,说明该词在各类的分布情况差异性越强,越有可能携 带大量的分类信息。
[0048] 步骤(3),按照计算得出的各个词的CHI统计值方差从高到低的顺序对词进行排 序,得到词方差降序队列。
[0049] 步骤4 :整合两部分特征词,形成文本分类特征词集。
[0050] 指定特征词总个数,优先选取低文档频率词集TA中的特征词,根据选取T A后仍需 要选取的特征词个数,对应在高文档频率词集TB的词方差降序队列中选取相应个数的特征 词,与1\中选取的特征词共同构成分类特征词集合。
[0051] 以下以上述过程确定参数为标准,对应用实例进行说明。
[0052] 实施例1
[0053] 步骤1 :利用网络爬虫或人工收集从互联网上获取一定数量的多个领域中有代表 性的文章,对这些文章进行分析整理,按照类别归入语料训练集,作为文本分类系统的训练 样本集。
[0054] 将获取的文本进行分词,并去除停用词。
[0055] 假设训练集E中含有3个类别:(;,C2, C3,训练集可表示为:
[0056] {E | | dn,d12,d13,…},{C21 d21,d22,d23,…},{C31 d31,d32,d33,…}
[0057] 那么进行了文本预处理之后,训练集变成了:
[0058] {E | | tn,t12,t13,…},{C211 21,t22,t23,…},{C31131,t 32,t33,…}
[0059] 其中的表示文本Ui = l,2,3;j = 1,2,...)经过分词和去停用词之后留下 的词的集合。
[0060] 步骤2 :假设预处理后每个类别中只有三个词,类Q中有词w n,w12, w13,类(:2中有 词w21,w22, w23,类C3中有词w 31,w32, w33。下表以阈值为参考值显示各词DF和IG的大小,其 中各词的DF值与阈值K的大小关系如表一所不,各词的IG值与阈值M的大小关系如表二 所示:
[0061] 表 1
[0062]
[0063] 表 2
[0064]
[0065] 将预处理后的各词按照文档频率进行排序,将词集划分成两个集合:一个是文档 频率小于某阈值K的词集T A (w13, w21,w22, w33),一个是文档频率大于或等于K的词集TB (wn, W12, W23, W31,W32);
[0066] 步骤3,计算词集1\中各词的信息增益值,将信息增益值小于阈值M的词删除,信 息增益值大于等于M的词保留,得到词集T' A(w21,w22);
[0067] 步骤4 :基于改进的x 2统计法对词集T B进行进一步的特征词选择:
[0068] 步骤⑴,计算词集TB (wn,w12, w23, w31,w32)中每个词的CHI统计值,以词w12为例, 计算后它的各类的CHI值分别为:
[0072] 其中N为训练集中E的文本数量。
[0073] 步骤(2),计算每个词各类别CHI统计值的方差。仍以词w12为例,其CHI统计值
的方差=土(4,、-丫2)2 ,其中 。将计算得出的方差作为该 j=i 词在类中的分布情况与该词在其他类中的分布情况不一致的剧烈程度的一种衡量,得到五 个词的(^1统计值方差分别为<7?1,,<7~2, 〇^23,〇!'?31,<:^ 32。
[0074] 步骤(3),按照计算得出的各个词的CHI统计值方差从高到低的顺序对词进行排 序,得到词方差降序队列。
[0075] 设方差从高到低排列顺序为>~12 >心 3, >心32,则基于改进的x2统 计法进一步选择后,词集^排列顺序为(w n,w12, w23, w31,w32)。
[0076] 步骤5 :整合步骤3和步骤4得到的两部分特征词T' JP T B,形成文本分类特征 词集。
[0077] 设指定的特征词总个数为4,优先选取低频词集T' A中的特征词w21,w22,由于词 集T',中特征词个数为2,少于总个数4,所以对应在词集T B中还需选取2个特征词,由于 方差从高到低排列顺序为心,,>心,2 >心23 >心>心32,所以只需选取特征词wn,w12,最终 选取的分类特征词集合为T"(w n,w12, w21,w22)。
[0078] 本发明实施例所提供的技术方案,能够选择出更具类别代表性的特征词,在平衡 召回率和准确率的同时,提高文本分类的速度与精度。
[0079] 通过以上实施方式的描述,本领域的技术人员可以清楚本发明的实现方式,本发 明可以通过软件编程实现,相应的软件程序可存储于可读取的存储介质中,如光盘、硬盘、 移动存储介质等。
[0080] 以上为本发明的具体实施例,但并不用以限制本发明,对于本技术领域的普通技 术人员来说,凡在不脱离本发明原理的前提下,所做的任何修改、等同替换、改进等,均应包 含在本发明的保护发明范围之内。
【主权项】
1. 一种改良的分类文本特征选择方法,其特征在于,具体包括以下步骤: 步骤1 :获取不同类别的一定数量文本,将其赋予类别标签,作为文本分类的训练样本 集; 步骤2 :对训练集的文本进行预处理,包括中文分词,去停用词处理; 步骤3 :使用改良的特征选择方法对文本进行特征选择。2. 如权利要求1所述的一种基于改良特征选择的文本分类方法,其特征在于,步骤3所 述的使用改良的特征选择方法对文本进行特征选择的方法,具体包括以下步骤:: 步骤1 :结合特征词的文本频率(Document Frequency,DF)对全体词集进行划分; 步骤2 :使用信息增益值(Information Gain,IG)对低频特征词集进行特征选择; 步骤3 :使用基于改进的X 2统计法对高频特征词集进行特征选择。 步骤4 :整合两部分特征词,形成文本分类特征词集。3. 如权利要求2所述的一种改良的特征选择方法,其特征在于,结合特征词的文本频 率对全体词集进行划分,具体为: 将预处理后各词按照文档频率进行排序,将词集T划分成两个集合:一个是文档频率 小于某阈值的词集Ta,一个是文档频率大于或等于某阈值的词集TB。4. 如权利要求2所述的一种改良的特征选择方法,其特征在于,使用信息增益值对低 频特征词集进行特征选择,具体为; 设定一个信息增益值阈值M,计算词集Ta中各词的信息增益值,将信息增益值小于M的 词删掉,信息增益值大于等于M的词作为特征词保留。5. 如权利要求2所述的一种改良的特征选择方法,其特征在于,使用基于改进的X 2统 计法对高频特征词集进行特征选择,具体为: 计算Tb中每个词对于各类别CHI统计值的方差其中η为分类个数。计算得出的方差可以表征该词在全部类中分布的 不平衡性,方差值越大,分布不平衡性越强,则该词的表征能力越强,携带的分类信息越大。 将计算得出的各个词的分布方差值从高到低的顺序对特征词进行排序,得到词分布方 差值降序队列。6. 如权利要求2所述的一种改良的特征选择方法,其特征在于,整合两部分特征词,形 成文本分类特征词集,具体为: 指定特征词总个数,优先选取低频词集Ta中的特征词,根据选取T Α后仍需要选取的特 征词个数,对应在1的词分布方差值降序队列中选取相应个数的特征词,与T Α中选取的特 征词共同构成分类特征词集合。
【文档编号】G06F17/30GK105893380SQ201410795989
【公开日】2016年8月24日
【申请日】2014年12月11日
【发明人】朱永强, 黄筱聪
【申请人】成都网安科技发展有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1