基于类标关系的短文本扩充方法
【技术领域】
[0001] 本发明属于计算机文本处理技术领域,涉及基于特征扩展的短文本扩充技术。
【背景技术】
[0002] 随着互联网的飞速发展,大量的电子文本信息应运而生。其中,人们通过访问网络 论坛、问答平台和社交网站产生了大量的短文本信息。短文本是指内容较少、文本短小、特 征不明显的文本。短文本虽然篇幅短小,却能真实反映出用户在使用互联网的过程中发生 的行为,通过对短文本进行分类,运营商能更有效地分析网络服务中产生的短文本,以便发 现用户的兴趣并为用户提供推荐性的服务。因此短文本进行分类问题是当下的一个热点问 题。短文本分类方法中大部分是从研宄提高短文本的特征表示方法入手,即通过短文本特 征的扩充、选择等方式让相似的短文本产生更多公共特征。除此之外,还有的研宄工作试图 借助其他辅助资源,通过短文本与辅助资源之间的"词共现"关系,在不改变短文本自身的 特征表示的同时找到短文本之间的联系。对短文本进行扩充是当下短文本分类问题的瓶颈 所在。
[0003] 本专利解决的问题就是如何有效的为短文本的稀疏特征矩阵进行扩充。目前,短 文本的扩充方法主要包括两大类:根据短文本自身包含的知识进行特征扩充,和基于外部 知识的短文本特征扩充。其中,采用短文本自身挖掘出的知识进行特征扩充的方法是指,先 用层次聚类方法对短文本进行话题聚类,再将每个短文本与这些话题聚类的相似关系作为 特征扩充到原始短文本的词频矩阵中[1];另外还有的方法借助分布表示[2],将短文本中 的词语利用文本集合里的上下文进行表示,利用上下文信息丰富短文本[3]。这类方法的分 类精度虽然有一定的提升,但是只利用短文本自身特点进行特征扩充是有局限性的。
[0004] 基于外部知识的短文本扩充按照外部知识来源的不同,主要分为两种:基于搜索 引擎的特征扩充方法和基于外部语料信息的特征扩充方法。基于搜索引擎的扩充方法主要 利用搜索引擎的便捷性及其具备的丰富知识为短文本进行扩充,通常采用的方法是:把搜 索词放到搜索引擎中进行查询,将返回结果作为搜索词的扩充内容[4]。这种利用搜索引擎 进行扩充的思路在手机应用领域也具有重要的利用价值[5]。这种方法虽然能对原始短文 本进行有效扩充,却具有一定的局限性,尤其是当搜索引擎接受的输入关键词较长时,这种 扩充方法的扩充效果比较差。另外,这种方法依赖网络环境,不适用于那些对实时性要求较 高的短文本分类任务。
[0005] 基于外部语料信息的特征扩充的主要思路是在进行扩充之前根据需要进行分类 的具体内容和文本的内容人工收集一些相关的长文本数据,然后通过对原始短文本数据进 行主题语义的分析找到短文本与外部预料信息之间的联系进行扩充。这种方法可以一定程 度上地解决基于搜索引擎的扩充方法的弊端。这类方法大部分的外部信息都来自维基百科 (Wikipedia),采用的文本分析方式大多为主题模型。目前,这种方法被广泛应用到短文本 分类问题中[6]。然而这种扩充方式存在两个主要问题:外部数据集的知识覆盖是有限的; 用外部数据集的词语作为原有文本特征的扩充内容可能带来信息丢失或引入噪音。
[0006] 参考文献
[0007] [l]DaiZ,SunA,LiuXY.Crest:Cluster-basedRepresentationEnrichment forShortTextClassification[M]//AdvancesinKnowledgeDiscoveryandData Mining.SpringerBerlinHeidelberg, 2013:256-267.
[0008] [2]Lave11iA,SebastianiF,ZanoliR.Distributionalterm representations:anexperimentalcomparison[C]//Proceedingsofthethirteenth ACMinternationalconferenceonInformationandknowledgemanagement. ACM,2004:615-624.
[0009] [3]CabreraJM,EscalanteHJ,Montes-y-GomezM.Distributionalterm representationsforshort-textcategorization[M]//ComputationalLinguistics andIntelligentTextProcessing.SpringerBerlinHeidelberg, 2013:335-346.
[0010] [4]ShenD,PanR,SunJT,etal.Queryenrichmentforweb-query classification[J].ACMTransactionsonInformationSystems(TO IS), 2006, 24(3) :320-352.
[0011] [5]ZhuH,CaoH,ChenE,etal.Exploitingenrichedcontextualinformation formobileappclassification[C]//Proceedingsofthe21stACMinternational conferenceonInformationandknowledgemanagement.ACM, 2012:1617-1621.
[0012] [6]PhanXH,NguyenLM,HoriguchiS.Learningtoclassifyshortand sparsetext&webwithhiddentopicsfromlarge-scaledatacollections[C]// Proceedingsofthel7thinternationalconferenceonWorldWideWeb. ACM,2008:91-100.
【发明内容】
[0013] 本发明旨在至少解决上述技术问题之一。
[0014] 为此,本发明的一个目的在于提出解决传统的基于外部语料信息的特征扩充方法 可能为原始数据引入噪音的问题。
[0015] 目前,短文本在即时通讯软件、网络论坛、微博、搜索引擎上的广泛应用,使得对短 文本进行有效的分析显得尤为重要。常用的文本分析方法大部分都是基于向量空间模型将 文本转化为矩阵的形式,但由于短文本长度较短,短文本中的每个文本向量中很多取值都 为〇,因此短文本集的词频矩阵稀疏性较大,普通文本的分析方法在短文本上不奏效。另外, 由于短文本长度较短,出现在短文本中的每一个词都对短文本的语义信息产生重大影响, 因此短文本的分类方法的分类效果受噪音影响很大。为了解决短文本稀疏性问题,人们提 出了基于特征扩充的短文本扩充方法,而在众多扩充方法之中,最常用的扩充方法为基于 外部语料信息的特征扩充方法。
[0016] 传统的基于外部语料信息的特征扩充方法面临的主要问题是用外部数据集的词 语作为原有文本特征的扩充内容可能带来信息丢失或引入噪音。举例来说,当原始短文本 集的主题为政治和体育两个方面时,按照传统的基于外部语料信息的特征扩充方法,利用 维基百科中的数据信息(其中包含了政治、体育、娱乐、学术、生活等多个方面的主题)为原 始短文本集进行扩充,很可能会扩充一部分与政治和体育关系不大的特征,从而为原始数 据引入噪音。
[0017] 为了解决传统的基于外部语料信息的特征扩充方法可能为原始数据引入噪音的 问题,本发明提出了一种新的短文本扩充方法,这种方法能引入短文本训练数据集中的类 标关系,并基于类标关系从外部预料信息中有选择的筛选和短文本最相关的辅助数据集, 从而采用特征扩充的方法将辅助数据集中的信息以特征的形式扩充到原始短文本中。这种 方法是在传统的基于外部语料信息的特征扩充方法基础上,为了避