词典降维方法及装置、信息分类方法及装置的制造方法
【技术领域】
[0001]本发明涉及信息处理技术领域,特别是涉及一种词典降维方法及装置、信息分类方法及装置。
【背景技术】
[0002]目前,在自然语言处理过程中,经常需要先将文本分配到对应的处理模块中,提高执行的效率。如文本描述内容分类、文本情感分类、广告类别、垃圾邮件过滤系统中分类。在这些分类处理中需要构建词典,用于对文本内容进行向量化。由于并不是每一个出现过的词对于分类都能够产生影响,因此需要尽可能使得产生的词典越小越好,从而有效的降低计算的复杂度。
[0003]在现有技术中,基于SVD、LDA、PCA的降维方法都是基于矩阵分解来实现降维效果的,其准确率较高,但是由于大矩阵分解的效率较低,所以利用上述方法降维需要耗费大量的时间,通过多次调优也很难达到最优的结果。
【发明内容】
[0004]鉴于上述问题,提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的词典降维方法及装置、信息分类方法及装置。
[0005]本发明提供一种词典降维方法,包括:
[0006]对从问答日志中获取的语料进行预处理,得到文本数据;
[0007]对文本数据进行分词处理,得到多个语料词语;
[0008]对语料词语进行过滤处理,得到包括多个关键词的词典;
[0009]根据问答日志统计语料涉及到的信息分类,计算词典中每个关键词的信息熵,将信息熵小于信息熵阈值的关键词从词典中删除,其中,信息熵表示该关键词在各信息分类中出现的概率。
[0010]本发明提供一种信息分类方法,包括:上述词典降维方法。
[0011]本发明还提供了一种词典降维装置,包括:
[0012]预处理模块,用于对从问答日志中获取的语料进行预处理,得到文本数据;
[0013]分词模块,用于对文本数据进行分词处理,得到多个语料词语;
[0014]过滤模块,用于对语料词语进行过滤处理,得到包括多个关键词的词典;
[0015]计算模块,用于根据问答日志统计语料涉及到的信息分类,计算词典中每个关键词的信息熵,将信息熵小于信息熵阈值的关键词从词典中删除,其中,信息熵表示该关键词在各信息分类中出现的概率。
[0016]本发明提供一种信息分类装置,包括:上述词典降维装置。
[0017]本发明有益效果如下:
[0018]通过利用词在不同类别中的信息熵快速过滤候选词对构建的词典进行降维,解决了现有技术中的词典降维方法需要耗费大量的时间,通过多次调优也不能达到最优结果的问题,能够快速的过滤对分类无用的词语对词典进行降,降维后的词典对于分类结果具有很好的准确率。
[0019]上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的【具体实施方式】。
【附图说明】
[0020]通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
[0021 ]图1是本发明实施例的词典降维方法的流程图;
[0022]图2是本发明实施例的词典降维方法的详细处理的流程图;
[0023]图3是本发明实施例的词典降维装置的结构示意图。
【具体实施方式】
[0024]下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
[0025]为了解决现有技术中的词典降维方法需要耗费大量的时间,通过多次调优也不能达到最优结果的问题,本发明提供了一种词典降维方法及装置以及信息分类方法及装置,以下结合附图以及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不限定本发明。
[0026]方法实施例一
[0027]根据本发明的实施例,提供了一种词典降维方法,图1是本发明实施例的词典降维方法的流程图,如图1所示,根据本发明实施例的词典降维方法包括如下处理:
[0028]步骤101,对从问答日志中获取的语料进行预处理,得到文本数据;在步骤101中,预处理包括:将语料数据的格式统一为文本格式,过滤脏词、敏感词和停用词中的一种或多种,并将过滤后的文本数据按照标点划分为多行。例如,上述标点可以是问号、叹号、分号或句号等,也就是说,可以将过滤后的文本数据按照问号、叹号、分号或句号划分为多行。
[0029]步骤102,对文本数据进行分词处理,得到多个语料词语;在步骤102中,分词处理采用字典双向最大匹配法、viterbi方法、HMM方法和CRF方法中的一种或多种。
[0030]步骤103,对语料词语进行过滤处理,得到包括多个关键词的词典;在步骤103中,过滤处理可以采用以下任一种或两种方式:
[0031 ]方式一:根据词性对语料词语进行过滤,保留名词、动词以及形容词;
[0032]方式二:根据频次对语料词语进行过滤,保留频次大于频次阈值的语料词语,其中,频次是指语料词语在语料数据中出现的频率或者次数。
[0033]本实施例中,先根据词性对语料词语进行过滤,仅保留名词、动词以及形容词,去除其它词性的语料词语;然后根据频次对保留的名词、动词以及形容词进行过滤,保留频次大于频次阈值的语料词语,从而字典中为频次大于频次阈值的名词、动词和形容词。
[0034]在本发明的其它实施例中,可以仅根据词性进行过滤,也可以仅根据频次进行过滤,还可以先根据频次进行过滤再根据词性进行过滤,其都在本发明的保护范围之内。
[0035]步骤104,根据问答日志统计语料涉及到的信息分类,计算词典中每个关键词的信息熵,将信息熵小于信息熵阈值的关键词从词典中删除,其中,信息熵表示该关键词在各信息分类中出现的概率。
[0036]优选地,根据词典的用途不同,步骤104中的信息分类可以为语料所涉及的意图类另IJ,其中,上述意图类别包括:天气、购物、工作、旅游等等;当然,意图类别仅仅是信息分类中的一种分类方式,根据词典的用户不同,信息分类也随之变化。
[0037]在信息分类可以为语料所涉及的意图类别的情况下,计算词典中关键词的信息熵包括:计算词典中每个关键词在每个意图类别中出现的概率。
[0038]信息熵的计算公式为:H(X)=-Xp(Xi)logp(xi),其中,H(X)表示关键词的信息熵,P(X1)表示关键词在第i个意图类别中出现的概率,i = l,2,…,n,n为意图类别的个数。
[0039]以下结合附图,对本发明实施例的上述技术方案进行详细说明。
[0040]在本实例中,通过关键词在不同意图类别中的信息熵快速的过滤对分类无用的关键词从而对词典进行降维,具体包括如下处理:
[0041]步骤I,将获取的语料数据的格式统一为文本格式,得到文本数据,并过滤无效的格式,去除脏词、敏感词和停用词等词;对处理后的语料按大标点(问号、叹号、分号以及句号)分割成行保存。
[0042]步骤2,利用分词引擎对文本数据进行分词处理,得到多个语料词语,可以采用字典双向最大匹配法、viterbi方法、HMM方法和CRF方法等进行分词。
[0043]步骤3,对所述语料词语进行过滤处理,得到包括多个关键词的词典,并对构建的词典进行降维处理,图2是本发明实施例的词典降维方法的详细处理的流程图,如图2所示,步骤3具体包括如下处理:
[0044]步骤201,根据词性对语料词语进行过滤,保留名词、动词以及形容词