多特征融合的文本相似性度量系统的利记博彩app
【技术领域】
[0001] 本发明涉及信息技术领域中的智能信息处理技术领域,尤其涉及基于语义的文本 相似性度量方法及系统。
【背景技术】
[0002] 语义相似性是智能信息处理领域中的一项核心技术,可应用于查询扩展、词义消 歧、问答系统和信息检索等。评估语义相似性也是众多研究领域的一项重要任务,如心理 学、认知科学、人工智能等。
[0003] 监督式方法和非监督方法是语义相似性度量的两种主流方法,监督式方法需要先 验知识,如知识库系统或本体资源,如DBPedia、WordNet、HowNet等;非监督方法则主要通 过统计学习方法获取上下文信息和规律,完成语义相似性度量过程。
[0004] 基于路径的相似性度量是监督式方法中的一种经典方法,以本体结构为参照,根 据本体概念间的连接关系计算语义相似性,两个概念间的连接路径越短,则相似性越高,反 之亦然。
[0005]
【主权项】
1. 一种基于多特征融合的文本相似性度量系统,其特征在于该系统融合了基于词频、 词向量和维基百科标签多种特征对文本相似性进行度量,具体操作按下列步骤进行: a. 训练文本预处理模块:对训练文本进行预处理,分词,去停用词,去标点符号; b. 词向量模型训练模块:获取文本内词间语义特征,使用深度学习方法进行多次迭 代,通过逻辑回归的方法对文本进行训练,采用二次抽样的方法来平衡训练语料中的频繁 词汇和非频繁词汇的不对称,将训练文本集合内的每个词汇表示成为200维的特征向量, 通过度量向量之间的余弦相似度,获取词汇间的语义关联; c. 基于词频的相似性度量模块:使用基于词频的方法,计算两个文本间的相似程度; 首先获取两个输入文本的词汇并计算词频,存储到向量中,然后度量两个向量的余弦相似 度,两个向量之间的余弦相似度越高,则表示两个词汇的上下文越近似,也就表示两个词汇 在语义上的相似程度越高; d. 基于词向量的语义相似性度量模块:使用步骤b模块训练好的词向量模型,度量两 个文本间的相似性;其中包括首先对两个文本中的词汇进行基于对齐的消歧操作,具体是 根据词向量计算得到的相似性,将两个文本间相似性最高的词作为词对保存,然后计算两 个文本间所有词对间的语义相似性,并进行汇总; e. 基于维基百科标签的相似性度量模块:使用维基百科标签作为中间媒介,计算两个 文本所对应的词向量的相似性;首先计算所有维基百科标签与输入文本的相似性,并从结 果中选取相似性最高的一个子集,然后直接计算两个输入文件所对应的维基百科标签集之 间的相似性,从而获取相似性结果; f. 融合词频特征、词向量特征和维基百科标签特征的相似性度量模块:为三种融合词 频特征、词向量特征和维基百科标签特征分配权重,并将三种相似性度量结果汇总,得到两 个输入文本的最终相似性结果。
2. 根据权利要求1所述的基于多特征融合的文本相似性度量系统,其特征在于步骤 b中通过采用层次逻辑回归方法,将计算量从输入节点的线性计算开销降低到对数计算开 销,并获得近似的概率分布,从而提高计算效率。
3. 根据权利要求1所述的基于多特征融合的文本相似性度量系统,其特征在于步骤d 中所述的基于对齐的消歧方法:对于给定的两个词汇序列1和2,对于词汇序列1中的任一 词汇,依次计算该词汇与词汇序列2中词汇的相似性,并选择相似性最高的词汇形成词对, 以此类推,遍历词汇序列1中的所有词汇,找到所有的词对,进而完成两个输入词汇序列的 对齐和消歧过程。
4. 根据权利要求1所述的基于多特征融合的文本相似性度量系统,其特征在于步骤e 中所述的文本所对应的词向量采用该文本所包含词汇的词向量的平均值进行表示。
【专利摘要】本发明提供了一种涉及智能信息处理领域的基于多特征融合的文本相似性度量系统,该系统融合了基于词频、词向量和维基百科标签多种特征对文本相似性进行度量,其目的在于解决常规文本相似性度量系统存在的未考虑文本上下文而造成的语义缺失问题,以及文本长度相差较大时所带来的相似性结果精度低的问题。本发明所述系统包括以下步骤:对训练文本进行分词、去停用词等预处理;将处理好的训练文本语料训练成词向量模型;对于输入的待计算文本对,分别度量它们之间的基于词频的相似性、基于词向量的相似性以及基于维基百科标签的相似性,并通过加权求和,得到最终的文本语义相似性度量结果。本发明所述的系统能够提高文本相似性度量精度,从而满足智能信息处理需求。
【IPC分类】G06F17-30
【公开号】CN104699763
【申请号】CN201510072955
【发明人】马博, 李晓, 蒋同海, 周喜, 王磊, 杨雅婷, 赵凡
【申请人】中国科学院新疆理化技术研究所
【公开日】2015年6月10日
【申请日】2015年2月11日