语音文件检索方法及系统的利记博彩app
【技术领域】
[0001] 本发明涉及语音信号处理领域,具体涉及一种语音文件检索方法及系统。
【背景技术】
[0002] 随着语音处理技术的不断发展,在越来越多的应用中,相关技术人员已尝试从语 音数据中获取所需信息,如从海量语音数据中检索出特定应用场景所需的语音文件。传统 的从大量语音文件中检索出有用文件的做法主要有两种:
[0003] 第一种是人工进行语音文件监听,进而找出相关性较高、有用的文件,而这种方法 需要耗费大量的人力和物力,效率较低。
[0004] 第二种是先将语音文件进行转写,得到文本文件,然后对文本文件进行检索。由于 受复杂的噪声环境、远场等因素的影响,语音转写的正确率还不能较好的保证,因而在进行 语音文件检索时,为保证检索的准确性,通常都需要对语音转写的结果进行人工校验,因而 同样存在人力消耗大、效率低的问题。
【发明内容】
[0005] 本发明提供一种语音文件检索方法及系统,以解决现有语音文件检索时由于语音 转写错误导致的效率低、准确性差的问题。
[0006] 为此,本发明提供如下技术方案:
[0007] -种语音文件检索方法,包括:
[0008] 训练对应检索关键词的用户兴趣模型;
[0009] 获取待检索的各语音文件;
[0010] 对所述语音文件进行语音转写,得到转写结果;
[0011]根据所述转写结果获得所述语音文件对应的文本文件及所述文本文件中各词的 多知识源特征;
[0012] 利用所述多知识源特征对各词进行置信度重估,并滤除所述文本文件中无意义的 词句;
[0013] 根据置信度重估结果计算各文本文件与所述用户兴趣模型的相关度;
[0014] 根据所述相关度展示检索出的语音文件信息。
[0015] 优选地,所述检索关键词是用户在检索时输入的一个或多个检索关键词,或者是 预先从一些特定情景语料中搜集得到的一个或多个关键词。
[0016] 优选地,所述训练对应检索关键词的用户兴趣模型包括:
[0017] 收集包含所述检索关键词的语料;
[0018]计算所述语料中各词的词向量;
[0019] 利用所述词向量训练回归模型,将所述回归模型作为用户兴趣模型。
[0020] 优选地,所述转写结果为词级混淆网络格式,所述混淆网络中保存有每个词在语 音文件中的时间位置、声学模型得分、语言模型得分和原始置信度;
[0021 ] 所述多知识源特征包括以下特征中的至少两种:词后验概率;竞争词的后验概率 差;语言模型得分;帧平均声学模型得分。
[0022]优选地,所述方法还包括:
[0023] 对所述混淆网络中的各词进行切分,得到该词对应的音素信息;
[0024] 所述多知识源特征还包括以下任意一种或多种:各词对应的音素后验概率、状态 帧方差;词位置系数;词长;是否为停止词;时长;竞争词个数;短时平均能量。
[0025] 优选地,所述对所述文本文件中各词进行置信度评估包括:
[0026] 根据所述多知识源特征为各词生成一组多维特征向量;
[0027] 利用预先训练的回归模型及各词的多维特征向量计算该词的置信度。
[0028] 优选地,所述根据置信度重估结果计算各文本文件与所述用户兴趣模型的相关度 包括:
[0029 ]对于每个文本文件,计算所述文本文件中各词的词向量;
[0030]将各词的置信度重估结果作为该词的权重,对所述文本文件中出现的所有词的词 向量进行加权平均,得到所述文本文件的向量:
[0031 ]根据所述文本文件的向量计算所述文本文件与所述用户兴趣模型的相关度。
[0032]优选地,所述根据所述相关度展示检索出的语音文件信息包括:
[0033]按照相关度从大到小依次展示相关度大于设定阈值的语音文件信息;或者 [0034]按照相关度从大到小依次展示设定个数的语音文件信息。
[0035] 优选地,所述方法还包括:
[0036] 设定针对不同重要性级别的相关度阈值;
[0037] 根据各文本文件与所述用户兴趣模型的相关度及所述相关度阈值确定各语音文 件的重要性级别;
[0038] 在展示所述语音文件信息时,展示所述语音文件的重要性级别信息。
[0039] 一种语音文件检索系统,包括:
[0040] 模型训练模块,用于训练对应检索关键词的用户兴趣模型;
[0041] 语音文件获取模块,用于获取待检索的各语音文件;
[0042] 语音转写模块,用于对所述语音文件进行语音转写,得到转写结果;
[0043] 文本文件生成模块,用于根据所述转写结果获得所述语音文件对应的文本文件;
[0044] 特征获取模块,用于获取所述文本文件中各词的多知识源特征;
[0045] 置信度重估模块,用于利用所述多知识源特征对各词进行置信度重估;
[0046] 过滤模块,用于滤除所述文本文件中无意义的词句;
[0047]相关度计算模块,用于根据置信度重估结果计算各文本文件与所述用户兴趣模型 的相关度;
[0048] 展示模块,用于根据所述相关度展示检索出的语音文件信息。
[0049] 优选地,所述模型训练模块包括:
[0050] 语料收集单元,用于收集包含所述检索关键词的语料;
[0051 ]词向量计算单元,用于计算所述语料中各词的词向量;
[0052]训练单元,用于利用所述词向量训练回归模型,将所述回归模型作为用户兴趣模 型。
[0053]优选地,所述转写结果为词级混淆网络格式,所述混淆网络中保存有每个词在语 音文件中的时间位置、声学模型得分、语言模型得分和原始置信度;所述多知识源特征包括 以下特征中的至少两种:词后验概率;竞争词的后验概率差;语言模型得分;帧平均声学模 型得分;
[0054]所述置信度重估模块包括:
[0055] 多维特征向量生成单元,用于根据所述多知识源特征为各词生成一组多维特征向 量;
[0056] 置信度计算单元,用于利用预先训练的回归模型及各词的多维特征向量计算该词 的置信度。
[0057] 优选地,所述相关度计算模块包括:
[0058] 词向量计算单元,用于对于每个文本文件,计算所述文本文件中各词的词向量;
[0059] 文件向量计算单元,用于将各词的置信度重估结果作为该词的权重,对所述文本 文件中出现的所有词的词向量进行加权平均,得到所述文本文件的向量:
[0060] 相关度计算单元,用于根据所述文本文件的向量计算所述文本文件与所述用户兴 趣模型的相关度。
[0061] 优选地,所述展示模块具体用于按照相关度从大到小依次展示相关度大于设定阈 值的语音文件,或者按照相关度从大到小依次展示设定个数的语音文件。
[0062] 优选地,所述系统还包括:
[0063] 设定模块,用于设定针对不同重要性级别的相关度阈值;
[0064] 级别确定模块,用于根据各文本文件与所述用户兴趣模型的相关度及所述相关度 阈值确定各语音文件的重要性级别;
[0065] 所述展示模块,还用于在展示所述语音文件信息时,展示所述语音文件的重要性 级别信息。本发明实施例提供的语音文件检索方法及系统,针对语音转写得到的文本文件 存在一定数量的转写错误的现象,通过提取语音转写得到的文本文件中各词的多知识源特 征,利用所述多知识源特征对各词进行置信度重估,并滤除所述文本文件中无意义的词句, 根据置信度重估结果计算各文本文件与所述用户兴趣模型的相关度;根据所述相关度展示 检索出的语音文件,从而有效地减少了转写错误对文件排序的影响。本发明实施例的语音 文件检索方法及系统,不仅大大提高了语音文件检索的效率,而且保证了检索结果的准确 性。
【附图说明】
[0066] 为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例中所 需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明中记载的一 些实施例,对于本领域普通技术人员来讲,还可以根据这些附图获得其他的附图。
[0067] 图1是本发明实施例语音文件检索方法的流程图;
[0068] 图2是本发明实施例语音文件检索系统的一种结构示意图;
[0069] 图3是本发明实施例中相关度计算模块的一种结构示意图;