语音处理系统及语音处理方法

文档序号:8413608阅读:354来源:国知局
语音处理系统及语音处理方法
【技术领域】
[0001] 本发明涉及语音处理系统及语音处理方法。
【背景技术】
[0002] 目前,开会或采访所记录的语音可被自动转换为文字。但是由于所生成的文字前 没有对应的发言者的个人信息,从而使得该生成的文字晦涩难懂,不方便记录者后续的文 字整理。

【发明内容】

[0003] 鉴于以上内容,有必要提供一种语音处理系统及语音处理方法,可使得该生成的 文字易懂。
[0004] 一种语音处理系统,该语音处理系统包括:一特征获取模块,用于在一声音采集 单元采集的一发言者在一连续时间段内的语音中提取发言者对应的语音特征,并依各发言 者发言的时间先后,依次提取各发言者在连续时间段内的语音中的语音特征;一语音识别 模块,用于依次判断该提取的语音特征是否与一声纹资料库中的一声纹模型匹配,其中,该 声纹资料库中的每一声纹模型关联有一对应的个人信息;一语音转换模块,用于在确定该 当前提取的语音特征与声纹资料库中的一声纹模型匹配时,依次将该发言者在该连续时间 段内的语音转换为一段文字;及一文本生成模块,用于在该发言者的语音转换的该段文字 前插入该声纹模型对应的个人信息,并生成一包括该段文字及个人信息的文本,并依次在 下一发言者的语音转换的一段文字前插入该声纹模型对应的个人信息后,将下一发言者语 音所转换的一段文字及对应的个人信息依次增加到该文本中,并依各发言者发言的时间先 后,依次将各发言者的连续时间段内的语音所转换的一段文字及对应的个人信息增加至该 文本中。
[0005] -种语音处理方法,该方法包括:在一声音采集单元采集的一发言者在一连续时 间段内的语音中提取发言者对应的语音特征,并依各发言者发言的时间先后,依次提取各 发言者在连续时间段内的语音中的语音特征;依次判断该提取的语音特征是否与一声纹资 料库中的一声纹模型匹配,其中,该声纹资料库中的每一声纹模型关联有一对应的个人信 息;在确定该当前提取的语音特征与声纹资料库中的一声纹模型匹配时,依次将该发言者 在该连续时间段内的语音转换为一段文字;及在该发言者的语音转换的该段文字前插入该 声纹模型对应的个人信息,并生成一包括该段文字及个人信息的文本,并依次在下一发言 者的语音转换的一段文字前插入该声纹模型对应的个人信息后,将下一发言者语音所转换 的一段文字及对应个人信息依次增加到该文本中,并依各发言者发言的时间先后,依次将 各发言者的连续时间段内的语音所转换的一段文字及对应的个人信息增加至该文本中。
[0006] 本发明通过先将一发言者的连续时间段内的语音转换为一段文字,将个人信息插 入在该段文字前,生成一包括该段文字及个人信息的文本,并依各发言者发言的时间先后, 依次将各发言者的语音所转换的一段文字及个人信息增加至该文本中,从而使得该生成的 文字易懂。
【附图说明】
[0007] 图1是本发明一实施方式中语音处理系统的方框示意图。
[0008] 图2是本发明一实施方式中语音处理方法的流程图。
[0009] 主要元件符号说明
【主权项】
1. 一种语音处理系统,其特征在于,该语音处理系统包括: 一特征获取模块,用于在一声音采集单元采集的一发言者在一连续时间段内的语音中 提取发言者对应的语音特征,并依各发言者发言的时间先后,依次提取各发言者在连续时 间段内的语音中的语音特征; 一语音识别模块,用于依次判断该提取的语音特征是否与一声纹资料库中的一声纹模 型匹配,其中,该声纹资料库中的每一声纹模型关联有一对应的个人信息; 一语音转换模块,用于在确定该当前提取的语音特征与声纹资料库中的一声纹模型匹 配时,依次将该发言者在该连续时间段内的语音转换为一段文字;及 一文本生成模块,用于在该发言者的语音转换的该段文字前插入该声纹模型对应的个 人信息,并生成一包括该段文字及个人信息的文本,并依次在下一发言者的语音转换的一 段文字前插入该声纹模型对应的个人信息后,将下一发言者语音所转换的一段文字及对应 的个人信息依次增加到该文本中,并依各发言者发言的时间先后,依次将各发言者的连续 时间段内的语音所转换的一段文字及对应的个人信息增加至该文本中。
2. 如权利要求1所述的语音处理系统,其特征在于:该特征获取模块用于判断该前后 获取的语音特征是否发生变化;当特征获取模块判断该前后获取的语音特征发生变化时, 确认一发言者的发言已经结束,而确定该声音采集单元在该结束前的时间段内采集的语音 为该发言者在连续时间段内的语音;该特征获取模块在判断当该前后获取的语音特征没有 发生变化时,确定仍然为同一发言者在连续时间段内的发言。
3. 如权利要求1所述的语音处理系统,其特征在于:该文本生成模块在依次将各发言 者的段文字及个人信息增加至该文本中时,先将下一发言者语音所转换的一段文字及对应 的个人信息重起新的段落,再增加到该文本中,并依各发言者发言的时间先后,依次将各发 言者语音所转换的一段文字及对应的个人信息重起新的段落及增加至该文本中。
4. 如权利要求1所述的语音处理系统,其特征在于:该文本生成模块还用于记录每一 发言者在每一连续时间段内的发言起始时间,并将该记录的起始时间分别插入对应的各段 文字前。
5. -种语音处理方法,其特征在于,该方法包括: 在一声音采集单元采集的一发言者在一连续时间段内的语音中提取发言者对应的语 音特征,并依各发言者发言的时间先后,依次提取各发言者在连续时间段内的语音中的语 首特征; 依次判断该提取的语音特征是否与一声纹资料库中的一声纹模型匹配,其中,该声纹 资料库中的每一声纹模型关联有一对应的个人信息; 在确定该当前提取的语音特征与声纹资料库中的一声纹模型匹配时,依次将该发言者 在该连续时间段内的语音转换为一段文字;及 在该发言者的语音转换的该段文字前插入该声纹模型对应的个人信息,并生成一包括 该段文字及个人信息的文本,并依次在下一发言者的语音转换的一段文字前插入该声纹模 型对应的个人信息后,将下一发言者语音所转换的一段文字及对应个人信息依次增加到该 文本中,并依各发言者发言的时间先后,依次将各发言者的连续时间段内的语音所转换的 一段文字及对应的个人信息增加至该文本中。
6. 如权利要求5所述的语音处理方法,其特征在于,该方法包括: 判断该前后获取的语音特征是否发生变化; 当该前后获取的语音特征发生变化时,确认一发言者的发言已经结束,而确定该声音 采集单元在该结束前的时间段内采集的语音为该发言者在连续时间段内的语音;及 当该前后获取的语音特征没有发生变化时,确定仍然为同一发言者在连续时间段内的 发言。
7. 如权利要求5所述的语音处理方法,其特征在于,该方法包括: 在依次将各发言者的段文字及个人信息增加至该文本中时,先将下一发言者语音所转 换的一段文字及对应的个人信息重起新的段落,再增加到该文本中,并依各发言者发言的 时间先后,依次将各发言者语音所转换的一段文字及对应的个人信息重起新的段落及增加 至该文本中。
8. 如权利要求5所述的语音处理方法,其特征在于,该方法包括: 记录每一发言者在每一连续时间段内的发言起始时间,并将该记录的起始时间分别插 入对应的各段文字前。
【专利摘要】一种语音处理方法,该方法包括:在一发言者在一连续时间段内的语音中提取发言者对应的语音特征,并依各发言者发言的时间先后,依次提取各发言者在连续时间段内的语音中的语音特征;依次判断该提取的语音特征是否与一声纹资料库中的一声纹模型匹配;如果是,则依次将该发言者在该连续时间段内的语音转换为一段文字;及在该发言者的语音转换的该段文字前插入该声纹模型对应的个人信息,并生成一包括该段文字及个人信息的文本,并依各发言者发言的时间先后,依次将各发言者的连续时间段内的语音所转换的一段文字及对应的个人信息增加至该文本中。本发明还提供一种语音处理系统,可使得该生成的文字易懂。
【IPC分类】G10L15-02, G10L15-26
【公开号】CN104732969
【申请号】CN201310714903
【发明人】刘海涛
【申请人】鸿富锦精密工业(深圳)有限公司, 鸿海精密工业股份有限公司
【公开日】2015年6月24日
【申请日】2013年12月23日
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1