基于语音识别的智能应急指挥系统及其语音识别方法

文档序号:7821678阅读:808来源:国知局
基于语音识别的智能应急指挥系统及其语音识别方法
【专利摘要】本发明涉及综合应急管理【技术领域】,具体涉及一种基于语音识别的智能应急指挥系统及其语音识别方法。本发明保持现有系统功能前提下,加入语音识别系统;语音识别系统通过硬件采集系统的音频数据,通过解析生成指令来实现与其他服务器的信息交互,达到将语音指令转换成数字指令,最后通过大屏展示出来。本发明解决了智能应急指挥系统的指挥信息说到即做到的问题;可以用于智能应急指挥系统中。
【专利说明】基于语音识别的智能应急指挥系统及其语音识别方法

【技术领域】
[0001]本发明涉及综合应急管理【技术领域】,具体涉及一种基于语音识别的智能应急指挥系统及其语音识别方法。

【背景技术】
[0002]随着社会的高速发展,现代城市事故及灾害类型也随着城市化发展而变化和增力口,成为危及城市安全及社会的隐患。而近来自然灾害、公共卫生、生产安全、恐怖事件等应急事件频繁出现更是迫使政府重视各类应急系统的建设,各种规模、各种行业的应急系统正在建设之中。城市综合应急指挥系统就是其中一类重要的应急系统。在发达国家的许多城市中,城市综合应急系统已经成为显示基础设施水平和城市管理水平的标志性工程,并且在关键时刻发挥了重要作用。城市综合应急系统建设在我国还处于初期阶段,不同城市对系统的建设和运用各有特点。因此,对城市综合应急系统设计、构成和建设技术的研究,具有重要意义,可以为将来大规模的城市综合应急系统建设提供良好的思路和一定的参考作用。
[0003]目前应急指挥系统,都是采用领导说后台人员操作的模式,这种模式即使要完成一次像样的演练都需要相关人员进行至少三次的预演,熟悉自己角色的任务,由于整个应急系统非常庞大跨越交通、通讯、电力、水利、医疗、安防、传媒等诸多领域,功能点多达2500个,所以至少需要4名有一定经验的系统操作人员,并且经过至少三次的预演才能配合的比较理想。而实际应用中情况更加复杂,没有像演练那样的执行脚本按部就班,这样后台操作人员和领导需求就很难同步,难以达到理想效果,难以发挥现代应急指挥系统的优势。


【发明内容】

[0004]本发明解决的技术问题之一在于提供一种基于语音识别的智能应急指挥系统,针对综合应急模拟演练实际,对突发事件在模拟演练仿真情景中的指挥人员的实际应用进行深化设计;加入语音识别系统,无需操作人员直接参与;系统将自动切换到指挥人员想看到的页面;实现说到即做到的智能综合应急指挥系统,使其更加符合实际应用。
[0005]本发明解决的技术问题之二在于提供一种基于语音识别的智能应急指挥系统的语音识别方法,在现有系统中加入语音识别系统,无需操作人员直接参与;系统将自动切换到指挥人员想看到的页面;实现说到即做到的智能综合应急指挥系统,使其更加符合实际应用。
[0006]本发明解决上述技术问题之一的技术方案是:
[0007]所述的系统由基础支撑平台、综合应用系统、数据库系统、应急指挥场所、移动应急平台构成;
[0008]所述的基础支撑平台为应急平台的正常运行提供基础保障,主要包括WEB服务器、计算机网络、电话服务器、视频监控服务器、视频会议服务器、数字大屏矩阵服务器、主机存储、数据交换与共享、语音识别系统、录音录像服务器及应急地理信息系统;所述的语音识别系统通过硬件采集系统的音频数据,通过解析生成指令来实现与其他服务器的信息交互,达到将语音指令转换成数字指令,最后通过大屏展示出来;
[0009]所述的应急指挥场所由一系列独立的视、音频系统,以及对它们进行控制的集中控制系统和场所保障环境组成的安全的、智能化应急指挥环境;包括显示系统、会议系统、扩声系统、集中控制、智能灯光照明、综合布线、供电系统等系统;从功能区域上,应急指挥场所可划分为应急指挥厅、值班室、会商室等场所区域;总体上采用以集中控制为中心的网络化多媒体指挥环境,通过综合布线设连接指挥大厅、应急值班室、会商室等相关的指挥场所,通过对各种音视频信号的集中交换与处理,并对投影、矩阵、功放等多媒体设备进行必要的集成,实现本地、远程分散/集中的应急指挥应用对音视频的需要,从而达到实现网络化、一体化管理,智能化应急指挥环境的整体目标;
[0010]所述的综合应用系统是应急平台的核心和灵魂,提供强大的应急业务管理和应急智能决策能力,主要包括信息资源、应急预案、监测预警、值班值守、事件管理、研判决策、指挥调度、模拟演练、知识库、系统设置等功能模块;
[0011]所述的数据库系统采用集中式和分布式两种存储方式,常用基础数据和区县、部门的部分关键数据存储于应急平台的中心数据库中,其它数据分布式存储于相关单位数据库中;应急平台中心数据库主要包括基础信息数据库、空间信息数据库、事件信息数据库、预案库、案例库、模型库、知识库和文档库等
[0012]所述的移动应急平台满足现场应急通信、现场会商、指挥调度、移动办公、现场图像视频采集等功能,主要通过卫星、公众通信网等通信手段与相关应急平台以及有关方面进行联通。
[0013]所述基础支撑平台的WEB服务器是应急平台联系个模块将结果展示出来的服务系统,是人机交互的接口,包括信息资源、应急预案、监测预警、值班值守、时间管理、研判决策、调度指挥、模拟演练、知识库和系统管理;
[0014]计算机网络主要用于内、外网应用系统的承载和数据交换的承载,主要包含相应的广域网接入和局域网网络设备;
[0015]视频会议服务器主要用于在重大突发公共事件发生时各级应急平台之间的协调沟通,会议会商;主要由MCU、视频会议终端、视频会议服务器等组成;
[0016]视频监控服务器主要用于接入个部门、包括公安、消防、三防办、电信、林业局、水利局、公园等的摄像头进行统一管理和随时查看实时图像;实时图像数据依托有关部门现有图像监控系统,采用数字方式,由各部门应急平台负责将本系统的图像转换后上传,主要由图像接入服务器、编解码器等组成;
[0017]数字大屏屏矩阵服务器主要用于将应急系统投放到指挥大厅,展示给所有参会人员;大屏可以自定义分割成若干部分,每部分显示不同的内容;还包括大厅音箱系统;
[0018]主机存储,实现应急平台服务器与存储系统的完整配置,建立应急平台各项业务应用系统的运行服务器环境,建立应急平台各类系统、各类数据的数据存储与备份环境;主要包含各类应用和数据库服务器、磁盘阵列、光纤交换机、存储管理软件等设备;
[0019]数据交换与共享是应急平台管理应急信息资源目录、支撑应急信息资源共享交换的基础系统;
[0020]录音录像服务器用于存储电话录音文件的音频文件和视频监控的视频文件,在应急系统中可以通过条件查询、预览和下载音频和视频文件;
[0021]应急地理信息系统提供对应急基础数据的可视化表现,直观地反映了突发事件周边的地形地貌、保护目标和危险源以及救援队伍的分布,便于领导在应急中掌握事发态势,优化资源配置,制定救援方案。
[0022]所述的语音识别系统采用嵌入式语音的设备;由语音检测模块、特征提取模块、识别搜索模块和语义分析模块几部分构成;
[0023]所述的语音识别模块是对送入的原始语音数据进行预处理和检测,将原始语音信号数据转换成标准数据格式,并通过高效的语音信号检测算法检测到语音的起始点和中止占.
[0024]特征提取模块接收语音识别模块送入的语音数据流,提取得到语音信号的特征矢量;在这个模块中需要对语音信号进行预加重、分帧、加窗、频域变换、倒谱变换、差分等处理;最终得到40维左右的特征矢量;
[0025]识别搜索模块接收特征提取模块送入的语音特征矢量;对未知语音信号的特征与引擎内含的声学模型库、字典/词典和识别语法信息进行匹配得到最适合未知语音特征的词序列;可提供多个识别结果的候选供用户进行选择,方便设计灵活的人机界面;
[0026]语义分析模块基于识别任务的语法信息通过对识别搜索模块得到的词序列结果进行语法、语义分析得到识别结果的语义信息。
[0027]本发明解决上述技术问题之二的技术方案是:
[0028]所述的方法是对输入的原始语音流进行语音检测,然后进行特征提取;再结合特征码本进行量化编码;量化编码后的信号,结合声学模型、字典词典、识别语法进行识别搜索、语义分析;然后,输入到系统相应部分。
[0029]所述的识别搜索包括:
[0030]A.识别语法
[0031]首先需要定义识别语法;识别语法包含了对于识别任务的描述;其中包含各种符合说话语法和任务场景的句子信息;
[0032]B.字典词典
[0033]字典词典包含了各种单字/单词的发音信息,一个词或者字的发音由音素组成;
[0034]C.声学模型
[0035]声学模型是语音识别引擎最核心的引擎资源文件,包含了对于语音信号频谱和时间序列特征的精确描述;
[0036]D.识别搜索
[0037]是在未知句子或者词序列候选空间中搜索得到具有最佳匹配结果的候选句子;识别过程是:通过检索字典/词典可以将句子由词序列分解成音素的序列;这种音素的序列与声学模型相结合就得到更反映其本质属性的声学模型单元序列;然后,将原始语音的特征矢量与所有可能的句子候选的声学模型单元序列的信息相互匹配计算得到其匹配概率;从中挑选出具有最大后验概率的声学模型单元序列;通过该单元序列可以得到与之对应的词序列;作为输出结果。
[0038]所述的语义分析是:
[0039]A.应用程序启动录音程序开始录音,同时应用程序会通过识别引擎API语音识别引擎申请一个识别资源;
[0040]B.识别引擎根据系统资源情况创建并分配一个空闲的识别句柄给该次任务;
[0041]C.应用程序获得该识别会话控制权后;根据当前系统的任务通过API通知识别引擎加载相应语法;
[0042]D.应用程序通过API函数把录取的语音数据发送给该会话;该会话根据系统的模型和加载的语法对送入的语音进行识别;
[0043]E.如果有识别结果;系统会通过回调函数来通知应用程序;应用程序此时可以通过引擎的API来获取识别结果;
[0044]F.应用程序卸载加载的语法;
[0045]G.应用程序断开该会话连接;
[0046]H.应用程序释放会话;此时应用程序应该根据识别结果做相应的动作,如继续播放提示音,提示用户继续提供信息或做其他的动作。
[0047]本发明的智能语音识别应急指挥系统是在传统应急指挥系统基础上保持原有系统功能不变,加入了新的功能服务器实现语音识别的功能,将传统应急指挥系统有人工操作变为能听懂人讲话的智能系统;无需操作人员直接参与系统将自动切换到指挥人员想看到的页面,实现说到即做到的智能综合应急指挥系统,使其更加符合实际应用。

【专利附图】

【附图说明】
[0048]下面结合附图对本发明进一步说明:
[0049]图1是本发明系统结构框图;
[0050]图2是本发明语音识别流程图;
[0051]图3是本发明语音声学特征压缩后的流程图。

【具体实施方式】
[0052]见图1所示,本发明系统建设由基础支撑平台、数据库系统、综合应用系统、应急指挥场所、移动应急平台构成,基础支撑平台为应急平台的正常运行提供基础保障,主要包括WEB服务器、计算机网络、电话服务器、视频监控服务器、视频会议服务器、数字大屏矩阵服务器、主机存储、数据交换与共享、语音识别系统、录音录像服务器及应急地理信息系统坐寸ο
[0053]WEB服务器是应急平台联系个模块将结果展示出来的服务系统,是人机交互的接口,包括信息资源、应急预案、监测预警、值班值守、时间管理、研判决策、调度指挥、模拟演练、知识库和系统管理。
[0054]计算机网络主要用于内、外网应用系统的承载和数据交换的承载,主要包含相应的广域网接入和局域网网络设备。
[0055]视频会议服务器主要用于在重大突发公共事件发生时各级应急平台之间的协调沟通,会议会商。主要由MCU、视频会议终端、视频会议服务器等组成。
[0056]视频监控服务器主要用于接入个部门、包括公安、消防、三防办、电信、林业局、水利局、公园等的摄像头进行统一管理和随时查看实时图像。实时图像数据依托有关部门现有图像监控系统,采用数字方式,由各部门应急平台负责将本系统的图像转换后上传,图像接入系统主要由图像接入服务器、编解码器等组成。
[0057]数字大屏矩阵服务器主要用于将应急系统投放到指挥大厅,展示给所有参会人员。大屏可以自定义分割成若干部分,每部分显示不同的内容还包括大厅音箱系统。
[0058]主机存储,实现应急平台服务器与存储系统的完整配置,建立应急平台各项业务应用系统的运行服务器环境,建立应急平台各类系统、各类数据的数据存储与备份环境。主要包含各类应用和数据库服务器、磁盘阵列、光纤交换机、存储管理软件等设备。
[0059]数据交换与共享应急平台管理应急信息资源目录、支撑应急信息资源共享交换的基础系统。
[0060]录音录像服务器用于存储电话录音文件的音频文件和视频监控的视频文件,在应急系统中可以通过条件查询、预览和下载音频和视频文件。
[0061]应急地理信息系统提供对应急基础数据的可视化表现,直观地反映了突发事件周边的地形地貌、保护目标和危险源以及救援队伍的分布,便于领导在应急中掌握事发态势,优化资源配置,制定救援方案。
[0062]应急指挥场所是由一系列独立的视、音频系统,以及对它们进行控制的集中控制系统和场所保障环境组成的安全的、智能化应急指挥环境,包括显示系统、会议系统、扩声系统、集中控制、智能灯光照明、综合布线、供电系统等系统。从功能区域上,应急指挥场所可划分为应急指挥厅、值班室、会商室等场所区域。总体设计上采用以集中控制为中心的网络化多媒体指挥环境的整体设计思想,通过综合布线设连接指挥大厅、应急值班室、会商室等相关的指挥场所,通过对各种音视频信号的集中交换与处理,并对投影、矩阵、功放等多媒体设备进行必要的集成,实现本地、远程分散/集中的应急指挥应用对音视频的需要,从而达到实现网络化、一体化管理,智能化应急指挥环境的整体目标。
[0063]综合应用系统是应急平台的核心和灵魂,提供强大的应急业务管理和应急智能决策能力,主要包括信息资源、应急预案、监测预警、值班值守、事件管理、研判决策、指挥调度、模拟演练、知识库、系统设置等功能模块。
[0064]数据库系统采用集中式和分布式两种存储方式,常用基础数据和区县、部门的部分关键数据存储于应急平台的中心数据库中,其它数据分布式存储于相关单位数据库中。应急平台中心数据库主要包括基础信息数据库、空间信息数据库、事件信息数据库、预案库、案例库、模型库、知识库和文档库等。
[0065]移动应急平台满足现场应急通信、现场会商、指挥调度、移动办公、现场图像视频采集等功能,主要通过卫星、公众通信网等通信手段与相关应急平台以及有关方面进行联通。
[0066]目前国内和国际现有应急系统没有语音识别功能,不能对语音做出任何反应。智能语音识别系统,是将语音识别做成一个功能子模块(即语音识别服务器)作为后台服务,来响应指挥人员的语音命令。例如在一次应急指挥中指挥员对着话筒说:“显示伤员救援情况! “,而传统的应急指挥系统是后台操作人员听见领导说要看伤员的救援的视频先打开视频再将屏幕切换到大屏中央,智能语音识别应急指挥系统能听懂指挥员说的话,在没有任何后台操作人员的参与下将人们医院救援伤员的视频自动显示在大屏中央。
[0067]智能语音识别应急指挥系统是在传统应急指挥系统基础上那个保持原有系统功能不变,加入了新的功能服务器实现语音识别的功能,将传统应急指挥系统有人工操作变为能听懂人讲话的智能系统。
[0068]语音识系统是一个独立的服务器,通过硬件连接到指挥台采集音频数据,服务器通过解析生成指令通过软件编程来实现与其他服务器的信息交互,达到将语音指令转换成数字指令,最后通过大屏展示出来。
[0069]语音识别系统采用嵌入式语音的设备;由语音检测模块、特征提取模块、识别搜索模块和语义分析模块几部分构成。
[0070]引擎采集的原始语音数据被送入语音检测模块,该模块进行语音信号的预处理和检测,将原始语音信号数据转换成标准数据格式如:8k,16bit并通过高效的语音信号检测算法,检测到语音的起始点和中止点。
[0071]检测后的语音数据流被送入特征提取模块,提取得到语音信号的特征矢量流语音识别芯片引擎中采用MFCC(Mel_scale FreqUency CepStrum Coefficient)特征。语音特征是利用数字信号处理技术从语音信号中提取最反应其本质属性的信息。在这个模块中需要对语音信号进行预加重、分帧、加窗、频域变换、倒谱变换、差分等处理最终得到40维左右的特征矢量。
[0072]语音特征矢量被送入识别搜索模块;在这个模块中未知语音信号的特征与引擎内含的声学模型库、字典/词典和识别语法信息进行匹配得到最适合未知语音特征的词序列。这个模块是识别引擎的核心。下面对该模块进行具体的说明:
[0073]A.识别语法
[0074]用户在开发一个语音识别系统时首先需要定义识别语法识别语法包含了对于识别任务的描述。简单的说就是其中包含各种符合说话语法和任务场景的句子信息。
[0075]B.词典
[0076]词典包含了各种单字/单词的发音信息一个词或者字的发音由音素组成。
[0077]C.声学模型
[0078]声学模型是语音识别引擎最核心的引擎资源文件包含了对于语音信号频谱和时间序列特征的精确描述。华镇电子识别引擎采用了 HMM(隐含马尔科夫模型)声学模型来描述语音信号这个模型是通过对大量说话人在不同场景的语音数据库进行训练得到的。
[0079]D.识别搜索
[0080]所谓搜索算法就是在未知句子或者词序列候选空间中搜索得到具有最佳匹配结果的候选句子。这个过程可以简单的描述如下:通过检索字典/词典可以将句子由词序列分解成音素的序列。这种音素的序列与声学模型相结合就得到更反映其本质属性的声学模型单元序列;如状态序列信息。然后将原始语音的特征矢量与所有可能的句子候选的声学模型单元序列的信息相互匹配计算得到其匹配概率;从中挑选出具有最大后验概率的声学模型单元序列。通过该单元序列可以得到与之对应的词序列;就是这个模块的输出结果。在这个过程中涉及到各种信息的综合利用;计算量非常巨大。本发明方案对识别空间进行有效的裁剪使识别过程占用的计算资源和内存资源大大降低;能够快速有效地获取精确的识别结果。
[0081]在语义分析模块中,基于识别任务的语法信息通过对搜索模块得到的词序列结果进行语法、语义分析;得到识别结果的语义信息。识别引擎还能够提供多个识别结果的候选供用户进行选择;方便设计灵活的人机界面。
[0082]应用程序通过调用语音识别引擎的一系列API函数来实现语音识别功能其基本过程如下:
[0083]1.应用程序启动录音程序开始录音,同时应用程序会通过识别引擎API语音识别引擎申请一个识别资源。
[0084]2.识别引擎的会根据系统资源情况创建并分配一个空闲的识别句柄给该次任务。
[0085]3.应用程序获得该识别会话控制权后根据当前系统的任务^SAPI通知识别引擎加载相应语法。
[0086]4.应用程序通过API函数把录取的语音数据发送给该会话该会话会根据系统的模型和加载的语法对送入的语音进行识别。
[0087]5.如果有识别结果系统会通过回调函数来通知应用程序;应用程序此时可以通过引擎的API来获取识别结果。
[0088]6.应用程序卸载加载的语法。
[0089]7.应用程序断开该会话连接。
[0090]8.应用程序释放会话。此时应用程序应该根据识别结果做相应的动作,如继续播放提示音,提示用户继续提供信息或做其他的动作。
[0091]本系统采用的语音解决方案的语音识别引擎提供的应用模式是,通过识别引擎API直接访问语音识别引擎。这种方法或者用于需要应用程序和识别引擎紧密结合或者是应用在已有软件平台中直接使用识别引擎的场合。MSR API包含两部分语音检测API和语音识别API。在使用MSR API时应用程序需要直接访问语音检测API和语音识别API ;并负责将语音检测API检测出的语音数据送给语音识别API进行语音识别。
[0092]语音识别系统中需要将语音输入的时域声波转换成一种数字化的矢量特征来描述区分不同的发音,我们称之为语音特征,基于该特征对所有的发音建立一个声音模型,这在语音识别领域我们通常称之为声学模型所有的语音识别系统都必须要有一个声学模型,同时对于大词表连续语音识别系统来说还需要一个语言模型在我们解决方案的语音识别引擎中语言模型为自定义的语法。语音识别的目的就是要在给定一串声音特征序列为输入条件,利用声学模型和语言模型采用搜索算法输出识别结果字、词或句子。换言之,语音识别系统就是要在巨大的句子或字、词空间中找出与给定输入特征序列相匹配具有最大概率的句子或字、词。在当今流行的语音识别系统中声学模型都是用隐含马尔可夫模型HMM来描述由于基于连续概率密度的HMM,CDHMM与基于离散概率密度的HMM相比更能精确地描述人的发音,因此在大多数的语音识别系统中声学模型的建立都采用CDHMM。在CDHMM中在某一状态下特征矢量的概率分布函数是用多个高斯分布函数的加权和来描述,这样能比较精确地描述特征矢量空间分布。然而在大词表连续语音识别系统中如果采用⑶HMM那么在解码,识别过程需要多次计算高斯概率这需要大量的计算量,通常在解码过程中所需要的计算量都集中在高斯概率计算上,同时也需要大量的存储量来存储CDHMM的声学模型。
[0093]我们的语音处理芯片的语音特征及声学模型压缩方法后的流程如图2、3所示,是对输入的原始语音流进行语音检测,然后进行特征提取;再结合特征码本进行量化编码;量化编码后的信号,结合声学模型、字典词典、识别语法进行识别搜索、语义分析;然后,输入到系统相应部分。
[0094]语音识别芯片接口
[0095]语音识别引擎需要用户输入的是:
[0096]识别词表:在引擎初始化时输入。
[0097]A.8K或16KHz采样16Bits的线性PCM语音数据。
[0098]B.识别消息表示识别引擎的识别状态。
[0099]C.识别结果。
[0100]识别弓I擎根据用户输入语音数据送出语音数据的识别结果。
[0101]识别引擎为一独立线程与控制线程通过消息通信。
[0102]识别引擎消息:
[0103]MSR_EVENT_RESULT
[0104]正常识别,有识别结果时识别引擎发送出该消息。收到此消息后就可以获取识别结果,可以显示识别结果或执行识别结果规定的动作。
[0105]MSR_EVENT_SPEECHT00SH0RT
[0106]语音太短时识别引擎发送出该消息。语音太短的原因,通常是此段录音为不正常的语音。
[0107]MSR_EVENT_NOSPEECH
[0108]识别引擎发送出该消息通常是引擎开始工作后用户没有说话识别引擎超时。
[0109]MSR_EVENT_STARTPOINTDETECTED
[0110]识别引擎检测到语音起始点时送出此消息,程序在收到此消息时可以在图形界面上提示用户。
[0111]MSR_EVENT_ENDPOINTDETECTED
[0112]识别引擎检测到语音终止点时送出此消息,程序在收到此消息时可以在图形界面上提示用户。
[0113]语音识别弓I擎性能指标
[0114]软件响应时间< 1.2倍实时,在测试词表不超过1000命令词汇的情况下,实际应用环境中达到96%以上的识别精度。
【权利要求】
1.一种基于语音识别的智能应急指挥系统,其特征在于:所述的系统由基础支撑平台、综合应用系统、数据库系统、应急指挥场所、移动应急平台构成; 所述的基础支撑平台为应急平台的正常运行提供基础保障,主要包括WEB服务器、计算机网络、电话服务器、视频监控服务器、视频会议服务器、数字大屏矩阵服务器、主机存储、数据交换与共享、语音识别系统、录音录像服务器及应急地理信息系统;所述的语音识别系统通过硬件采集系统的音频数据,通过解析生成指令来实现与其他服务器的信息交互,达到将语音指令转换成数字指令,最后通过大屏展示出来; 所述的应急指挥场所由一系列独立的视、音频系统,以及对它们进行控制的集中控制系统和场所保障环境组成的安全的、智能化应急指挥环境;包括显示系统、会议系统、扩声系统、集中控制、智能灯光照明、综合布线、供电系统等系统;从功能区域上,应急指挥场所可划分为应急指挥厅、值班室、会商室等场所区域;总体上采用以集中控制为中心的网络化多媒体指挥环境,通过综合布线设连接指挥大厅、应急值班室、会商室等相关的指挥场所,通过对各种音视频信号的集中交换与处理,并对投影、矩阵、功放等多媒体设备进行必要的集成,实现本地、远程分散/集中的应急指挥应用对音视频的需要,从而达到实现网络化、一体化管理,智能化应急指挥环境的整体目标; 所述的综合应用系统是应急平台的核心和灵魂,提供强大的应急业务管理和应急智能决策能力,主要包括信息资源、应急预案、监测预警、值班值守、事件管理、研判决策、指挥调度、模拟演练、知识库、系统设置等功能模块; 所述的数据库系统采用集中式和分布式两种存储方式,常用基础数据和区县、部门的部分关键数据存储于应急平台的中心数据库中,其它数据分布式存储于相关单位数据库中;应急平台中心数据库主要包括基础信息数据库、空间信息数据库、事件信息数据库、预案库、案例库、模型库、知识库和文档库等 所述的移动应急平台满足现场应急通信、现场会商、指挥调度、移动办公、现场图像视频采集等功能,主要通过卫星、公众通信网等通信手段与相关应急平台以及有关方面进行联通。
2.根据权利要求1所述的基于语音识别的智能应急指挥系统,其特征在于:所述基础支撑平台的WEB服务器是应急平台联系个模块将结果展示出来的服务系统,是人机交互的接口,包括信息资源、应急预案、监测预警、值班值守、时间管理、研判决策、调度指挥、模拟演练、知识库和系统管理; 计算机网络主要用于内、外网应用系统的承载和数据交换的承载,主要包含相应的广域网接入和局域网网络设备; 视频会议服务器主要用于在重大突发公共事件发生时各级应急平台之间的协调沟通,会议会商;主要由MCU、视频会议终端、视频会议服务器等组成; 视频监控服务器主要用于接入个部门、包括公安、消防、三防办、电信、林业局、水利局、公园等的摄像头进行统一管理和随时查看实时图像;实时图像数据依托有关部门现有图像监控系统,采用数字方式,由各部门应急平台负责将本系统的图像转换后上传,主要由图像接入服务器、编解码器等组成; 数字大屏屏矩阵服务器主要用于将应急系统投放到指挥大厅,展示给所有参会人员;大屏可以自定义分割成若干部分,每部分显示不同的内容;还包括大厅音箱系统; 主机存储,实现应急平台服务器与存储系统的完整配置,建立应急平台各项业务应用系统的运行服务器环境,建立应急平台各类系统、各类数据的数据存储与备份环境;主要包含各类应用和数据库服务器、磁盘阵列、光纤交换机、存储管理软件等设备; 数据交换与共享是应急平台管理应急信息资源目录、支撑应急信息资源共享交换的基础系统; 录音录像服务器用于存储电话录音文件的音频文件和视频监控的视频文件,在应急系统中可以通过条件查询、预览和下载音频和视频文件; 应急地理信息系统提供对应急基础数据的可视化表现,直观地反映了突发事件周边的地形地貌、保护目标和危险源以及救援队伍的分布,便于领导在应急中掌握事发态势,优化资源配置,制定救援方案。
3.根据权利要求1所述的基于语音识别的智能应急指挥系统,其特征在于:所述的语音识别系统采用嵌入式语音的设备;由语音检测模块、特征提取模块、识别搜索模块和语义分析模块几部分构成;所述的语音识别模块是对送入的原始语音数据进行预处理和检测,将原始语音信号数据转换成标准数据格式,并通过高效的语音信号检测算法检测到语音的起始点和中止点;特征提取模块接收语音识别模块送入的语音数据流,提取得到语音信号的特征矢量;在这个模块中需要对语音信号进行预加重、分帧、加窗、频域变换、倒谱变换、差分等处理;最终得到40维左右的特征矢量; 识别搜索模块接收特征提取模块送入的语音特征矢量;对未知语音信号的特征与引擎内含的声学模型库、字典/词典和识别语法信息进行匹配得到最适合未知语音特征的词序列;可提供多个识别结果的候选供用户进行选择,方便设计灵活的人机界面; 语义分析模块基于识别任务的语法信息通过对识别搜索模块得到的词序列结果进行语法、语义分析得到识别结果的语义信息。
4.根据权利要求2所述的基于语音识别的智能应急指挥系统,其特征在于:所述的语音识别系统采用嵌入式语音的设备;由语音检测模块、特征提取模块、识别搜索模块和语义分析模块几部分构成;所述的语音识别模块是对送入的原始语音数据进行预处理和检测,将原始语音信号数据转换成标准数据格式,并通过高效的语音信号检测算法检测到语音的起始点和中止点;特征提取模块接收语音识别模块送入的语音数据流,提取得到语音信号的特征矢量;在这个模块中需要对语音信号进行预加重、分帧、加窗、频域变换、倒谱变换、差分等处理;最终得到40维左右的特征矢量; 识别搜索模块接收特征提取模块送入的语音特征矢量;对未知语音信号的特征与引擎内含的声学模型库、字典/词典和识别语法信息进行匹配得到最适合未知语音特征的词序列;可提供多个识别结果的候选供用户进行选择,方便设计灵活的人机界面; 语义分析模块基于识别任务的语法信息通过对识别搜索模块得到的词序列结果进行语法、语义分析得到识别结果的语义信息。
5.一种权利要求1至4任一项所述的基于语音识别的智能应急指挥系统的语音识别方法,其特征在于:所述的方法是对输入的原始语音流进行语音检测,然后进行特征提取;再结合特征码本进行量化编码;量化编码后的信号,结合声学模型、字典词典、识别语法进行识别搜索、语义分析;然后,输入到系统相应部分。
6.根据权利要求5所述的基于语音识别的智能应急指挥系统的语音识别方法,其特征在于:所述的识别搜索包括: A.识别语法 首先需要定义识别语法;识别语法包含了对于识别任务的描述;其中包含各种符合说话语法和任务场景的句子信息; B.字典词典 字典词典包含了各种单字/单词的发音信息,一个词或者字的发音由音素组成; C.声学模型 声学模型是语音识别引擎最核心的引擎资源文件,包含了对于语音信号频谱和时间序列特征的精确描述; D.识别搜索 是在未知句子或者词序列候选空间中搜索得到具有最佳匹配结果的候选句子;识别过程是:通过检索字典/词典可以将句子由词序列分解成音素的序列;这种音素的序列与声学模型相结合就得到更反映其本质属性的声学模型单元序列;然后,将原始语音的特征矢量与所有可能的句子候选的声学模型单元序列的信息相互匹配计算得到其匹配概率;从中挑选出具有最大后验概率的声学模型单元序列;通过该单元序列可以得到与之对应的词序列;作为输出结果。
7.根据权利要求5所述的基于语音识别的智能应急指挥系统的语音识别方法,其特征在于:所述的语义分析是: A.应用程序启动录音程序开始录音,同时应用程序会通过识别引擎API语音识别引擎申请一个识别资源; B.识别引擎根据系统资源情况创建并分配一个空闲的识别句柄给该次任务; C.应用程序获得该识别会话控制权后;根据当前系统的任务通过API通知识别引擎加载相应语法; D.应用程序通过API函数把录取的语音数据发送给该会话;该会话根据系统的模型和加载的语法对送入的语音进行识别; E.如果有识别结果;系统会通过回调函数来通知应用程序;应用程序此时可以通过引擎的API来获取识别结果; F.应用程序卸载加载的语法; G.应用程序断开该会话连接; H.应用程序释放会话;此时应用程序应该根据识别结果做相应的动作,如继续播放提示音,提示用户继续提供信息或做其他的动作。
8.根据权利要求6所述的基于语音识别的智能应急指挥系统的语音识别方法,其特征在于:所述的语义分析是: A.应用程序启动录音程序开始录音,同时应用程序会通过识别引擎API语音识别引擎申请一个识别资源; B.识别引擎根据系统资源情况创建并分配一个空闲的识别句柄给该次任务; C.应用程序获得该识别会话控制权后;根据当前系统的任务通过API通知识别引擎加载相应语法; D.应用程序通过API函数把录取的语音数据发送给该会话;该会话根据系统的模型和加载的语法对送入的语音进行识别; E.如果有识别结果;系统会通过回调函数来通知应用程序;应用程序此时可以通过引擎的API来获取识别结果; F.应用程序卸载加载的语法; G.应用程序断开该会话连接; H.应用程序释放会话;此时应用程序应该根据识别结果做相应的动作,如继续播放提示音,提示用户继续提供信息或做其他的动作。
【文档编号】H04L29/08GK104392721SQ201410720018
【公开日】2015年3月4日 申请日期:2014年11月28日 优先权日:2014年11月28日
【发明者】贺忠堂, 陈才平, 李智勇, 吕维安, 李新安 申请人:东莞中国科学院云计算产业技术创新与育成中心
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1