本发明涉及语音识别领域,尤其是航空座舱环境自适应语音特征模型训练方法,对于提高航电语音类产品的识别率有着显著效果。
背景技术:
随着电子技术和飞机技术的飞速发展,基于认知/感知的人机系统技术领域是未来航电关键技术十大领域之一,而语音识别技术正是基于认知/感知人机系统技术中非常重要的一项关键技术。目前,现有的语音识别主要是针对标准语音设计的,若驾驶人员的语音不够标准或带有个人特点,往往识别率较低。如何使语音识别技术真正意义上帮助驾驶人员完成对飞机的控制,成为该技术能否得到实际应用的关键。
技术实现要素:
本发明目的是克服现有技术中识别率较低的问题,提供一种新型的航空座舱环境自适应语音特征模型训练方法。
为了实现这一目的,本发明的技术方案如下:航空座舱环境自适应语音特征模型训练方法,包含有,
步骤s1,采集个人自适应语音特征:
步骤s11,模拟航空座舱环境,输入个人自适应语音数据;
步骤s12,将个人自适应语音数据设计为16k采样16bit语音数据,模拟航空座舱环境进行采集;
步骤s13,提取个人自适应语音特征:
步骤s131,获取帧数语音数据;
步骤s132,将帧数语音数据设计为每帧400个采样点;
步骤s133,采用75维mel频标系数(mfc)作为语音特征参数,每帧语音特征参数75×16bit;
步骤s2,提供个人自适应语音标注:
步骤s21,输入个人自适应文本数据;
步骤s22,按照发音词典的标准规范,将个人自适应文本数据涉及的文本内容根据音素状态列表转换成三音子结构的音素标注形式;
步骤s3,提供基础特征模型:
基础特征模型为多层深度神经网络(dnn)模型,输入层为步骤s1中配套的语音特征,输出层为步骤s2中配套的语音标注;
步骤s4,采用深度神经网络(dnn)自适应算法,结合个人自适应语音特征与其对应的个人自适应语音标注更新基础特征模型,以生成自适应模型;以及,
步骤s6,模型打包,生成个人特征库。
作为航空座舱环境自适应语音特征模型训练方法的优选方案,基础特征模型经过大规模语音数据训练,优选地,训练语音数据时间>3000小时。
作为航空座舱环境自适应语音特征模型训练方法的优选方案,步骤s4与步骤s6间还具有步骤s5,
步骤s5,识别测试,验证自适应模型对于个人语音识别的提高能力;
步骤51,模拟航空座舱环境,输入测试语音及其对应的语音标注,其中,测试语音为命令词;
步骤52,将测试语音转换为与步骤s133中相同的mel频标系数(mfc)特征;
步骤53,在自适应模型中进行维特比搜索,匹配分数最高的即为识别结果,得到测试文本数据,通过与步骤52中的语音标注对比,得到自适应模型的识别性能。
与现有技术相比,本发明的优点至少在于:将个人自适应语音特征更新基础特征模型,生成识别能力更高的自适应模型,可以有效地提高航电语音类产品的识别率有着显著效果。
附图说明
图1为本发明一实施例的流程示意图。
具体实施方式
下面通过具体的实施方式结合附图对本发明作进一步详细说明。
请参见图1,图中示出的是航空座舱环境自适应语音特征模型训练方法。该方法依次执行以下步骤:
步骤s1,采集个人自适应语音特征。
步骤s11,模拟航空座舱环境,输入个人自适应语音数据。
步骤s12,将个人自适应语音数据设计为16k采样16bit语音数据,模拟航空座舱环境进行采集。
步骤s13,提取个人自适应语音特征:
步骤s131,获取帧数语音数据。
步骤s132,将帧数语音数据设计为每帧400个采样点。
步骤s133,采用75维mel频标系数(mfc)作为语音特征参数,每帧语音特征参数75×16bit。
步骤s2,提供个人自适应语音标注。
步骤s21,输入个人自适应文本数据。
步骤s22,按照发音词典的标准规范,将个人自适应文本数据涉及的文本内容根据音素状态列表转换成三音子结构的音素标注形式。
步骤s3,提供基础特征模型。
基础特征模型为多层深度神经网络(dnn)模型,输入层为步骤s1中配套的语音特征,输出层为步骤s2中配套的语音标注。基础特征模型经过大规模语音数据训练(>3000小时)。
步骤s4,采用深度神经网络(dnn)自适应算法,结合个人自适应语音特征与其对应的个人自适应语音标注更新基础特征模型,以生成自适应模型。
步骤s5,识别测试,验证自适应模型对于个人语音识别的提高能力。
步骤51,模拟航空座舱环境,输入测试语音及其对应的语音标注,其中,测试语音为命令词。
步骤52,将测试语音转换为与步骤s133中相同的mel频标系数(mfc)特征。
步骤53,在自适应模型中进行维特比搜索,匹配分数最高的即为识别结果,得到测试文本数据,通过与步骤52中的语音标注对比,得到自适应模型的识别性能。
步骤s6,模型打包,生成个人特征库。
其中,多层深度神经网络(dnn)模型采用多层神经网络对于说话人发音特点进行非线性拟合,相对于传统模型具有稳健性高,抗噪性能强,识别率高的特点。采用少量说话人语音对于标准dnn模型进行自适应,能使dnn模型更加符合说话人特点。
以上仅表达了本发明的实施方式,其描述较为具体和详细,但且不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。