基于听觉仿生中耳蜗基底膜的声源定位方法
【技术领域】
[0001] 本发明涉及语音识别领域,特别是一种具有人耳听觉特性的声源定位方法。
【背景技术】
[0002] 人与人之间最主要、最方便、最快捷的信息交换就是语言。语言中传播信息的载体 就是声音信号,其在生活中无处不在。声音信号中的响度、频谱以及音高等特征都可以反映 出声音信号的方向、位置等特征。因此世界各国都在对声音信号做了大量的研究,也付出了 巨大的努力。使得语音交互技术慢慢成熟与各方面理论日趋完善。在声音信号的研究里,声 源定位技术的研究是及其重要的一个方面。"鸡尾酒会效应"充分展示了人耳听觉系统的语 音分离与定位功能,并且让研究人员对噪声环境下声源定位技术的研究产生了兴趣。在听 觉生理学、人工智能和语音识别技术的不断发展下,研究学者也更加关注声源定位技术。
[0003] 如今,声源定位技术已经广泛地运用到生活中了,比如:在智能机器人中,让机器 人能更好对声源进行实时定位,提高智能机器人的人-机交互和语音识别能力;在视频电话 会议中摄像头能够很快的对准讲话人的位置,其是通过麦克风接收声音信号,利用这声源 定位技术对信号进行分析和处理,获得声源方位,从而引导相应的摄像头,使其指向当前说 话人的方向。
[0004] 伴随着科技不断地进步,研究者对于说话人的定位技术也不断地更新着,主要可 以分为声源定位技术、电磁波定位技术、激光定位技术和视频定位技术。经过几十年的发展 与研究,如今的视频定位技术已经是非常成熟,其可以实现目标的定位与跟踪等功能。然而 声源定位技术却更加吸引研究者的重视,这主要归功于声源定位技术有着其独特的优势。
[0005] 第一,隐蔽性。声源定位技术仅仅利用麦克风来接收声音信号,而不必向外界发送 任何东西,这一点使得声源定位技术在不改变周围环境下轻松地得到外界目标声音的信 息,而自己本身的位置却很难被外界所发现。正是声源定位技术的隐蔽性,使得很多潜水艇 在作战中不会轻易打开声呐等设备,却会使用声源定位技术来追踪目标的位置。
[0006] 第二,实用性。声音是属于声波,声波在传输中不会受到电磁场、光线强弱等的干 扰与限制。光线强度弱的情况下对于视频定位技术影响很大,存在障碍物的环境下对电磁 波有一定的干扰。例如:在深海中由于光线很弱,视频定位技术就不能使用,而激光与电磁 波在深海中能量的衰减很快导致穿透距离很短。这种情况下声源定位技术却不会受限制于 深海环境中,可以很好的实现目标声源的定位。
[0007] 第三,易实现。声源定位技术相比于其他几种定位技术,在成本上与设备上的要求 就低很多了,使得声源定位技术在生活中容易得到应用。
[0008] 因为声源定位技术的发展有着巨大的潜力,所以研究人员不断的深入研究、探索 声源定位技术。声源定位的实现条件也比较容易,使其能运用在各个领域,包括军事方面、 语音分离方面等。目前,研究学者已经给出了多种声源定位技术的系统。从最初的基于麦克 风阵列信号的声源定位系统,到如今的基于过零点声源定位系统与人耳听觉系统的声源定 位系统。经过几十年的发展,基于麦克风阵列的声源定位系统已经非常完善,但是它的结构 太大,需要的麦克风也非常的多,计算量又大又复杂。学者在大量的实验结果中发现:基于 麦克风定位技术的准确度还是无法与人耳的准确度相媲美。最近几年,越来越多的学者在 研究基于人耳听觉的声源定位技术,本文也将研究在噪声环境下基于听觉仿生的声源定 位。
【发明内容】
[0009] 针对以下现有的不足,提出了一种提高定位精度、良好的抗噪性和鲁棒性的基于 听觉仿生中耳蜗基底膜的声源定位方法。。本发明的技术方案如下:一种基于听觉仿生中耳 蜗基底膜的声源定位方法,其包括以下步骤:
[0010] 1)采用双麦克风模拟人耳听觉系统获取含噪声的语音信号;
[0011] 2)对步骤1)得到的含噪声的语音信号,采用基于人耳听觉中的耳蜗基底膜模型进 行频率分解、通过上橄榄核模型进行语音特征提取、采用膜上的内毛细胞模型进行信号转 换以及内毛细胞上的神经纤维模型进行细胞重合,去除噪声信号;
[0012] 3)步骤2)去处噪声信号的声源信号通过能量的关系式求解出声源位置,完成定 位。
[0013] 进一步的,所述步骤2)采用基于人耳听觉中的耳蜗基底膜模型进行频率分解具体 为;采用具有人耳听觉特性的Ga_atone伽马通滤波器组对语音信号进行频率分解。
[0014] 进一步的,所述Gammatone伽马通滤波器组频率的选择范围从20Hz-4KHz分别对 左、右耳混叠信号按时间帧进行频率分解;耳蜗基底膜模型将语音信号按照滤波器个数进 行传递。
[0015] 进一步的,所述步骤2)通过上橄榄核模型进行语音信息提取具体为;
[0016] 耳蜗基底膜处理语音信号后分成多个通道传递给上橄榄复合体进行语音信号的 ITD双耳时间差和ILD双耳水平差定位信息的提取,ITD的计算公式如下:
[0018] 式中:
[0019]
_左耳和右耳的语音信号的互相关,可由下式计算:
[0021] 式中:
[0022] --左耳和右耳语音信号互功率谱 [0023] ILD的计算公式如下:
[0026] 式中:
[0027] 4(、奴--左耳和右耳的ILD值;Ω i--子带i的频率范围(ΙΚΗζ~4KHz)Wi (ω )--滤波器权重;s( ω )--声源功率谱。
[0028] 进一步的,当信号为20Hz到1000Hz低频语音信号时,重合神经元模型只有来自上 橄榄内侧的语音特征输入;1000Hz到4KHz语音信号时,上橄榄外侧和上橄榄内侧的语音特 征都输入重合神经元;高于4KHz语音信号时,重合神经元只有上橄榄外侧语音特征的输入。
[0029] 进一步的,所述步骤2)采用膜上的内毛细胞模型进行信号转换的步骤具体为;采 用内毛细胞模型对声音信号进行半波整流,并且将基底膜上的机械振动信号转变为相应的 生物电信号,并将生物电信号传递给听觉神经纤维;
[0030] 进一步的,所述内毛细胞模型主要由5个标准量构成,其分别是:再生库中神经递 质的量、间隙中神经递质的量、内毛细胞中神经递质的量、细胞膜的渗透性以及神经细胞脉 冲输出的概率。
[0031] 本发明的优点及有益效果如下:
[0032] 针对传统声源定位系统抗噪性能、差精准度低的问题,提出了基于听觉仿生中耳 蜗基底膜的声源定位方法,并详细阐述了整个模型的构建过程,包括基于人耳听觉特性的 耳蜗基底膜分频滤波、基底膜上内毛细胞信号分离重合的转换、时间差能量差计算声源定 位的过程。基于听觉仿生中耳蜗基底膜的声源定位方法的定位精度远高于传统的声源定位 的精度,而且基于听觉仿生中耳蜗基底膜的声源定位方法具有良好的抗噪性和鲁棒性。
【附图说明】
[0033] 图1是本发明提供优选实施例基于听觉仿生中耳蜗基底膜的声源定位流程图; [0034] 图2为Gammatone滤波器组多频率分解图;
[0035]图3为内毛细胞模型图;
[0036]图4神经发放模型的基本电路图 [0037]图5为声源方位坐标系。
【具体实施方式】
[0038] 以下结合附图,对本发明作进一步说明:
[0039] 如图1所示,针对噪声环境下传统声源定位不能得到高信噪比的声源信号带来的 定位精度不高的问题,本文结合人耳听觉特性,提出一种基于人耳的听觉选择能力即"鸡尾 酒会效应"的选择噪声中声源的过程。含噪声的声源信号经过耳蜗基底膜模型进行频谱分 析,在经过耳蜗基底膜上的内毛细胞模型进行信号转换以及内毛细胞上的神经纤维进行细 胞重合,再通过上橄榄核模型进行语音信息提取,最终进行声源的定位。
[0040] 如图1所示,为本发明提出的基于听觉仿生中耳蜗基底膜的声源定位方法系统框 图,基于听觉仿生中耳蜗基底膜的声源定位方法包括基于人耳听觉特性中耳蜗基底膜的滤 波、内毛细胞以及其上的神经纤维的分离重合。经过耳蜗基底膜模型进行频谱分析,在经过 耳蜗基底膜上的内毛细胞模型进行信号转换以及内毛细胞上的神经纤维进行细胞重合,再 通过上橄榄核模型进行语音信息提取,最终进行声源的定位。
[0041] 如图2所示,为本发明中Gammato