语音信号的处理方法及装置的制造方法
【技术领域】
[0001] 本发明设及终端技术领域,特别设及一种语音信号的处理方法及装置。
【背景技术】
[0002] 语音可懂度是指用户听懂声音系统所传递的语音信号的百分比,例如,如果用户 听到声音系统传递了 100个单词,但仅听懂了 50个单词,则用户的语音可懂度为50%。随 着便携式移动终端的外形尺寸逐渐向小型化方向发展,移动终端所能输出的最大声音功率 逐渐减小,相应地用户使用移动终端进行通信时的语音可懂度也受到了影响。由于语音可 懂度是衡量移动终端性能的一项重要指标,因此,移动终端如何处理语音信号,W改善语音 可懂度,成为其发展的关键。
[0003] 目前,在由移动终端、用户、噪声源所构成的典型声学应用场景下,现有技术采用 自动增益控制算法检测待播放的播音信号,并对待播放的播音信号中的小信号进行放大, 将放大后的播音信号转化为电信号,并将电信号传送到扬声器。通过上述放大处理,使得送 到扬声器的电信号达到扬声器所允许的最大值,扬声器工作在最大输出功率的状态下,此 时扬声器W最大的输出声压级输出语音信号。
[0004] 在实现本发明的过程中,发明人发现相关技术至少存在W下问题:
[0005] 由于通常播音信号的平均波动幅度远小于峰值波动幅度,对于一个最大额定输出 功率为1瓦的扬声器来说,在正常语音信号的激励下,它正常工作时的平均输出功率一般 仅达到最大额定输出功率的10%左右(也就是0. 1W)。在正常工作状态下,如果继续加大 输入到扬声器的电信号幅度,则播音信号中幅度较大的信号部分将导致扬声器过载,形成 饱和失真,反而降低了语音可懂度与清晰度;另外,如果仅对播音信号中的小信号作放大处 理,则将缩小播音信号的有效动态范围,对应的语音可懂度同样也得不到明显提高。
【发明内容】
[0006] 为了解决相关技术的问题,本发明实施例提供了一种语音信号的处理方法及装 置。所述技术方案如下:
[0007] -方面,提供了一种语音信号的处理方法,所述方法包括:
[0008] 从近端采集录音信号并接收对端发送的播音信号,所述录音信号中至少包括噪声 信号及回声信号;
[0009] 根据所述录音信号和所述播音信号,计算环路传递函数;
[0010] 计算所述录音信号的功率谱;
[0011] 根据所述录音信号的功率谱、所述播音信号及所述环路传递函数,计算所述回声 信号的功率谱和所述噪声信号的功率谱;
[0012] 根据所述回声信号的功率谱和所述噪声信号的功率谱,计算频率加重系数;
[0013] 基于所述频率加重系数,对所述播音信号的频点幅值进行调节;
[0014] 输出调节后的播音信号。
[0015] 另一方面,提供了一种语音信号的处理装置,所述装置包括:
[0016] 采集模块,用于从近端采集录音信号,所述录音信号中至少包括噪声信号及回声 信号;
[0017] 接收模块,用于接收对端发送的播音信号;
[0018] 第一计算模块,用于根据所述录音信号和所述播音信号,计算环路传递函数;
[0019] 第二计算模块,用于计算所述录音信号的功率谱;
[0020] 第Ξ计算模块,用于根据所述录音信号的功率谱、所述播音信号及所述环路传递 函数,计算所述回声信号的功率谱和所述噪声信号的功率谱;
[0021] 第四计算模块,用于根据所述回声信号的功率谱和所述噪声信号的功率谱,计算 频率加重系数;
[0022] 调节模块,用于基于所述频率加重系数,对所述播音信号的频点幅值进行调节;
[0023] 输出模块,用于输出调节后的播音信号。
[0024] 本发明实施例提供的技术方案带来的有益效果是:
[0025] 在确保扬声器不过载,且不破坏原始播音信号的动态幅度的前提下,自动根据噪 声信号与播音信号的频率分布,调整播音信号的频点幅值,明显提高了语音可懂度。
【附图说明】
[0026] 为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使 用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于 本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可W根据运些附图获得其他 的附图。
[0027] 图1是本发明一实施例提供的语音信号的处理方法所设及的实施环境的示意图;
[0028] 图2是本发明另一实施例提供的语音信号的处理方法的系统架构图;
[0029] 图3是本发明另一实施例提供的一种语音信号的处理方法流程图;
[0030] 图4是本发明的另一实施例提供的一种语音信号的处理方法流程图;
[0031] 图5是本发明的另一实施例提供的一种语音信号的处理方法对应的信号流的示 意图;
[0032] 图6是本发明的另一实施例提供的一种语音信号的处理方法对应的软件实现流 程图;
[0033] 图7是本发明另一实施例提供的一种语音信号的处理装置的结构示意图;
[0034] 图8是本发明另一实施例提供的一种语音信号的处理终端的结构示意图。
【具体实施方式】
[0035] 为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施方 式作进一步地详细描述。
[0036] 语音即时通讯应用是一种能够拨打网络电话或网络音频会议的应用,被广泛地安 装在智能手机、平板电脑、笔记本电脑、可穿戴电子产品等便携式移动终端设备上。随着运 些便携式移动终端的外形尺寸逐渐向小型化方向发展,移动终端设备中的微型扬声器所能 够输出的最大声功率也遇到了瓶颈。
[0037] 造成移动终端所输出的最大声功率遇到瓶颈的主要原因有W下两方面:
[0038] 第一方面、现有的电声扩音技术主要依靠功放、扬声器、音腔Ξ个部分共同作用实 现声波的产生,当扬声器与音腔的物理尺寸与声波的波长成正比时,移动终端设备中的扬 声器才能最大效率地实现电声转换。然而,随着便携式移动设备的外形尺寸向小型化发展, 移动终端的外形尺寸往往比声波的波长要小得多,W波长为340化的声波为例,若想实现 最大的声电转换效率,移动终端的尺寸需要达到1米,扬声器尺寸的微型化导致移动终端 输出的最大声音功率减小。另外,目前普遍使用的动圈式扬声器需要达到一定的尺寸厚度, W保证震膜有足够的运动空间,然而,随着移动终端的外形尺寸的减小,扬声器的厚度也相 应地变薄,由于移动终端内的整体声学设计受到了物理尺寸的限制,使得移动终端输出的 最大声功率受到了限制。
[0039] 第二方面、通常移动终端中所安装的语音即时通讯应用一般运行于操作系统之 上,需要通过操作系统提供的应用程序接口才能实现对硬件的音量控制。对于音频输入输 出而言,目前主流的实现方法是语音即时通讯应用向操作系统声明要求的音频配置模式由 操作系统对相关硬件作出设置,完成配置之后,语音即时通讯应用只需要定时地将播音信 号所对应的数据写入操作系统的录音API,再从操作系统的录音API中读取数据即可。然 而操作系统所支持的音频配置模式的类型是有限的,运些有限的音频配置模式是由移动终 端生产商在硬件底层(固件firmware)中实现的,应用程序对硬件输出音量的控制受到运 一因素的制约,此外硬件厂商往往仅针对正常的使用场景做底层的音频优化,对于极端环 境(比如存在很大环境噪声)下的使用场景,移动终端生产商一般不会对此作针对性的优 化(比如提供可W提高硬件输出音量的专用软件接口)。
[0040] 在常见的移动终端中,输出音量从大到小排序依次是:笔记本电脑、平板电脑、智 能手机(免提模式)、可穿戴设备等。在采用运些移动终端进行通信时,运几种移动终端面 临的环境噪声问题却呈相反的变化趋势:通常笔记本电脑在室内使用的使用频率比较高, 接触到的噪声也W室内低分贝的小噪声为主;平板电脑和智能手机在室外、公共场所使用 的频度要更高,接触到的噪声W高分贝的大噪声为主;可穿戴设备由于长时间佩戴在人体 上,接触到的噪声场景最多、最复杂。随着移动终端的外形尺寸向小型化发展,移动终端所 面临的环境噪声问题越来越突出,严重影响了用户使用移动终端进行通信时的体验效果。
[0041] 为了解决上述移动终端所输出的最大声功率遇到瓶颈的问题,本发明实施例提供 了一种在不对移动终端作改动的前提下,通过对语音信号进行处理,来提高移动终端的语 音可懂度的方法,采用本实施例提供的方法用户即便处于增杂的场景下,也能够听清通话 对端的语音内容。
[0042] 图1为本发明提供的语音信号的处理方法所设及到的实施环境示意图。参见图 1,该实施环境包括移动终端P、用户U及噪声源N运3个声学主体,还包括扬声器S和麦克 风M。该移动终端P中安装多个语音即时通讯应用(App),基于运些语音即时通讯应用,用 户可随时随地与其他用户进行通信。扬声器S作为音频输出设备,既可W内置于智能手机、 平板电脑、笔记本电脑、可穿戴设备等移动终端内,也可外接设备如外接音响、外接扬 声器、蓝牙音箱、蓝牙耳机的形式连接在移动终端上;同理,麦克风Μ作为音频输入设备,既 可W内置于智能手机、平板电脑、笔记本电脑、可穿戴设备等移动终端内,也可外接设 备如外接麦克风、蓝牙耳机的形式连接在移动终端上。由图1可知,麦克风Μ可W拾取到整 个场景中的声音,包括:噪声源N发出的噪声、用户U说话时发出的语音、扬声器S播出的声 音。当用户通过语音即时通讯软件与对端用户进行通信时,移动终端接收对端发送的播音 信号,将该播音信号处理之后,由扬声器转换成声波,通过空气传播给用户U并被用户U所 感知;与此同时噪声源N发出的声波也通过空气传播给用户U,同时也被用户U感知,该噪 声源N发出的声波会对用户U形成干扰,降低了用户收听时的语音可懂度。
[0043] 在声学领域,根据屯、理声学的掩蔽效应原理,当两个频率相近、幅值差别较大的信 号同时出现时,幅值较大的信号会对幅值较小的信号形成掩蔽作用。也即是,当噪声源N发 出的噪声强度很大时,用户U无法听清扬声器S中正在播放的语音内容。此时若想加大扬 声器S的输出功率,则需要加大S的物理尺寸,而运又与便携式移动终端小型化、轻薄化的 设计相矛盾。鉴于此,本发明将利用屯、理声学的掩蔽效应解决噪声信号对播音信号的干扰 问题。
[0044] 通常播音信号、噪声信号都不是单频信号,它们各自占据不同的频带范围,并且它 们在各个频点上的能量分布也不是均匀的。通过对比播音信号、噪声信号的功率谱分布,可 找到噪声信号中能量最低的那些频点,记为f_weak。本实施例在不超过扬声器输出功率的 前提下,将播音信号能量集中到f_weak附近播放出去,与此同时衰减远离f_weak的频点上 的语音能量,W避免扬声器过载。通过运种处理方式,在临近f_weak的频点上,噪声信号被 播音信号所掩蔽,用户所感知到的是播音信号的内容。在远离f_weak的频点上,播音信号 仍旧被噪声信号所掩蔽。综合上述内容,增强后的播音信号在部分频点上将噪声信号掩蔽, 使得噪声不再对播音信号形成整体掩蔽,此时用户可W听清播音信号的内容。
[0045] 图2为本发明提供的语音信号的处理方法的系统架构图。参见图2,该系统架构包 括用户U、扬声器S、麦克风ΜW及各种功能模块。其中,功能模块包括信号检测和分类模块、 频谱估计模块、环路函数传递模块、语音可懂度估计模块等,对于系统的各个模块的作用及 模块间的相互关系如下:
[0046] 其中,麦克风Μ用于拾取环境声音,在本实施例中将环境声音称为录音信号(记为 X),并将录音信号X送入信号检测与分类模块。
[0047] 信号检测与分类模块用于对录音信号进行检测与区分。通过信号检测与分类模块 的检测和区分,可输出Ξ类信号:用户U讲话时