一种基于心电信号与语音信号的双模态情感识别方法

文档序号：2823720阅读：304来源：国知局

专利名称：一种基于心电信号与语音信号的双模态情感识别方法
技术领域：
本发明涉及一种语音识别方法，特别涉及一种基于心电信号与语音信号的双模态情感识别方法。
背景技术：
自动情感识别是通过模式识别的理论和方法从反映情感变化的生物信号数据中识别内在的情感状态。目前情感识别向多模态方向发展，单一的依靠表情、语音或者生理参数来进行情感识别的研究取得了一定的成果，但是如何将这些不同性质的情感信号融合，达到识别性能上的互补，建立一个鲁棒性强、识别率高的系统需要进一步的研究。
$ * 胃 _ t fr， ^"Bimodal fusion of emotional data in an automotiveenvironment”一文中，S. Hoch等人通过融合语音与表情信息在车载环境下进行了正面(愉快)、负面(愤怒)与平静等三类情感状态的识别。在“Analysis of emotion recognitionusing facial expressions, speech and multimodal information，，一文中， C. Busso等人分析了单一的语音情感识别与人脸表情识别在识别性能上的互补性，分别通过特征层融合与决策层融合进行基于多模态信息的情感识别。在“From physiological signalsto emotions implementing and comparing selected methods for feature extractionand classification”一文中，J. Wagner等人融合了肌动电流、心电、皮肤电阻、呼吸等四个通道的生理参数，获得了 92%的融合识别率。目前，心电情感识别和语音情感识别是分别开来进行的，融合心电信号和语音信号的双模态情感识别方法还没有得到研究，心电信息与语音信息之间的互补优势没有在情感识别中得到充分的利用。

发明内容
本发明目的是解决单模态情感识别方法的识别率不高的缺陷，提供一种基于心电信号与语音信号的双模态情感识别方法。本发明为实现上述目的，采用如下技术方案本发明基于心电信号与语音信号的双模态情感识别方法，包括如下步骤(1)情感数据的采集；(2)情感特征的提取；其特征在于还包括如下步骤(3)判决层融合算法(3-1)待识别的情感类别包括烦躁、喜悦和平静三个类别，对语音与心电分类器均采用高斯混合模型(GMM)来进行每种情感类别的概率模型的训练，高斯混合模型是成员密度的加权和，表示如下
MPiXt^ = YjaMXt)⑴这里Xt是D维随机向量，对应输入的待识别样本，t为样本的序号；bi(X)，i = 1，2，...，M是成员密度；i = 1，2，. . .，M是混合权值；每个成员密度是D维变量的关于均值矢量Ui和协方差矩阵Σ i的高斯函数，此处i为高斯混合模型分量的序号；完整的高斯混合模型参数表示为=Xi = {ai; Ui, Σ J, i = 1,2,... ,Μ；(3-2)子分类器即语音分类器与心电分类器的融合权值Wj，可以用式(2)来得到其中m、η代表情感模型对应的编号，λ 1为编号为i的情感模型的GMM参数组；(3-3)对每个子分类器的判决进行加权融合，则最终的分类器融合判决输出为
(3)其中j为子分类器编号，j = 1,2；(4)特征层融合算法(4-1)采用PCA方法进行语音特征与心电特征的融合与降维；(4-2)采用(3-1)中所述的高斯混合模型进行训练与识别。本发明的优点和效果在于(1)融合心电和语音进行双模态情感识别；(2)提取心电的混沌特征进行情感识别；(3)通过特征层融合算法提高识别性能。

图1——情感数据采集流程图。图2——三种情感状态下的HRV特征分析图。图3——判决层融合图。图4——特征层融合图。图5——语音与心电双模数据的特征层融合图。
具体实施例方式下面结合附图和实施例，对本发明所述的技术方案作进一步的阐述。1.情感数据的采集流程高自然度的情感数据的采集是目前情感识别领域中受到重点关注的一个问题。在发明中，我们通过让被试人员在噪声环境下进行四则运算来诱发烦躁情感，通过观看喜剧片段进行喜悦情感的诱发，通过充分的休息后采集平静状态下的数据。实验过程如图1所示。参与实验的被试为5名男性和5名女性，年龄在20岁至40岁之间，健康状况良好，近期无药物服用。在实验中要求被试人员读出指定的文本语句，录制烦躁、平静和愉快三种情感状态下的语音数据，在实验全过程中记录心电数据，并截取每条语音数据开始前半分钟到结束后半分钟时间段内的心电数据与相对应的语音数据绑定存储。每条心电数据样本的截取时间长度考虑到两个方面，Picard指出情绪一般持续1到2分钟，而HRV频谱等心电
4特征的提取一般需要至少1分钟的数据，因此在实验中截取1到2分钟的心电数据作为一条样本。2.情感特征的提取情感特征的优劣以及情感特征提取是否全面，直接影响到情感识别的性能。本发明从语音与心电两个方面提取并构造了用于识别烦躁、喜悦与平静状态的特征。基于语音信号的情感识别研究相对较多，基音、能量、共振峰以及语速等参数是受到广泛认同的有效的语音情感特征。除了这些基本的语音情感特征外，我们还提取了谱能量分布、声门波、谐波噪声比(HNR)等方面的音质特征参数，用于加强对效价维度的区分能力(烦躁与喜悦在效价维度上差异较大)。目前，通过心电信号(ECG)来进行情感识别的研究还较为缺乏，常用的心电情感特征有心率异常性(HRV)方面的时域、频域特征，更多有效的心电情感特征有待发掘，心电情感特征中的年龄差异等因素有待研究。本发明中除了常见的HRV特征外，还提取了心电信号的若干混沌特征，用于烦躁、喜悦与平静等三种情感的研究。在特征提取中，并不是提取的特征维数越多，分类器的性能就越好。大量的包含冗余信息的特征反而会带来维数灾难，因此在提取并构造情感特征时，需要从多个不同的角度来发掘不同性质的具有互补作用的情感信息。例如在语音情感识别中，传统的特征提取集中在韵律方面，造成在效价维度上的区分能力较弱，而加入了音质方面的特征参数后，情感识别率得到显著的提高。本发明从语音与心电两个角度提取了情感特征，并不是简单的增加了情感特征的数量，而是综合利用了两种不同性质的情感信息。(1)语音情感特征在本发明中使用了 74个全局统计特征，在下面列出，其中前36个特征为韵律特征，后38个特征为音质特征。特征1-10 短时能量及其差分的均值、最大值、最小值、中值、方差。特征11-25 基音及其一阶、二阶差分的均值、最大值、最小值、中值、方差；特征 26 基音范围。特征27-36 发音帧数、不发音帧数、不发音帧数和发音帧数之比、发音帧数和总帧数之比、发音区域数、不发音区域数、发音区域数和不发音区域数之比、发音区域数和总区域数之比、最长发音区域数、最长不发音区域数。特征37-66 第一、第二、第三共振峰及其一阶差分的均值、最大值、最小值、中值、方差。特征67-69 :250Hz以下谱能量百分比、650Hz以下谱能量百分比、4kHz以上谱能量百分比。特征70-74 谐波噪声比(HNR)的均值、最大值、最小值、中值、方差。其中，在构造频谱能量的分频段特征时，未采用650Hz-4kHz内的能量百分比，虽然这个频段涉及第一共振峰和几乎全部的第二共振峰，但是此频段的能量受到文本内容变化的影响较大，主要随着音位信息的变化而变化。采用了 4kHz以上频谱能量特征，根据Pittam等人的研究结果显示，这一部分频段能量的增加能反映激励程度的提高，可用于区分悲伤与愤怒等。谐波噪声比以往常用于诊断喉部疾病，是衡量说话人嗓音沙程度的一个特征。 Biemans等人将谐波噪声比作为音质特征用于评价语音的音质。
(2)心电情感特征(2. 1)时域和频域特征大多内脏器官都是受交感神经和副交感神经的双重支配的，心电信号(ECG)也不例外。心脏的每次跳动都是由窦房结的起搏引起的，窦房结内起搏细胞固有的节律性受自主神经的调节，交感神经增快其自发激动，副交感神经减慢激动。研究表明情绪的变化对心电信号有一定的影响。特别是心率变异性(HRV)等指标被越来越多的研究者用于情绪的生理心理学研究中。HRV是指逐次心跳RR间期(瞬时心率)不断波动的现象。70年代以前 HRV主要用于劳动功效学中对体力负荷和精神负荷的评价研究。1978年Wolf首先发现了 HRV降低与急性心梗后死亡的高危性之间的关系，HRV开始在临床医学中受到重视。目前，研究者们发现影响心率变异性的因素有很多，其中情绪也占了很重要的地位。在HRV的频域分析中，短时HRV功率谱的高频成分(HF)认为是同呼吸同步，可定量估计呼吸性心律失常，代表副交感神经活动指数，可作为监测心脏迷走神经活动水平的定量指标；低频成分(LF)被认为代表了交感神经活动的指数，随交感神经活动的增强而增加，而LF/HF则可作为评价心脏迷走-交感神经均衡性的定量指标，从而在一定程度上反映出情感状态的变化。三种情感状态下的HRV的低频/高频能量比(LF/HF)如图2所示。(2. 2)混沌特征采用关联维数来描述心电信号的混沌特征，关联维特征是从单变量时间序列中提取维数信息，表示系统在多维空间中的疏密程度，反映系统点与点之间的关联程度。采用 G-P算法(Grassberger-Procaccia算法，G_P算法)，实际计算中心电信号的嵌入维数设定为8附近较为合理，得到的三种情感状态下的关联维数如表1所示。表 1 (2. 3)识别用的统计特征对烦躁、喜悦和平静三种情感状态的识别，本发明中采用了以下23个心电特征参数特征1-8 关联维数、Lyapunov指数的最大值、最小值、均值、方差；特征9-12 =RR间期的最大值、最小值、均值、方差；特征13-15 =HRV的低频能量(LF)、高频能量(HF)、低频/高频能量比(LF/HF)；特征16-23 =T波、R波能量的最大值、最小值、均值、方差。3.多模态融合识别算法提取了基于语音信号与心电信号的情感特征之后，为了充分利用这两个通道中的情感信息，本发明中将分别通过判决层融合和特征层融合来进行语音与心电的双模态数据的融合识别。(1)判决层融合判决层融合算法中，首先分别设计语音情感分类器和心电情感分类器，将两个分类器依据一定的准则进行判决融合，得到最终的识别结果，如图3所示。本发明中待识别的情感类别包括烦躁、喜悦和平静三个类别，对语音与心电分类器均采用高斯混合模型(Gaussian Mixture Model, GMM)来进行每种情感类别的概率模型的训练，高斯混合模型是M成员密度的加权和，可以用如下形式表示

这里X是一 D维随机向量；bi(X)，i = 1，2，...，M是成员密度；，i = 1,2,..., M是混合权值。每个成员密度是一 D维变量的关于均值矢量Ui和协方差矩阵Σ i的高斯函数，形式如下其中混合权值满足条件二 1。完整的高斯混合密度由所有成员密度的均值矢量、协方差矩阵和混合权值参数化。这些参数聚集一起表示为 GMM模型的参数估计采用EM算法迭代计算获得。当存在噪声干扰时，语音分类器的性能会发生下降，当心电电极受到抖动、碰撞或者仪器内部的基线漂移干扰时，心电分类器的性能会发生下降。这就需要我们在选择判决层融合算法时，考虑评价各个子分类器在某一时刻的置信度，根据分类器的输出置信度来进行融合判决。我们采用一种样本自适应的方法来衡量分类器对当前样本的判决是否可靠，对置信度高的分类器给予较高的融合权值，对于置信度低的分类器赋予较低的融合权值。子分类器(语音分类器与心电分类器)给出的三类情感类别的GMM似然度分别记为， P (X| Ai),! = 1，2，3，对应三种情感类别。如果属于各个类别的GMM似然度基本相等或差别不大时，则认为该样本很可能处于概率分布模型的重叠区域，该子分类器的判决置信度较低；而当分类器给出的似然度值较为分散时，则认为样本处于概率分布模型的非重叠区域，该子分类器的判决置信度则较高。由此每个子分类器的融合权值Wj，可以用式(5)来得到。
当分类器判决越可靠时，差值越大，Wj越大，反之当越小时，说明样本距离重叠区域越近，分类可靠性越差。定义了子分类器的融合权值后，对每个子分类器的判决进行加权融合。则最终的分类器融合判决输出为，其中j为子分类器编号，本发明中j = 1,2(2)特征层融合在特征层融合中并不设计多个单模态的情感分类器，而是将来自多个通道的大量情感特征通过特征选择算法进行优化选取，使用单个分类器对由语音数据与心电数据共同构成的最佳特征组进行分类识别，如图4所示，其中对双模态数据组成的特征，采用上文所述的高斯混合模型进行训练与识别。用于情感识别的原始语音特征，包括了韵律特征和音质特征等74维；与情感状态有关的心电特征，包括非线性特征、时域特征、频域特征等23维。特征层融合的关键是对这些原始的情感特征进行优化选取，使得语音和心电双模态数据高效组合，提高特征与情感的相关程度。通常进行特征优化的方法有包装法(wrapper)和滤波法(filter)。其中 wrapper方法与情感识别系统后端所采用的识别器相关性较大，采用不同的模式识别方法，会对特征选择的结果产生较大的影响；filter法能够在一定的准则下找出最佳意义上的情感特征，通用性较 wrapper 方法好，如 PCA (Principal components analysis, PCA)方法、 LDA(Linear discriminant analysis,LDA)方法等。本发明中采用PCA方法进行语音特征与心电特征的融合与降维，利用语音特征与心电特征之间的互补性，截取PCA变换的前5个维度来构成识别用的特征矢量。在PCA变换后的前三个维度构成的特征空间中，三类心电情感样本的分布如图5所示。4.识别结果在识别测试中采用GMM模型来拟合各类情感的概率分布结构，GMM混合度设为6，训练样本集包含每种情感的300条语音样本与300条心电样本，测试集包含每种情感的100 条语音样本与100条心电样本。在单模态条件下，仅通过语音数据的情感识别率如表2所示，仅依靠心电数据的单分类器情感识别率如表3所示。表 2 表 3 如表2，语音分类器的平均识别率达到了 80%，烦躁情感在实际中具有重要的应用价值，烦躁的平均识别率为81%，说明本发明中采用的语音情感特征与烦躁情感的相关性较高，能够用于烦躁情感的识别。如表3，基于心电数据的单模态分类器对三种情感状态的区分能力要弱于语音情感识别获得的结果，平均识别率略高于71%，因此单纯依靠心电数据的情感识别在实际应用中会遇到一定的困难，需要同其他类型的情感数据相结合来进行多模态的情感识别，以提高识别率与可靠性。在多模态的情感识别中，采用图3与图4中的识别系统，通过判决层融合与特征层融合两种方法来进行情感识别，实验结果显示，相比单个分类器识别性能有了显著的提高。其中判决层融合方法的平均识别率达到了 88%，基于特征层融合的平均识别率达到了 90%以上。虽然单独的基于心电数据的分类器对情感的识别能力有限，但是心电数据提供了一部分语音数据所不能替代的生理信息，如HRV特征LF/HF可作为评价心脏迷走-交感神经均衡性的定量指标，从而在一定程度上反映出情感状态的变化。通过加入心电数据后情感识别系统的性能得到了明显的提高，相比传统的语音单模态识别系统，平均识别率提高了约9个百分点。对比两种融合方法的识别结果，如表4和表4所示，可以看到判决层融合算法在平均识别率上略低于特征层融合算法两个百分点，后者对喜悦状态的识别率较高达到了 94%，对于烦躁状态的识别，两种融合方法都获得了性能上的显著的提高，说明本发明中的多模态融合算法获得了预期的效果。判决层融合算法的优势在于其中的每个分类器都是相互独立的，当某一通道的情感数据无法获取或质量较低时，判决层仍然能够进行情感识别，鲁棒性较高。特征层融合的方法能够在一定条件下获得最佳的特征压缩与优化性能，在识别测试中识别率要略高于基于判决层的融合方法。表 4 表 5 本发明请求保护的范围并不仅仅局限于本具体实施方式
的描述。
权利要求
一种基于心电信号与语音信号的双模态情感识别方法，包括如下步骤(1)情感数据的采集；(2)情感特征的提取；其特征在于还包括如下步骤(3)判决层融合算法(3-1)待识别的情感类别包括烦躁、喜悦和平静三个类别，对语音与心电分类器均采用高斯混合模型(GMM)来进行每种情感类别的概率模型的训练，高斯混合模型是成员密度的加权和，表示如下 <mrow><mi>p</mi><mrow> <mo>(</mo> <msub><mi>X</mi><mi>t</mi> </msub> <mo>|</mo> <mi>λ</mi> <mo>)</mo></mrow><mo>=</mo><munderover> <mi>Σ</mi> <mrow><mi>i</mi><mo>=</mo><mn>1</mn> </mrow> <mi>M</mi></munderover><msub> <mi>a</mi> <mi>i</mi></msub><msub> <mi>b</mi> <mi>i</mi></msub><mrow> <mo>(</mo> <msub><mi>X</mi><mi>t</mi> </msub> <mo>)</mo></mrow><mo>-</mo><mo>-</mo><mo>-</mo><mrow> <mo>(</mo> <mn>1</mn> <mo>)</mo></mrow> </mrow>这里Xt是D维随机向量，对应输入的待识别样本，t为样本的序号；bi(X)，i＝1，2，...，M是成员密度；ai，i＝1，2，...，M是混合权值；每个成员密度是D维变量的关于均值矢量Ui和协方差矩阵∑i的高斯函数，此处i为高斯混合模型分量的序号；完整的高斯混合模型参数表示为λi＝{ai，Ui，∑i}，i＝1，2，...，M；(3-2)子分类器即语音分类器与心电分类器的融合权值wj，可以用式(2)来得到 <mrow><msub> <mi>w</mi> <mi>j</mi></msub><mo>=</mo><mfrac> <mrow><munder> <mi>Σ</mi> <mrow><mn>1</mn><mo>≤</mo><mi>m</mi><mo><</mo><mi>n</mi><mo>≤</mo><mn>3</mn> </mrow></munder><mo>|</mo><mi>ln</mi><mrow> <mo>(</mo> <mi>P</mi> <mrow><mo>(</mo><mi>X</mi><mo>|</mo><msup> <mi>λ</mi> <mi>m</mi></msup><mo>)</mo> </mrow> <mo>)</mo></mrow><mo>-</mo><mi>ln</mi><mrow> <mo>(</mo> <mi>P</mi> <mrow><mo>(</mo><mi>X</mi><mo>|</mo><msub> <mi>λ</mi> <mi>n</mi></msub><mo>)</mo> </mrow> <mo>)</mo></mrow> </mrow> <mrow><mo>|</mo><munderover> <mi>Σ</mi> <mrow><mi>i</mi><mo>=</mo><mn>1</mn> </mrow> <mn>3</mn></munderover><mi>ln</mi><mrow> <mo>(</mo> <mi>P</mi> <mrow><mo>(</mo><mi>X</mi><mo>|</mo><msup> <mi>λ</mi> <mi>i</mi></msup><mo>)</mo> </mrow> <mo>)</mo></mrow><mo>|</mo> </mrow></mfrac><mo>-</mo><mo>-</mo><mo>-</mo><mrow> <mo>(</mo> <mn>2</mn> <mo>)</mo></mrow> </mrow>其中m、n代表情感模型对应的编号，λi为编号为i的情感模型的GMM参数组；(3-3)对每个子分类器的判决进行加权融合，则最终的分类器融合判决输出为 <mrow><msup> <mi>i</mi> <mo>*</mo></msup><mo>=</mo><mi>arg</mi><mi>max</mi><mo>{</mo><munderover> <mi>Σ</mi> <mrow><mi>j</mi><mo>=</mo><mn>1</mn> </mrow> <mn>2</mn></munderover><msub> <mi>w</mi> <mi>j</mi></msub><msup> <mi>P</mi> <mi>j</mi></msup><mrow> <mo>(</mo> <mi>X</mi> <mo>|</mo> <msub><mi>λ</mi><mi>i</mi> </msub> <mo>)</mo></mrow><mo>}</mo><mo>-</mo><mo>-</mo><mrow> <mo>(</mo> <mn>3</mn> <mo>)</mo></mrow> </mrow>其中j为子分类器编号，j＝1，2；(4)特征层融合算法(4-1)采用PCA方法进行语音特征与心电特征的融合与降维；(4-2)采用(3-1)中所述的高斯混合模型进行训练与识别。
全文摘要
本发明公布了一种基于心电信号与语音信号的双模态情感识别方法，所述方法包括如下步骤(1)情感数据的采集；(2)情感特征的提取；(3)判决层融合算法(3-1)待识别的情感类别包括烦躁、喜悦和平静三个类别，对语音与心电分类器均采用高斯混合模型(GMM)来进行每种情感类别的概率模型的训练，高斯混合模型是成员密度的加权和；(4)特征层融合算法(4-1)采用PCA方法进行语音特征与心电特征的融合与降维；(4-2)采用(3-1)中所述的高斯混合模型进行训练与识别。本发明融合心电和语音进行双模态情感识别；提取心电的混沌特征进行情感识别；识别性能高。
文档编号G10L15/02GK101887721SQ20101023050
公开日2010年11月17日申请日期2010年7月19日优先权日2010年7月19日
发明者余华, 王开, 赵力, 邹采荣, 黄程韦申请人:东南大学

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：赵力;黄程韦;邹采荣;余华;王开
技术所有人：东南大学
我是此专利的发明人

上一篇：基于情感对特征优化的语音情感分类方法
上一篇：一种基于传感器获取声音信号的方法及装置的利记博彩app