一种基于相关向量机的数字化肺音特征降维方法
【专利摘要】本发明公开了一种基于相关向量机的数字化肺音特征降维方法,属于数字医疗技术领域。本发明将特征空间映射到样本空间,利用互信息特征核函数来表征肺音样本特征属性之间的联系强度,最终实现肺音特征的降维。包括在肺音数据库中选择肺音数据作为肺音样本,建立相关向量机;建立肺音特征向量样本集;基于RVM肺音特征向量降维。本发明具有鲁棒性和稀疏性的优点,对数据噪声不敏感,减少了采集噪声引起的不确定性;适合于处理高维肺音特征的情况。本发明中提出的降维方法利用肺音特征间的互信息作为核函数,在模型中充分考虑了特征之间的联系强度,不仅保障了降维结果的简约性,同时保障了保留特征的完备性。
【专利说明】
一种基于相关向量机的数字化肺音特征降维方法
技术领域
[0001 ]本发明属于数字医疗技术领域,涉及肺部数字诊疗领域,具体涉及一种利用相关 向量机的方法对肺音中蕴含的特征进行约减,为利用数字肺音进行诊断提供准确的数据 源。
【背景技术】
[0002] 肺音中包换了丰富的病理信息,利用肺音对人体的肺部健康状态进行检测具有对 被测者无创伤和对疾病可预测的优点。利用采集的数字化肺音进行肺部诊断具有智能化特 性,在国际上被称为肺音识别。对于肺音识别的研究,国内外学者作了许多的研究工作,提 出了一些较实用的理论和方法,在模式识别领域,模糊集理论、小波理论、神经网络、遗传算 法等理论和方法被广泛应用。但是这些方法都需要提取出可用于识别的特征。
[0003] 目前用于肺音识别的特征多种多样,如声音特征、频谱特征等。可是在特征维数不 断增加的同时,也会带来灾难维数的问题,因此需要对特征进行约减,降维,祛除冗余属性。 用于特征约减的主要方法有主成分分析法(Principal Component Analysis,PCA)、线性判 另ll 分析法(Linear Discriminant Analysis, LDA)及独立成分分析(Independent Component Ana lysis, I CAhPCA、LDA、ICA方法都是利用线性变化的方法对特征进行降维, 不适合处理属性间存在非线性关系的特征。但是在肺音识别领域,肺音的特征之间是非线 性的。
【发明内容】
[0004] 本发明针对现有技术中难以从肺音数据中提取出准确的、无冗余特征的问题,提 出了一种利用相关向量机(Relevance Vector Machine,RVM)对肺音特征进行约减的方法, 来实现肺音特征的降维。此方法将特征空间映射到样本空间,利用互信息特征核函数来表 征肺音样本特征属性之间的联系强度,最终实现肺音特征的降维。
[0005] 本发明提供的一种基于相关向量机的数字化肺音特征降维方法,包括如下步骤:
[0006] 第一步,在肺音数据库中选择肺音数据作为肺音样本,建立相关向量机。
[0007] 第二步,建立肺音特征向量样本集T。
[0008] 第三步,基于RVM肺音特征向量降维,具体为:
[0009] 3.1建立基于RVM的肺音特征降维模型。
[0010] 3.2构建互信息特征核函数。
[0011] 3.3基于RVM的肺音特征向量降维模型求解。
[0012] 本发明具有的优点和积极效果在于:
[0013] 1.鲁棒性:肺音采集的数据中不可避免的会存在噪声,本发明提出的数字化肺音 特征降维方法在模型建立时就考虑了噪声的影响。对数据噪声不敏感,减少了采集噪声引 起的不确定性。
[0014] 2.稀疏性:本发明中提出的数字化肺音特征降维方法是稀疏的,运算结果中,多数 特征的系数为零,只有相关向量的系数是非零的,适合于处理高维肺音特征的情况。
[0015] 3.本发明中提出的降维方法利用肺音特征间的互信息作为核函数,在模型中充分 考虑了特征之间的联系强度,不仅保障了降维结果的简约性,同时保障了保留特征的完备 性。
【附图说明】
[0016] 图1为本发明提供的基于相关向量机的数字化肺音特征降维方法的流程图。
【具体实施方式】
[0017] 下面结合附图和实施例对本发明进行详细说明。
[0018] 本发明提供一种基于相关向量机的数字化肺音特征降维方法,如图1所示流程,所 述方法包括如下步骤:
[0019] 第一步:在肺音数据库中以相等的数据量选择干罗音、湿罗音及无罗音肺音数据, 并且每种肺音数据类型不少于200条肺音数据,将选择的肺音数据作为肺音样本,建立相关 向量机。
[0020] 所述的肺音数据库中存储的是肺音数据,每条肺音数据中记录了采集的人体肺部 的呼吸音,每条肺音数据长度为409600个点。肺音数据库中应包含干罗音、湿罗音及无罗音 三种数据类型,并且每种数据类型不少于200条。
[0021] 第二步:建立肺音特征向量样本集。
[0022] 在本发明中,对于每一个肺音样本选取38个肺音特征f 1,f 2,…f 38构成相应肺音样 本的特征向量X,即乂=出力,一&8)。则对于第1个肺音样本仏丄)对应的特征向量为乂1上 G R38,i = 1,2,…,n,n为肺音样本个数,600。其中Yi的定义为:若第i个肺音样本为无罗 音数据,则Yi = 1;若第i个肺音样本为干罗音数据,则Yi = 2;若第i个肺音样本为湿罗音数 据,则Yi = 3。
[0023] 根据肺音样本建立的特征向量样本集T为:
[0024] (1)
[0025] 将所述的特征向量样本集T作为训练RVM模型的训练样本集。
[0026]按照序号,所述的每个肺音样本的38个肺音特征fl,f2,…f38如表1所示:
[0027] 表1肺音特征
[0031] 第三步:基于RVM肺音特征向量降维,具体为:
[0032] 3.1建立基于RVM的肺音特征降维模型。
[0033] 基于RVM的肺音特征降维模型如下: 38
[0034] z = J>,.Z;.+6. (2)
[0035]其中fj为特征向量父=出力,-心8)中的第」个肺音特征。£是零均值、方差为〇2的 高斯噪声。A为肺音特征t的权重。从(2)式可以看出<^#0所对应的肺音特征就为降维或约 减后的肺音特征。
[0036] 为了能处理非线性的情况,引进了函数(H):将Z映射为(Hz);将fj映射为(Hfj), j = l,2,…,38。则基于RVM的肺音特征降维模型即公式(2)变换为如下函数形式: 38:
[0037] (Hz) = Y〇Af))^S (3) j=i
[0038] 3.2构建互信息特征核函数;
[0039]互信息能度量出两个变量之间相互的知识关联性,因此在本发明中利用互信息作 为核函数。给出两个不相关的变量U和V,观测量分别表示为u和V,那么变量U和V之间的互信 息I(U,V)表不为:
(16)
[00411其中p (u,v)是变量U和V的联合概率密度函数,p (u)和p (v)分别是变量U和V的边缘 概率密度函数。
[0042]根据上述核函数的定义,本发明中给定一个肺音样本中的任意两个肺音特征 fv,u=l,2,…,38,v=l,2,".,38,u乒v。对于给定的训练样本集了={(父1,¥1),(父2,丫2),." (父"八")},每一个肺音样本0 1,¥〇中都存在两个肺音特征匕和匕。因此可以得到2个向量?11 ={fu1,fu2,…fun},F v = {fv1,fv2,…f/},其中f J表示肺音样本(Xi,Yi)中肺音特征fu的取值, fv1表示肺音样本(Xi,Yi)中肺音特征fv的取值,i = l,2,…,n,n为训练样本集T中肺音样本总 数。可以用下述这种方法计算两个肺音特征的互信息特征核函数K(fu,f v):
[0043] 1)将向量{",",…以丨和向量仏^丄…以丨分别划分成^^个大小相同的特征区 间,N=5〇
[0044] 2)将向量{fu1,;^2, ???fi/1}和向量{fv1,;^2,的各个元素离散化到每一个特征 区间中,如果向量{匕1,仇2,一匕"}中的最大值和最小值分别是1^\和11? 111,那么每个特征区间 的大小为(umax_umin)/5。若向量{fu1,fu 2,…以}中的某个分量的值fuk落在第k个特征区间中, 贝 ljfu1 = k,k= 1,2,…,N。
[0045] 3)计算概率密度函数 p(fu,fv),p(fu)和 p(fv):
[0046] p(fu = 1 ) = counts (fu = 1 )/n
[0047] p(fv=z) = counts(fv = z)/n
[0048] p(fu = 1 ,fv = z) = counts(fu = 1 ,fv=z)/n
[0049] 其中,〇〇111^8(;^=1)表示向量{;^1,;^2,一;^}中落在第1个区间的分量的个数,1 =1,2,…,N,counts(f v = z),表示向量{fv^fv2,中落在第z个区间的分量的个数,z = 1,2,…,N〇
[0050] 由此,将互信息核函数定义为,
m
[0052] 由互信息核函数的特性可知其满足对称非负:
[0053] K(fu,fv)=K(fv,fu) (8)
[0054] K(fu,fv)^0 (9)
[0055] 互信息特征核函数同样也满足Mercer条件,保证了 RVM算法的收敛性。
[0056] 3.3基于RVM的肺音特征向量降维模型求解。
[0057] 这一步求解RVM模型即公式(3)中的肺音特征权重a = {ai,a2,…,a38}。
[0058]给定训练样本集T = {(Xi,Yd,(X2,Y2),…(Xn,Yn)},训练样本集T的似然函数为:
[0064]为了保证RVM模型的稀疏性,假设肺音特征权重ai符合均值为〇、方差为&的正态分 布,g卩ai~N(0,队),i = 1,2,…,38,则肺音特征的权重a= {ai,a2,…,a38}服从概率分布p(a P):
[0065] p(am = UZN(ai\°^rL) (13)
[0066]因此求解a = {a:,a2,…,a38}的问题与最大化后验概率p (a,0,o2| (J)(y))等价。利用 贝叶斯公式,可得,
[0067] p(a,0,o2| (J>(y))=p(a| <i> (y) ,P,〇2)p(P,〇21 <i>(y)) (14)
[0068] 其中p(a| (J) (y),0,〇2)表示已知伞(7),0,〇2的条件下权重向量 的概率分布,p(0,〇2| (My))表示已知4>(y)的条件下,0={01,02,…,038}和〇2的联合概率密 度。所述的求解参数…,a38}、0和〇2的过程具体为:
[0069] (1)首先最大化计算p(a |巾(y),0,〇2):
[0071 ]通过定义的核函数替代后得到协方差矩阵2和均值y的方程:
[0072] 5: =(〇-2K(XT,X)+A)-1 (16)
[0073] y = o-22K(XT,y) (17)
[0074]其中协方差矩阵2为一个38阶的方阵,第i行第j列的元素表示为2 第i行为一 个38维的行向量,记为 2 i;A=diag(0i,02,…,038),y= {yi,ii2,…,此}。
[0075] (2),最大化〇(0,〇21巾(7)),从而计算出参数3和〇2:
[0077] E为38阶的单位阵。
[0078] 通过偏微分可以得到审新超参数3和噪声方差〇2的方稈:
[0083]经过(1)和(2)步骤反复迭代计算(优选100次)来更新各个参数,最终将会得到稀 疏的肺音特征权重{^,a2,…,a38},其中大部分肺音特征权重值为零,剩下的非零权重所对 应的肺音特征即是所求的降维后的"相关特征",也就是与响应的相关性很强的特征属性。 [0084] 通过上述方法,本发明可以实现对肺音特征的有效降维。例如对于2015年3-4月份 在河北石家庄的1894个肺音案例的数据,利用本发明提出的方法,将38维的特征向量降为 12维,有效地降低了特征向量的维数。
【主权项】
1. 一种基于相关向量机的数字化肺音特征降维方法,其特征在于:包括如下步骤, 第一步,在肺音数据库中W相等的数据量选择干罗音、湿罗音及无罗音肺音数据,并且 每种肺音数据类型不少于200条肺音数据,将选择的肺音数据作为肺音样本,建立相关向量 机; 第二步,建立肺音特征向量样本集T为: T=KXl,Yl),(X2,Y2),---(Xn,Yn)}; 对于每一个肺音样本选取38个肺音特征…f38构成相应肺音样本的特征向量X,即 X = (f 1,f 2,…f 38),则对于第i个肺音样本(Xi,Yi)对应的特征向量为Xi,Xi G R38,i = 1,2,…, n,n为肺音样本个数,n>600;其中Yi的定义为:若第i个肺音样本为无罗音数据,贝化i=l;若 第i个肺音样本为干罗音数据,则Yi = 2;若第i个肺音样本为湿罗音数据,则Yi = 3; 第=步,基于RVM肺音特征向量降维,具体为: 3.1建立基于RVM的肺音特征降维模型; 3.2构建互信息特征核函数; 3.3基于RVM的肺音特征向量降维模型求解。2. 根据权利要求1所述的一种基于相关向量机的数字化肺音特征降维方法,其特征在 于:所述的每个肺首样本的38个肺首特征fl , f 2 ,…f 38分别为:基频、局部基频微扰、关联基 频微扰、振幅微扰、平均信噪比、第一共振峰、第一共振峰带宽、第二共振峰、第二共振峰带 宽、第=共振峰、第=共振峰带宽、共振峰中值、共振峰均值、共振峰标准方差、共振峰最大 值、共振峰最小值、共振峰脉冲个数、共振峰周期个数、局部无基频帖分数、声音的最大基频 率值、声音段的最小基频率值、声音间歇率、声音中断次数、声音段的平均频率值、声音段的 中值频率、最小振幅、平均振幅、振幅范围、偏斜度、峰度、总功率、最大功率值、最大功率所 对应的频率、总功率的75 %处所对应的功率值、总功率的50 %处所对应的功率值、总功率的 25%处所对应的功率值、总功率的25%至75%对应频率范围内,从最大功率处到最小功率 处的斜率和在总功率的25 %至75 %所对应得频率范围内的样本方差。3. 根据权利要求1所述的一种基于相关向量机的数字化肺音特征降维方法,其特征在 于:第=步中所述的基于RVM的肺音特征降维模型如下:(2) 其中。为特征向量X=(fl,f2,…f38)中的第j个肺音特征,e是零均值、方差为02的高斯 噪声,Qj为肺音特征fj的权重; 为了能处理非线性的情况,引进了函数(6():将Z映射为(Hz);将。映射为(1)化)J = 1,2,…,38,则基于RVM的肺音特征降维模型即公式(2)变换为如下函数形式:0)4. 根据权利要求1所述的一种基于相关向量机的数字化肺音特征降维方法,其特征在 于:第=步中所述的构建互信息特征核函数,具体为, 给定一个肺音样本中的任意两个肺音特征片和;^\^,11=1,2,,,,,38,¥=1,2,,,,,38,11声¥; 对于给定的训练样本集T = {(Xi,Yi),促,Y2),…祐,Yn)},每一个肺音样本化,Yi)中都存在 两个肺音特征f U和f V ;因此得到2个向量Fu = { f,f U2,…f u。},Fv = { f ,f V2,…f V。},其中f ui表 示肺音样本化,Yi)中肺音特征fu的取值,f/表示肺音样本化,Yi)中肺音特征f V的取值,i = 1,2,…,n,n为训练样本集T中肺音样本总数;用下述运种方法计算两个肺音特征的互信息 特征核函数K(fu,fv): 1) 将向量{ful,fu2,…fun巧日向量{fvl,fV2,…fvn}分别划分成N个大小相同的特征区间,N =5; 2) 将向量{ful,fu2,…fun巧日向量{fVl,fV2,…fVn}的各个元素离散化到每一个特征区间 中,如果向量{ful,fu2,…fun}中的最大值和最小值分别是Umax和Umln,那么每个特征区间的大 小为(lW-Umin)/5;若向量{ful,fu2,…fun忡的某个分量的值fuk落在第k个特征区间中,贝|J fu" = k,k=l ,N; 3) 计算概率密度函数P(fu,fv),p(fu)和p(fv): p(fu = l) = counts(fu= l)/n p(fv = z) = counts(fv=z)/n p(fu = l ,fv=z) = counts(fu=l ,fv = z)/n 其中,counts(fu=l)表示向量{fui,fu2,…fuD}中落在第I个区间的分量的个数,i = i, 2,…,N,counts(fv = z),表示向量{fvi,fv2, ???fVn}中落在第Z个区间的分量的个数,Z = I , 2,...,N; 由此,将互信息核函数定义为,巧 由互信息核函数的特性可知其满足对称非负: K(fu,fv)=K(fv,fu) (8) K(fu,fv)^0 (9) 互信息特征核函数同样也满足Mercer条件,保证了 RVM算法的收敛性。5.根据权利要求1所述的一种基于相关向量机的数字化肺音特征降维方法,其特征在 于:第=步中基于RVM的肺音特征向量降维模型求解,包括求解肺音特征权重a = {ai,a2,…, 口38},和方差为权,具体为: 给定训练样本集1={化,¥1),促,¥2)^-祐,¥。)},训练样本集1'的似然函数为:(10) 其中,4 (X) = [ d) (。),d)祀),...,4 化8)]; I (Hy)-(HX)Q M 2 =d) (y)T(J) (y)-化T& (X)T^ (y)+口T& (X)T^ (X)日 = K(yT,y)-化 TK(xT,y)+aTK(xT,x)a (11) 其中(12) 为了保证RVM模型的稀疏性,假设肺音特征权重CU符合均值为0、方差为扣的正态分布, 即Qi~N(0,0i),i = 1,2,…,38,则肺音特征的权重a = {日1,日2,…,日38}服从概率分布p(a 10):(13) 因此求解a={ai,a2,…,038}的问题与最大化后验概率p(a,e,o2| (Hy))等价;利用贝叶 斯公式得, p(a,0,〇2| (}) (y))=p(a| (}) (y),0,〇2)p(0,〇2| * (y)) (14) 其中P(a| 4 (y),P,〇2)表示已知4 (y),0,〇2的条件下权重向量日={日1,日2,。',日38}的概 率分布,p(ey I 4 (y))表示已知4 (y)的条件下,0=化1,阮,…,038}和O2的联合概率密度; 所述的求解参数日={日1,日2,…,日38}、0和O2的过程具体为: (1) 首先最大化计算P(a| 4(y),e,〇2):(15) 通过定义的核函数替代后得到协方差矩阵X和均值ii的方程: E = (〇-2k(xT,X)+A 厂 1 (16) ii=〇-=^EK(X\y) (17) 其中协方差矩阵S为一个38阶的方阵,第i行第j列的元素表示为X U,第i行为一个38 维的行向量,记为 X i;A=diag(0i,02,...,抗8) ,Ji=山1,化,...,化8}; (2) 最大化P化,O2 d)(y)),从而计算出参数0和曰2:E为38阶的单位阵;通过偏微分得到更新超参数e和噪声方差O2的方程:(19) Yi = I- (21) (22) 经过(1)和(2)步骤反复迭代计算来更新各个参数,最终将会得到稀疏的肺音特征权重 (口1,〇2,…,038},非零权重所对应的肺音特征即是所求的降维后的"相关特征",也就是与响 应的相关性很强的特征属性。
【文档编号】G06K9/40GK105913066SQ201610229273
【公开日】2016年8月31日
【申请日】2016年4月13日
【发明人】刘国栋
【申请人】刘国栋