一种高致病性禽流感病毒血凝素蛋白识别方法

文档序号:6461050阅读:228来源:国知局

专利名称::一种高致病性禽流感病毒血凝素蛋白识别方法
技术领域
:本发明涉及一种流感病毒血凝素蛋白识别方法,特别是一种高致病性禽流感病毒血凝素蛋白识别方法。
背景技术
:流感属于正粘病毒科,其可分为A、B及C三种。禽流感是由A型流感病毒引起的一种禽类疾病综合症。根据致病力不同,禽流感病毒(AIV)可分为非致病力、低致病力和高致病力毒株。非致病力和低致病力毒抹多呈隐性感染或症状较轻,不导致严重病变或死亡。高致病性禽流感病毒(HPAIV)传播快,具有高度致死性,对禽类的致死率高易变异且可传染人类。从2003年1月到2008年6月19日,世界卫生组织所报道实验室确诊的感染H5N1型禽流感的人类病例累计数为385人,死亡243人(http:〃www.who.int/en/)。血凝素蛋白是病毒表面的主要抗原,也是中和抗体的主要目标,其负责病毒亲和到宿主受体,通过胞吞作用与以后的膜融合进入宿主细胞,正因如此,血凝素蛋白是药物与疫苗开发的一个重要靶点(Stevens,etal.,Science,2006,312:404)。禽流感病毒致病力的分子基础尚不完全确定,科学家认为是多基因作用的结果,但确有证据表明,血凝素蛋白的氨基酸序列构成、位置及其物化性质和空间结构性质对其毒性有显著影响(Beigel,etal"N.Eng.J.Med"2005,353:1374;Garten,etal.,TrendsMicrobiol.,1999,7(3):99)。禽流感几乎包含所有A型流感病毒的基因库,其自然宿主的广泛性及遗传变异给禽流感的及时定性^貪断和预防带来;f艮大困难。其爆发突然,席巻种群,对它们产生极大破坏,一旦爆发,其不能被停止,而是快速达到高峰,然后就如其爆发时那样快速消退。因此,为控制高致病性禽流感病毒的大面积流行,减少或避免其对禽业、人身安全和世界经济的巨大破坏,这便要求采取快速检测,并用先进分子生物学技术进行病毒鉴定、检疫及免疫保护等措施。现在人类对禽流感病毒感染的实验室鉴别是通过抗原检测、细胞培养分离,或用逆转录酶-聚合酶链反应(RT-PCR)进行与流感相关的RNA检测(WorldHealthOrganization.2005.(http:〃www.who.int/csr/disease/avian—influenza/guidelines/avianlabtestsl.pdf)。但上述实验方法检测高致病性禽流感病毒是费时、费力且昂贵的。近年来,借助计算方法预测蛋白质的结构与功能已成为研究生物大分子结构与功能关系的重要手段,自从Chou与Fasman(Biochemistiy,1974,13:222)及Lim等(J.Mol.Biol.,1974,88:857)开创了蛋白质结构预测的先河,大量的方法用于蛋白质的结构预测。前人的相关研究为釆用计算方法识别高致病性禽流感病毒提供了机遇与挑战。如何建立一种有效的高致病性禽流感病毒血凝素蛋白识别方法,对于理解高致病性禽流感病毒血凝素蛋白的结构特征,以及间接地判别其所属的禽流感病毒抹的致病性高低具有重要的意义。
发明内容有鉴于此,为了解决上述问题,本发明提供了一种高致病性禽流感病毒血凝素蛋白识别方法,能够用于高致病性禽流感病毒血凝素蛋白识别,可为理解高致病性禽流感病毒血凝素蛋白的结构特征提供参考,通过对血凝素蛋白的识别,从而可以间接地判别其所属的禽流感病毒抹的致病性高低。本发明的目的是这样实现的一种高致病性禽流感病毒血凝素蛋白识别方法,包括如下步骤a)基于主成分方法,建立氨基酸全息拓朴结构得分矢量;b)应用氨基酸全息拓朴结构得分矢量对流感病毒血凝素蛋白的结构进行表征;c)用自交叉协方差方法对每个流感病毒血凝素蛋白的表征变量做归一化处理;d)用径向基核支持向量机建立禽流感病毒血凝素蛋白识别模型;e)用径向基核支持向量机建立高致病性禽流感病毒血凝素蛋白识别模型。进一步,在于步骤a)具体包括如下步骤al)精选23种氨基酸的1262种性质参数;a2)对1262种性质参数做主成分分析,得到22个主成分;a3)计算各主成分得分,将得分矢量定义为氨基酸全息拓朴结构得分;进一步,步骤b)具体包括用氨基酸全息拓朴结构得分所涉及的22个主成分对流感病毒血凝素蛋白序列进行表征,其中的每个氨基酸残基用22个氨基酸全息拓朴结构得分矢量表征;进一步,步骤c)具体包括如下步骤用自交叉协方差处理得到的每个血凝素蛋白的表征变量,设置步长/为6,使每个血凝素蛋白的表征变量数目一致,并将经自交叉协方差处理得到的变量作为高致病性禽流感病毒血凝素蛋白识别模型的自变量;进一步,步骤d)具体包括如下步骤首先定义两个指示变量,分别用'T,表示禽流感病毒血凝素蛋白样本,用"-l"表示非禽流感病毒血凝素蛋白样本,以此指示变量作为禽流感病毒血凝素蛋白识别模型的因变量,用径向基核支持向量机建立禽流感病毒血凝素蛋白识别模型;进一步,步骤e)具体包括如下步骤首先定义两个指示变量,分别用"l"表示高致病性禽流感血凝素蛋白样本,用"-l"表示低或非致病性禽流感血凝素蛋白样本,以此指示变量作为高致病性禽流感病毒血凝素蛋白识别模型的因变量,用径向基核支持向量机建立高致病性禽流感病毒血凝素蛋白识别模型。本发明的一种高致病性禽流感病毒血凝素蛋白识别方法,其中选取的氨基酸全息拓朴结构得分矢量所含信息量大、表征能力强、使用操作方便、结果易解释及拓展性能好;用自交叉协方差方法对每个血凝素蛋白序列的表征变量做归一化处理,该归一化方法能够较大程度地减少原始变量信息的损失,同时可充分考虑相邻氨基酸残基之间的交互效应及相互影响;而径向基核支持向量机通过核函数技术,可以很好地相关经自交叉协方差转换的血凝素蛋白序列表征变量及观测分类值之间的关系,可以有效的防止模型的过拟合,同时,所建模型具有良好的泛化性能。本发明的其他优点、目标和特征在某种程度上将在随后的说明书中进行阐述,并且在某种程度上,基于对下文的考察研究对本领域技术人员而言将是显而易见的,或者可以从本发明的实践中得到教导。本发明的目标和其他优点可以通过下面的说明书,权利要求书,以及附图中所特别指出的结构来实现和获得。为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作进一步的详细描述,其中图1是本发明的高致病性禽流感病毒血凝素蛋白识别流程示意图;图2是本发明的支持向量初4莫型识别结果ROC分析示意图。具体实施例方式以下将参照附图,对采用本发明的方法用于高致病性禽流感病毒血凝素蛋白识别为例进行详细的描述,包括以下步骤a)基于主成分分析方法,建立氨基酸全息拓朴结构得分矢量;收集20种天然氨基酸和3种非天然氨基酸的1262种性质参数,包括构成描述子,官能团数目、原子中心碎片和分子特性,分子电性作用矢量,分子电距矢量和全息分子电距矢量,拓朴,拓朴电荷指数,运转和路径数目,边缘邻接指数,Burden特征值,自相关,连接性指数,信息指数,特征值指数,Randic分子剖面,几何描述子,基于不同原子间距的径向基函数描述子,基于电衍射法的分子结构表征得到的描述子,加权整体不变分子的描述子及几何、拓朴与原子重量的集合描述子等。采用主成分分析压缩描述子数量,经变换后,其前22个主成分得分矩阵(23x22)累计解释了原始变量数据矩阵(23xl262)99.99。/o的方差,因此可用此22个主成分得分矩阵替代原始变量矩阵,参见表l,为方便,将22个得分矢量命名为氨基酸全息拓朴结构得分,其综合了1262个原始氨基酸性质参数的大部分信息,可以尝试将这22个主成分得分矢量用于蛋白的结构表征。表123种氨基酸的1262种性质参数的22个主成分得分<table>tableseeoriginaldocumentpage8</column></row><table>(%)累积方差48.8961.0767.5173.3977.7380.9684.l086.9489.il91.1292.7594.0695.1296.0996.8997.6298.2798.7699.2099.5499.8699.99(%)__________a20种天然氨基酸(A,E,L,S,R,Q,K,T,N,QM,W,D,H,F,Y,C,I,P,V)用常规的单个英文字母表示。bAbu(a-氨基丁酸),Ava(2-氨基戊酸),Me(2-氨基己酸)为3种非天然氨基酸。b)应用氨基酸全息拓朴结构得分矢量对流感病毒血凝素蛋白的结构进行表征;用氨基酸全息拓朴结构得分所涉及的22个主成分对流感病毒血凝素蛋白序列进行表征,其中的每个氨基酸残基用22个氨基酸全息拓朴结构得分矢量表征。每个血凝素蛋白序列根据其含有的残基数目(定义为"),以"x6个变量表征。c)用自交叉协方差方法对每个流感病毒血凝素蛋白的表征变量做归一化处理;用自交叉协方差(ACC)处理得到的血凝素蛋白的表征变量,该法考虑了蛋白质不同位点氨基酸参数之间所有交互效应,因此,在数据变换过程中可最大程度地降低信息损失。设所研究的样本集中最短序列长度为/+1,对任意一个含有w个氨基酸残基的序列,ACC处理如下"7x7'='"(/=1,2,3,...,0式中/为步长;i'和/+/为序列中氨基酸所处位置;a和6分别为第f和/+/个氨基酸相应描述子分量号,对于氨基酸全息拓朴结构得分矢量,其a,6=1,2,3,4,...,22。可看到,当计算所有可能步长时(7=1,2,3,...,/」,样本集中不同长度的序列经自交叉协方差处理后其描述子数目最终都为222x/个,此处选择步长/为6,这样每条序列可由22、6=2904个变量表征,将经自交叉协方差处理得到的变量作为血凝素蛋白识别^f莫型的自变量。d)用径向基核支持向量机建立禽流感病毒血凝素蛋白识别模型;高致病性禽流感病毒血凝素蛋白识别过程参见图1。从GenBank数据库(http:〃www.ncbi.nlm.nih.gov/)分别下载具有完整序列的899条禽流感病毒、18条B型流感病毒及78条C型流感病毒的血凝素蛋白共995条构成训练集,213条禽流感病毒、4条B型流感病毒及16条C型流感病毒的血凝素蛋白共233条构成测试集。经过氨基酸全息拓朴结构得分矢量表征,用自交叉协方差归一化处理后,首先定义两个指示变量,分别用"l"表示禽流感病毒血凝素蛋白样本,用"-l"表示非禽流感病毒血凝素蛋白样本,以此指示变量作为识别模型的因变量,用径向基核支持向量机建立禽流感病毒血凝素蛋白识别模型。对于以径向基核支持向量机分类3类血凝素蛋白问题,将其简化为2类分类问题,采用"1对2,,策略,即将3类问题中的任意1类抽出作正样本,而剩余各类作负样本,然后进行分类,如此重复3次直至每1类样本都被作为正样本抽出1次。用响应面分析法,据留一法交互检验对训练集预测所得结果评价优化支持向量机参数,若留一法交互检验所得结果相等,再以外部验证的识别结果为依据,最终,支持向量机回归参数设置为C=100.0,K(j^i)-e;c/7(-0.125IIx-Xil(2)。若分别定:^4ec为计算预测正确的样本数目所占总样本数目百分比,Sp为预测正确的禽流感病毒血凝素蛋白样本数目的百分比,&为预测正确的非禽流感病毒血凝素蛋白样本数目的百分比,MCC为马休斯相关系数等统计参数,则所建支持向量分类机对3类血凝素蛋白自检验识别,留一法及对测试集样本预测的MCC都为1.000,识别结果表明,支持向量机能够较好地识别3类流感病毒的血凝素蛋白。对于3类HA蛋白得到的支持向量分类机的每个支持向量的数目分别占总样本数目的19.3%、19.4%及19.2%,亦即对3类血凝素蛋白,分别有80.7%、80.6%及80.8%的样本可安全地删除,而不影响其对新样本的预测效果,进一步表明三个支持向量分类机都具有优良的泛化性能。进一步以(l-Sp)为横坐标,灵敏度(&)为纵坐标,绘制ROC(受试者操作特征)曲线做ROC分析。支持向量机对禽流感病毒血凝素蛋白、B型流感病毒血凝素蛋白及C型流感病毒血凝素蛋白总体分类的ROC分析结果表明,对训练集自检验识别、LOO及外部验证的MCC都为1.000,因此,其ROC曲线下的面积都为1.000,这表明,支持向量机对于3类HA蛋白的识别结果都较优。e)用径向基核支持向量机建立高致病性禽流感病毒血凝素蛋白识别模型;对于训练集中的899条禽流感病毒血凝素蛋白,其中有180条可以从GenBank数据库中获致其相应毒林所属的致病性类别,此180条血凝素蛋白序列所在毒抹的致病性根据欧共体提出的通过人工静脉接种无特定病原(SPF)鸡,以静脉内接致病性指数(IVPI)评定若引起禽流感的A型病毒对6周龄鸡的IVPI>1.2,则认为是高致病性禽流感病毒,若IVPK1.2则认为是低致病性禽流感病毒。对于其它932条血凝素蛋白的所属类别,因为未通过实验获得其所在毒抹的IVPI,因此采取欧共体应用的标准凡属于H5或H7亚型,且其裂解位点具有4个以上的聚碱性氨基酸残基,其则属于高致病性禽流感病毒的血凝素蛋白,否则属于低致病性禽流感病毒血凝素蛋白。以180条已知其所属类别(高致病性或低致病性)禽流感病毒血凝素蛋白为训练集,基于径向基核支持向量机建立其识别模型预测并评价932条血凝素蛋白的所属类另ij(判断其来源于高致病性禽流感病毒林还是低致病性禽流感病毒林),进一步评价文中方法对之的预测结果与欧共体所用判定标准的接近程度。首先定义两个指示变量,分别用"l"表示高致病性禽流感血凝素蛋白样本,用"-l"表示低或非致病性禽流感血凝素蛋白样本,以此指示变量作为识别模型的因变量。同样以留一法及外部验证获得的结果作为评价标准,经响应面分析法优化后,支持向量机回归参数设置为C=200.0,核函数为/:(;^;)=狄;(-0.250IIHiII2),以支持向量机模型对两类禽流感病毒的血凝素蛋白自检验识别及留一法交互检验所得MCC都为1.000,对测试集样本预测的MX为0.998,结果表明,支持向量机能够较好地识别两类流感病毒的血凝素蛋白。所建支持向量分类机中支持向量的数目占总训练集样本的数目比例为34.4%,表明有65.6°/。的样本对分类不是必须的,再次表明了支持向量机可以有效地除去数据集中的不必要的信息,从而集中应用其中的有益信息对样本进行分类。参见图2,支持向量机对高致病性与低致病性禽流感病毒血凝素蛋白识别结果的ROC分析显示,对训练集样本的自检验识别和留一法交互检验所得ROC面积都为1.000,外部验证的ROC面积为0.999,这表明,所得模型可以很好的识别高致病性禽流感病毒血凝素蛋白。参见表2,列出用径向基核支持向量机模型对932个测试集血凝素蛋白预测错误的样本,分析观测结果与预测结果关系发现,除了将属于低致病性的A/chicken/Victoria/75(H7N7)样本识别为高致病性样本外,对属于非H5与H7亚型的样本识别全部正确。支持向量机方法对来源于高致病性与低致病性禽流感病毒血凝素蛋白分类结果表明,其与关于欧共体提出的若H5与H7亚型的HA蛋白裂解位点处具有4个以上碱性氨基酸则为高致病性禽流感病毒这一判别标准有密切关系。表2932个测试集血凝素蛋白中被预测错误的样本序号毒林GenBank登录号观测值预测值1A/gul隨nnesota/945/1980(Hl3N6)ABI84601-l-l2A/herringgull/Delaware/660/988(H13N6)ABI84452-l-l3A/herringgull/NJ/782/1986(H13N2)ABB87345-l-14A/chicken/Taiwan/020佛5(H6N1)ABD35556-l-15A/duck/Kingmen/E322/04(H6N2)ABD35554-l-l6A/chicken/Taiwan/chl006/04(H6N1)ABD35553-l-l7A/chicken/Taiwan/01德(H6NI)ABD35551-l-l8A/chicken/Taiwan/0706/03(H6Nl)ABD35548-l-l9A/chicken/Taiwan71205/01(H6N1)ABD35534-1:110A/chicken/Taiwan/ns2/99(H6N1)ABD35527-1-l11A/chicken/Taiwan/0824/97(H6N1)ABD35525-l-l12A/chicken/Victoria/75(H7N7)CAA87393-l113A/chicken/Hebei/326/2005(H5N1)ABC691481114A/chicken/TX/298313/04(H5N2)AAX472881115A/Denmark/17-2/03(H3N2)AAT12676-l-l16A/Denmark/15-2/03(H3N2)AAT12675-l-l17A/D函ark/18-2/03(H3N2)AAT12674-l-l18A/Denmark/37/03(H3N2)AAT12673-l-119A/Denmarky39/03(H3N2)AAT12672-l-120A/Denmark/92/03(H3N2)AAT12670-l-l21A/Denmark/14-2/03(H3N2)AAT12669-l-l22A/De歸ark/19-2/03(H3N2)AAT12668-1-l23A/Denmark/52/03(H3N2)AAT12667-l-124A/Denmark/70/03(H3N2)AAT12666-l-l25A/Denmark/16-2/03(H3N2)AAT12665-1-126A/Denmark/61/03(H3N2)AAT12664-1-l27A/D函ar固/03(H3N2)AAT12663-1-l28A/Denmark/20/03(H3N2)AAT12662-l-l29A/Denmark/63/03(H3N2)AAT12660-l-l<table>tableseeoriginaldocumentpage13</column></row><table>a未含有聚碱基氨基酸片断的样本数目未统计在内;b"l"为高致病性禽流感病毒的血凝素蛋白,"-l"为低致病性禽流感病毒的血凝素蛋白;c来自毒林A/Equine/London/1416/73(H7N7),其GenBank登录号为AAA43174;d来自毒抹A/emu/Texas/39442/93(H5N2),其GenBank登录号为AAB49655;e来自毒抹A/chicken/Pennsylvania/l/83(H5N2),其GenBank登录号AAA43160。参见表3,分析训练集中的180条HA序列构成发现,对于呈高致病性的样本其裂解位点处都具有4个以上的碱性氨基酸残基,但注意到,其中有3个来源于H5或H7亚型的血凝素样本(表3中的第20、21及22号),虽然它们在裂解位点处具有4个碱性氨基酸残基,但是它们却呈低致病性。表4932条血凝素蛋白中裂解位点处的,<table>tableseeoriginaldocumentpage14</column></row><table>未含有聚碱基氨基酸片断的样本数目未统计在内。参见表4,对比测试集中的932条血凝素蛋白中裂解位点处具有聚碱性氨基酸的片断发现,其中有4个序列片断KKRRKR-G(No.9),KKKKR-G(No.ll),RRKKKR'G(No.l2)及RRRRKR.G(No.l3)在180条序列中没有出现,但是模型将拥有此4个片断的7个样本都预测为来自高致病性禽流感病毒的血凝素蛋白,这说明模型可能能够较好地识别这些多碱性氨基酸残基片断。以上所述仅为本发明的优选实施例,并不用于限制本发明,显然,本领域这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。权利要求1.一种高致病性禽流感病毒血凝素蛋白识别方法,其特征在于包括如下步骤a)基于主成分分析方法,建立氨基酸全息拓扑结构得分矢量;b)应用氨基酸全息拓扑结构得分矢量对流感病毒血凝素蛋白的结构进行表征;c)用自交叉协方差方法对每个流感病毒血凝素蛋白的表征变量做归一化处理;d)用径向基核支持向量机建立禽流感病毒血凝素蛋白识别模型;e)用径向基核支持向量机建立高致病性禽流感病毒血凝素蛋白识别模型。2.根据权利要求1的一种高致病性禽流感病毒血凝素蛋白识别方法,其特征在于步骤a)具体包括如下步骤al)精选23种氨基酸的1262种性质参数;a2)对1262种性质参数做主成分分析,得到22个主成分;a3)计算各主成分得分,将得分矢量定义为氨基酸全息拓朴结构得分。3.根据权利要求2的一种高致病性禽流感病毒血凝素蛋白识别方法,其特征在于步骤b)具体包括用氨基酸全息拓朴结构得分所涉及的22个主成分对流感病毒血凝素蛋白序列进行表征,其中的每个氨基酸残基用22个矢量表征。4.根据权利要求3的一种高致病性禽流感病毒血凝素蛋白识别方法,其特征在于步骤c)具体包括如下步骤用自交叉协方差处理得到的每个血凝素蛋白的表征变量,设置步长/为6,使每个血凝素蛋白的表征变量数目一致,并将经自交叉协方差处理得到的变量作为高致病性禽流感病毒血凝素蛋白识别模型的自变量。5.根据权利要求4的一种高致病性禽流感病毒血凝素蛋白识别方法,其特征在于步骤d)具体包括如下步骤首先定义两个指示变量,分别用"l"表示禽流感病毒血凝素蛋白样本,用"-r表示非禽流感病毒血凝素蛋白样本,以此指示变量作为禽流感病毒血凝素蛋白识别模型的因变量,用径向基核支持向量机建立禽流感病毒血凝素蛋白识别模型。6.根据权利要求1至5中任一项的一种高致病性禽流感病毒血凝素蛋白识别方法,其特征在于步骤e)具体包括如下步骤首先定义两个指示变量,分别用"r,表示高致病性禽流感病毒血凝素蛋白样本,用"-r,表示低或非致病性禽流感病毒血凝素蛋白样本,以此指示变量作为高致病性禽流感病毒血凝素蛋白识别模型的因变量,用径向基核支持向量机建立高致病性禽流感病毒血凝素蛋白识别模型。全文摘要本发明公开了一种高致病性禽流感病毒血凝素蛋白识别方法,能够用于高致病性禽流感病毒血凝素蛋白识别,可为理解高致病性禽流感病毒血凝素蛋白的结构特征提供参考,通过对血凝素蛋白的识别,从而可以间接地判别其所属的禽流感病毒株的致病性高低,包括如下步骤a)基于主成分分析方法,建立氨基酸全息拓扑结构得分矢量;b)应用氨基酸全息拓扑结构得分矢量对流感病毒血凝素蛋白的结构进行表征;c)用自交叉协方差方法对每个流感病毒血凝素蛋白的表征变量做归一化处理;d)用径向基核支持向量机建立禽流感病毒血凝素蛋白识别模型;e)用径向基核支持向量机建立高致病性禽流感病毒血凝素蛋白识别模型。文档编号G06F19/00GK101308526SQ20081006993公开日2008年11月19日申请日期2008年7月7日优先权日2008年7月7日发明者李志良,力杨,梁桂兆,虎梅申请人:重庆大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1