一种可在细菌全基因组水平预测外膜蛋白质的方法

文档序号:10570248阅读:848来源:国知局
一种可在细菌全基因组水平预测外膜蛋白质的方法
【专利摘要】本发明公开了一种可在细菌全基因组水平预测外膜蛋白的方法,该方法为:利用分组重量编码算法,计算蛋白质序列特征,采用特征选择技术提取特征向量,建立基于支持向量机的分类器,对外膜蛋白质和非外膜蛋白质进行分类,通过web服务器,接受用户输入的蛋白质序列,预测其是否为一个外膜蛋白。本发明为细菌基因组内外膜蛋白质的计算机筛选提供了有效工具,在训练数据集上区分外膜蛋白质和非外膜蛋白的敏感性、特异性、总预测精度和马氏相关系数分别达到95.2%、96.1%、95.9%和0.874,在13个物种基因组内预测外膜蛋白质的结果中体现出极高的敏感性,可应用于新的细菌基因组外膜蛋白质的筛选、鉴定和功能研究。
【专利说明】
一种可在细菌全基因组水平预测外膜蛋白质的方法
技术领域
[0001] 本发明属于预测革兰阴性菌外膜蛋白质的技术领域,尤其涉及一种可在细菌全基 因组水平预测其外膜蛋白质的方法。
【背景技术】
[0002] 革兰阴性细菌外膜上分布大量beta-barrel形状的跨膜蛋白质,其中的一些蛋白 质是细菌入侵宿主细胞的功能蛋白,也是宿主免疫系统清除细菌的靶向识别蛋白,介导多 种疾病的产生,同时也能激活机体的免疫机制来对抗细菌的感染。
[0003] 当前,在新的细菌基因组内鉴定外膜蛋白主要通过实验完成。
[0004] 然而,使用实验方法对外膜蛋白进行鉴定,需要耗费大量的人力物力,成本高,效 率低。一个新的细菌基因组往往编码几千个蛋白质,使用传统实验方法对其中的外膜蛋白 质进行一一鉴定,是一件极其困难的事情。因此,使用计算机来进行生物信息学预测,可自 动化实现,速度快,成本低,是解决在细菌全基因组内鉴别外膜蛋白质的有效途径。
[0005] 因此,如何建立一种准确快速的生物信息学预测和识别算法,成为当前这一领域 需要解决的主要问题。

【发明内容】

[0006] 本发明的目的在于提供一种可在细菌全基因组水平预测其外膜蛋白质的方法,旨 在解决目前在新的细菌基因组内鉴定外膜蛋白主要通过实验完成,造成耗费大量的人力物 力,成本高,效率低的问题。
[0007] 本发明是这样实现的,一种可在细菌全基因组水平预测外膜蛋白质的方法,该可 在细菌全基因组水平预测外膜蛋白质的方法为:
[0008] 利用分组重量编码算法,计算蛋白质序列特征,提取特征向量,建立基于支持向量 机的分类器,对外膜蛋白质和非外膜蛋白质进行分类,通过web服务器,接受用户输入的蛋 白质序列,预测用户输入的蛋白质序列是否为一个外膜蛋白。
[0009] 进一步,该可在细菌全基因组水平预测外膜蛋白质的方法具体包括以下步骤:
[0010] 步骤一、用户登录web服务器主页,在文本框内输入待预测的细菌蛋白质序列;
[0011] 步骤二、服务器JSP程序获取用户输入的蛋白序列,并在前台生成结果输出页,不 断刷新;
[0012] 步骤三、JSP程序建立结果保存目录,并调用Matlab来运行核心预测程序,计算蛋 白质序列分组重量编码特征和氨基酸组成特征;
[0013]步骤四、Matlab程序将多类特征依据预设方式进行选择和组合,产生一个蛋白质 特征向量;
[0014]步骤五、Matlab程序调用libSVM程序,使用事先训练好的模型,预测蛋白质是外膜 蛋白的似然率;
[0015]步骤六、根据SVM预测结果判断其是否为一个外膜蛋白,以HTML格式保存到结果目 录;
[0016] 步骤七、负责结果输出的JSP程序不断查询结果保存目录,确认结果文件是否生 成;
[0017] 步骤八、一旦结果生成,则JSP程序将蛋白序列和判断结果均显示在前台网页。
[0018] 进一步,所述分组重量编码算法即EBGW算法为:
[0019] 蛋白质序列视为20种氨基酸残基组成的字符串,从氨基酸的疏水性、电荷性质方 面分为四组:中性非极性氨基酸61 = {6,六,¥儿,1,^,¥};中性极性氨基酸62={〇,15, !',¥,(:};酸性带负电荷的氨基酸63={〇3};碱性带正电荷的氨基酸64={11,1(,1?},两两组 合,组合方式为:{G1,G2}和 s3,…,sn是一条长度为n的蛋白质序列,通过定义以下三个映射,将序列A转化为三条0-1进 制序列:
[0020] Ti(n) = Si(s1),Si(s2)H.Si(sn)(i = l,2,3)
[0021] 其中, .,、(1 //s,-e [Gl,G2})
[0022] &⑷=|〇 ^ £ 阳,;? = (1,2,…tt)
[0023] S2(Sj)^〇 if;je[G2>G4]\j-^-n) ,、fl i/> e{Gl,6'4}) . _
[0024] ~⑷=|() ^ e = (l,2,.n)
[0025] 记(i = l,2,3),称T1,T2,T3分别为序列A的1-特征序列、2-特征序列、3-特征序列, 对于任意一条特征序列,定义该序列中"1"出现的次数为该序列的重量,重量是与序列长度 相关的一个量,进一步定义正规重量为该序列中"1"出现的频率,对于长度为n的特征序列 T,其正规重量为W(n)=p/n,其中p为序列中"1"出现的次数,取一个正整数L,将特征序列T 划分为L条长度递增的子序列,记为7\U?/L」XA=1, 2 . , L),实中[*」表示取整运算;分别 计算每条子序列的正规重量,记为砂U?/l」(^=i,2 ... 得到一个L维的向量,将长度为 n的蛋白质序列编码成为一个L维的向量,将T1,T2,T3三条特征序列向量组合在一起,得到一 个3L维的向量,记为[W1,W2,W3 ] = [W1,W2,…,W3L],称3L维的向量为序列分组重量特征向量; 计算蛋白质A序列中20种氨基酸的含量,得到一个20维的向量,其中h表示第i种氨基酸残 基在序列中的含量,为氨基酸组成特征向量;将分组重量特征和氨基酸组成特征进行组合, 将一条蛋白质序列编码为一个3L+20维的向量:
[0026] X=[W1,W2,…,W3L,fl,f2,…,f20] 〇
[0027]进一步,所述分组重量编码算法即EBGW算法中对于一条蛋白质序列,分组重量编 码特征反映不同性质的残基在序列不同区域出现的频率,氨基酸组成特征反映不同类型的 残基在整个序列中出现的频率。
[0028]进一步,计算蛋白质序列特征的web服务器后台JSP程序,将用户输入的蛋白质序 列输入matlab脚本程序,matlab脚本程序依据分组重量编码算法,采用预先设定的参数,从 蛋白质序列中计算160维分组重量编码特征,并同时计算氨基酸组成特征,将二类特征进行 不同方式的组合,得到一个组合的特征向量。
[0029] 进一步,所述提取特征向量方法为:使用F-score得分和反向特征选择算法挑选有 效特征,将挑选出来的有效特征转换成一个多维特征向量。
[0030] 进一步,所述建立基于支持向量机(SVM)的分类器,对外膜蛋白质和非外膜蛋白质 进行分类的方法为:利用libSVM3.12建立基于SVM的分类器并将多维的特征向量输入,SVM 分类器包括利用数据挖据技术建立的外膜蛋白和非外膜蛋白训练数据集,以及根据SVM算 法建立并使用训练数据训练好的分类模型,核函数,参数。
[0031] 进一步,所述使用F-score得分来筛选有效特征方法为:对于一个给定的m维训练 向量Xk,k = 1,2,…,m,若阳性和阴性的训练样本数量分别为n+和n-,则第i个特征的F-score值计算公式为:
[0033] 这里,分别为第i个特征值的均值、正样本均值、负样本均值,xk>1(+)表 示第k个阳性样本的第i个特征值,Xk>1?表示第k个阴性样本的第i个特征值,分子指出阳性 数据集和阴性数据集之间的差别,而分母指出两个数据集中每两个数据之间的差别。
[0034] 进一步,所述使用反向特征选择算法挑选有效特征方法为:进行有效特征选择时, 使用反向选择方法,首先使用全部特征来训练分类模型,每次进行选择时,在当前特征向量 中去掉F-score值最小的特征并重新进行训练和测试;测试中分类效果包括分类效果提高 和分类效果降低,分类效果提高则舍弃当前特征值,分类效果降低则保留当前特征值,重复 这一步骤,直到预测性能无法继续提高,以此时的结果作为最终选择。
[0035]进一步,所述根据SVM算法建立并使用训练数据训练好的分类模型,核函数,参数 中分类模型的构建方法为:
[0036] 首先收集样本序列,并采用BLAST算法去除冗余序列,得到外膜蛋白质序列和非外 膜蛋白质序列作为训练数据集,去除冗余序列后的每一条蛋白质序列之间的序列相似度不 超过25 %,训练SVM分类模型时,SVM核函数选择RBF核函数,惩罚因子参数使用网格搜索和 十倍交叉验证测试来确定,SVM分类模型使用libSVM中的SVMtrain程序进行训练,使用敏感 性、特异性、总预测精度和马氏相关系数综合评价预测性能,最终从测试结果中选择马氏相 关系数最优的特征组合方式和模型参数,将性能最优的模型作为最终模型输出保存。
[0037] 本发明是生物信息学方法在细菌外膜蛋白质预测领域的一个应用,其核心思想是 提出了一种结合分组重量编码和氨基酸组成的蛋白质序列特征挖掘方法,并结合机器学习 算法设计了高度准确的预测模型和算法。已知细菌外膜蛋白质普遍具有由beta折叠构成的 筒形结构,这一特别的结构形成的基础在于其序列能够形成8~22条反平行的beta折叠,如 果能够提取其中的序列特征,并依此建立序列分类算法,就可以在各类蛋白质序列中识别 这类外膜蛋白质。本发明基于上述思想,将信息学中使用的分组重量编码技术(EBGW)应用 于蛋白质序列信息提取,计算EBGW和氨基酸组成两类特征,并且设计了一种基于F-Score方 程的特征选择方法,通过该方法从组合特征向量中选择最有效的特征子集;此外,采用在模 式识别和机器学习领域表现出优异性能的支持向量机算法来建立分类模型,采用R0C曲线 确定最佳分组数量,采用网格搜索确定最佳SVM核函数和参数;使用数据库检索和文献挖掘 方法建立标准训练和测试数据集,使用BLAST同源比对技术去除数据冗余,使用敏感性、特 异性、预测精度和马氏相关系数等多个指标来衡量预测性能,通过大量性能测试建立优化 好的SVM分类模型,可以对任意未知的蛋白质序列进行预测,给出其是一个外膜蛋白质的似 然率。该程序通过web服务器的方式,接受用户输入的细菌基因组蛋白质序列,预测其是否 为一个外膜蛋白,并且具有很高的预测准确度。
[0038] 建立了包含208条外膜蛋白、879条非外膜蛋白的无冗余训练数据集,在训练数据 集上使用十倍交叉验证测试检验本发明的性能,结果显示,该方法区分外膜蛋白质和非外 膜蛋白之的敏感性、特异性、总预测精度和马氏相关系数分别达到95.2%、96.1%、95.9% 和0.874,预测性能超过了国内外研究者提出的其它方法。此外,使用该预测工具在13个物 种全基因组蛋白质中进行进行计算和预测,在革兰阴性菌基因组内,据估计大约有1.5%到 3%的蛋白质为外膜蛋白。模型在4个革兰阴性菌基因组中预测的外膜蛋白的比例与这一估 计相符,这其中包括52条包含在208个训练样本中的外膜蛋白,以及212条新预测到的外膜 蛋白。还在具备外膜结构的聚球蓝藻细菌基因组内预测到21个外膜蛋白,表明预测模型的 敏感性比较高。在不存在外膜蛋白质的2个古细菌和4个革兰阳性菌基因组内,一共预测到 0.24%的外膜蛋白(37/15616),这一比例远低于在革兰阴性菌中的数量,表明预测模型具 有很好的特异性。此外,在真核物种中的预测结果显示该预测模型也能够发现其中的外膜 蛋白,如在酵母中预测到了6个阳性结果,其中4个为已知的线粒体外膜蛋白,其中包括两个 VDAC异构体蛋白。此外,在人类基因组中预测到31个外膜蛋白,其中13个为已知的线粒体外 膜蛋白,18个为假阳性结果,表明在与细菌差异较大的人类基因组内,预测模型的特异性降 低,但是仍然保持了较好的敏感性。
[0039] 本发明可以广泛应用于鉴定细菌外膜蛋白质的相关研究。细菌外膜蛋白质是参与 细菌致病的重要分子,是众多抗菌药物的作用靶标。利用本发明及其提供的web预测服务 器,可以快速预测新的细菌基因组内的外膜蛋白质,获得一个数据量很小的外膜蛋白质候 选对象,用于实验鉴定或者其他用途,从而加速细菌基因组外膜蛋白质的鉴定过程。
【附图说明】
[0040] 图1是本发明提供的可在细菌全基因组水平预测外膜蛋白质的方法具体步骤流程 图。
[0041] 图2是本发明提供的可在细菌全基因组水平预测外膜蛋白质的算法流程图。
【具体实施方式】
[0042] 为了使本发明的目的、技术方案及优点更加清楚明白,以下结合实施例,对本发明 进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于 限定本发明。
[0043] 下面结合附图对本发明的应用原理作进一步描述。
[0044] -种可在细菌全基因组水平预测外膜蛋白质的方法,该可在细菌全基因组水平预 测外膜蛋白质的方法为:
[0045] 利用分组重量编码算法,计算蛋白质序列特征,提取特征向量,建立基于支持向量 机的分类器,对外膜蛋白质和非外膜蛋白质进行分类,通过web服务器,接受用户输入的蛋 白质序列,预测用户输入的蛋白质序列是否为一个外膜蛋白。
[0046]如图1所示:该可在细菌全基因组水平预测外膜蛋白质的方法具体包括以下步骤: [0047] S101:用户登录web服务器主页,在文本框内输入待预测的细菌蛋白质序列;
[0048] S102:服务器JSP程序获取用户输入的蛋白序列,并在前台生成结果输出页,不断 刷新;
[0049] S103:JSP程序建立结果保存目录,并调用Matlab来运行核心预测程序,计算蛋白 质序列分组重量编码特征、氨基酸组成特征;
[0050] S104:Matlab程序将多类特征依据预设方式进行选择和组合,产生一个蛋白质特 征向量;
[0051 ] S105:Matlab程序调用libSVM程序,使用事先训练好的模型,预测蛋白质是外膜蛋 白的似然率;
[0052] S106:根据SVM预测结果判断其是否为一个外膜蛋白,以HTML格式保存到结果目 录;
[0053] S107:负责结果输出的JSP程序不断查询结果保存目录,确认结果文件是否生成;
[0054] S108:-旦结果生成,则JSP程序将蛋白序列和判断结果均显示在前台网页。
[0055] 进一步,所述分组重量编码算法即EBGW算法为:
[0056]蛋白质序列视为20种氨基酸残基组成的字符串,从氨基酸的疏水性、电荷性质方 面分为四组:中性非极性氨基酸61 = {6,六,¥儿,1,^,¥};中性极性氨基酸62={〇,15, !',¥,(:};酸性带负电荷的氨基酸63={〇3};碱性带正电荷的氨基酸64={11,1(,1?},两两组 合,组合方式为:{G1,G2}和 s3,…,sn是一条长度为n的蛋白质序列,通过定义以下三个映射,将序列A转化为三条0-1进 制序列:
[0057] T^n) = Si(si) ,Si(s2) ? ? ? Si(sn)(i = 1,2,3)
[0058] 其中, …、(1 if s. e{Cl,G2})
[_吨H。"E阳小m) /、 f 1 if Si G
[0060] i/s;e(G2(G4}j /-(U-n) ,、fl i/&e{Cl,G4}) _] ^.e{G2,G3}j) = (U-i)
[0062]记(i = l,2,3),称T1,T2,T3分别为序列A的1-特征序列、2-特征序列、3-特征序列, 对于任意一条特征序列,定义该序列中"1"出现的次数为该序列的重量,重量是与序列长度 相关的一个量,进一步定义正规重量为该序列中"1"出现的频率,对于长度为n的特征序列 T,其正规重量为W(n)=p/n,其中p为序列中"1"出现的次数,取一个正整数L,将特征序列T 划分为L条长度递增的子序列,记为T(LA77/L」)(X:=U 2 , L),其中L*」表示取整运算;分别 计算每条子序列的正规重量,记为沙U?/L」(hl,2 ...,U),得到一个L维的向量,将长度为 n的蛋白质序列编码成为一个L维的向量,将T1,T2,T3三条特征序列向量组合在一起,得到一 个3L维的向量,记为[W1,W2,W3 ] = [W1,W2,…,W3L],称3L维的向量为序列分组重量特征向量; [0063]计算蛋白质A序列中20种氨基酸的含量,得到一个20维的向量,其中h表示第i种 氨基酸残基在序列中的含量,为氨基酸组成特征向量;将分组重量特征和氨基酸组成特征 进行组合,将一条蛋白质序列编码为一个3L+20维的向量:
[0064] X=[W1,W2,…,W3L,fl,f2,…,f20] 〇
[0065]进一步,所述分组重量编码算法即EBGW算法中对于一条蛋白质序列,分组重量编 码特征反映不同性质的残基在序列不同区域出现的频率,氨基酸组成特征反映不同类型的 残基在整个序列中出现的频率。
[0066]进一步,计算蛋白质序列特征的web服务器后台JSP程序,将用户输入的的蛋白质 序列输入matlab程序,matlab程序依据分组重量编码算法,采用预先设定的参数,从蛋白质 序列中计算160维分组重量编码特征,并同时计算氨基酸组成特征,将二类特征进行不同方 式的组合,得到一个组合的特征向量。
[0067] 进一步,所述提取特征向量方法为:使用F-score得分和反向特征选择算法挑选有 效特征,将挑选出来的有效特征转换成一个多维特征向量。
[0068] 进一步,所述建立基于支持向量机的分类器,对外膜蛋白质和非外膜蛋白质进行 分类的方法为:利用1 ibSVM3.12建立基于支持向量机的SVM分类器并将特征向量输入,SVM 分类器包括利用数据挖据技术建立的外膜蛋白和非外膜蛋白训练数据集,以及根据SVM算 法建立并使用训练数据训练好的分类模型,核函数,参数。
[0069] 进一步,所述使用F-score得分来筛选有效特征方法为:对于一个给定的m维训练 向量Xk,k = 1,2,…,m,若阳性和阴性的训练样本数量分别为n+和n-,则第i个特征的F-score值计算公式为:
[0071] 这里,分别为第i个特征值的均值、正样本均值、负样本均值,Xk>1(+)表 示第k个阳性样本的第i个特征值,Xk>1?表示第k个阴性样本的第i个特征值,分子指出阳性 数据集和阴性数据集之间的差别,而分母指出两个数据集中每两个数据之间的差别。
[0072] 进一步,所述使用反向特征选择算法挑选有效特征方法为:进行有效特征选择时, 使用反向选择方法,首先使用全部特征来训练分类模型,每次进行选择时,在当前特征向量 中去掉F-score值最小的特征并重新进行训练和测试;测试中分类效果包括分类效果提高 和分类效果降低,分类效果提高则舍弃当前特征值,分类效果降低则保留当前特征值,重复 这一步骤,直到预测性能无法继续提高,以此时的结果作为最终选择。
[0073]进一步,所述根据SVM算法建立并使用训练数据训练好的分类模型,核函数,参数 中分类模型的构建方法为:
[0074]使用数据库搜索、序列比对和文献挖掘手段收集样本序列,并采用BLAST算法去除 冗余序列,得到208个外膜蛋白质序列,879条非外膜蛋白质序列作为训练数据集,其中的每 一条蛋白质序列之间的序列相似度不超过25%,训练SVM分类模型时,SVM核函数选择RBF核 函数,惩罚因子参数使用网格搜索和十倍交叉验证测试来确定,SVM分类模型使用libSVM中 的SVMtrain程序进行训练,使用敏感性、特异性、总预测精度和马氏相关系数综合评价预测 性能,最终从测试结果中选择马氏相关系数最优的特征组合方式和模型参数,将性能最优 的模型作为最终模型输出保存。
[0075] 在训练数据集上使用时十倍交叉验证测试检验本发明的性能,结果显示,该方法 区分外膜蛋白质和非外膜蛋白之的敏感性、特异性、总预测精度和马氏相关系数分别达到 95.2%、96.1 %、95.9%和0.874,预测性能超过了国内外研究者提出的其它方法。此外,使 用该预测工具在13个物种全基因组蛋白质中进行进行计算和预测,结果如下表所示。在革 兰阴性菌基因组内,据估计大约有1.5%到3%的蛋白质为外膜蛋白。模型在4个革兰阴性菌 基因组中预测的外膜蛋白的比例与这一估计相符,这其中包括52个包含在208个训练样本 中的外膜蛋白,以及212条新预测到的外膜蛋白。还在具备外膜结构的聚球蓝藻细菌基因组 内预测到21个外膜蛋白,表明预测模型的敏感性比较高。在不存在外膜蛋白质的2个古细菌 和4个革兰阳性菌基因组内,一共预测到0.24%的外膜蛋白(37/15616),这一比例远低于在 革兰阴性菌中的预测结果,表明预测模型具有很好的特异性。此外,在真核物种中的预测结 果显示该预测模型也能够发现其中的外膜蛋白,如在酵母中预测到了 6个阳性结果,其中4 个为已知的线粒体外膜蛋白,其中包括两个VDAC异构体蛋白。此外,在人类基因组中预测到 31个外膜蛋白,其中13个为已知的线粒体外膜蛋白,18个为假阳性结果,表明在与细菌差异 较大的人类基因组内,预测模型的特异性降低,但是仍然保持了较好的敏感性。
[0076] 表1在13个物种基因组内预测外膜蛋白的结果
[0079] 下面结合总体设计及具体实施例对本发明的应用原理作进一步描述。
[0080] 二、总体设计
[0081] 2. lweb预测服务器的工作环境
[0082] 该web服务器操作系统为CentOS Linux 5 ? 11,JSP支持环境为apache-tomcat-8.0.30。网页代码使用JSP和HTML编写,核心程序使用matlab编写,程序内集成LibSVM3.12, Matlab编译版本为R201 lb。该web服务器主要内容包括:介绍web服务器的基本功能和应用 背景知识的Read Me、下载本算法所使用的训练数据集的Data、引用参考文献信息的 Citation和提供联系方式的Contacts。
[0083] 2.3程序运行原理
[0084]服务器后台的JSP程序,将前台网页提交的蛋白质序列输入matlab程序,该程序依 据预先设定的参数,使用EBGW算法,从蛋白质序列中计算160维分组重量编码特征,并同时 计算氨基酸组成特征,使用特征选择算法挑选有效特征,将这些特征转换成一个特征向量, 将该特征向量输入支持向量机分类器(利用libSVM3.12建立的分类器,包括根据训练数据 集建立的分类模型,核函数,参数等),SVM分类器将输出判别结果,保存到本地磁盘。最后, JSP网页不断查询该数据保存目录,一旦结果计算完毕,则将预测结果输出到前台网页。用 户通过前台网页可以查看蛋白质是否预测为一个外膜蛋白质。
[0085]三、程序使用说明
[0086] 3.1主要功能
[0087] 该程序可以对输入的革兰阴性细菌基因组蛋白质序列,对其进行分组重量编码, 并自动提取特征子集,利用内置的支持向量机算法判别其是否为一个外膜蛋白质。一次可 以输入一个不小于50个氨基酸残基的蛋白质序列。该方法不需要任何已知的蛋白质结构或 功能信息,是一种应用非常方便的Denovo预测方法。
[0088] 3.2预测性能
[0089]预测细菌基因组内外膜蛋白质的敏感性达到95.2%,总体准确率达到95.9%,优 于国内外已经报道的其他预测算法。
[0090] 3.3使用方法和步骤
[0091] 1)登陆web服务器。该程序的web服务器网址:
[0092] http://202.202.232.206/EBGW_0MP;
[0093] 或者:http://bioinfo.tmmu.edu.cn/EBGW_OMP,,
[0094] 主页除了序列输入文本框意外,还包括四个方面功能:
[0095] 1.Read Me:介绍了本工具的基本功能和应用背景知识。
[0096] 2. Data:可以下载本算法所使用的训练数据集。
[0097] 3.Citation:引用参考文献信息
[0098] 4.Contacts:本项目的联系方式。
[0099] 2)输入蛋白质序列,
[0100] 进入主页,在页面上的文本框内输入待预测的蛋白质序列(要求仅仅输入序列,不 包含其他任何信息)。输入序列以后,点击"Submit"即可完成提交。等待服务器计算完成,预 测结果将显示在该网页上。期间,网页会自动刷新。
[0101] 3)计算
[0102] 提交的序列将转到服务器后台,完成序列特征计算和SVM分类器判别,用户需要等 待结果计算完成。
[0103] 4)预测结果查看
[0104]计算完成以后,在网页上会自动显示预测结果的链接,点击链接即可查看预测结 果。
[0105]其中,"Your input sequence"显示用户输入的蛋白质序列;在蛋白质序列信息后 面一行提不了预测结果,例如"The protein is an Outer Membrane Protein"表面该蛋白 质预测为一个外膜蛋白;若提不"The protein is NOT an Outer Membrane Protein",则 提示该蛋白质预测为一个非外膜蛋白质。
[0106] 3.4程序文件说明
[0107] predict, jsp:后台获取蛋白质序列并提交到计算程序的JSP程序;
[0108] result, jsp:后台获取预测结果发送到前台网页显示的JSP程序;
[0109] 11131:1313(30(16目录:计算程序的核心11131:1313代码;其中核心程序为6匕8¥&&_ predict. m,其功能为计算蛋白质序列特征并调用1 ibSVM进行预测;
[0110] libSVM 目录:libSVM3.12程序;
[0111] dataset目录:由实验验证的细菌外膜蛋白质和非外膜蛋白质序列构成的训练数 据集。
[0112] 以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精 神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。
【主权项】
1. 一种可在细菌全基因组水平预测外膜蛋白质的方法,其特征在于,该可在细菌全基 因组水平预测外膜蛋白质的方法为: 利用分组重量编码算法,计算蛋白质序列特征,提取特征向量,建立基于支持向量机的 分类器,对外膜蛋白质和非外膜蛋白质进行分类,通过web服务器,接受用户输入的细菌基 因组编码的蛋白质序列,预测用户输入的蛋白质序列是否为一个外膜蛋白。2. 如权利要求1所述的可在细菌全基因组水平预测外膜蛋白质的方法,其特征在于,该 可在细菌全基因组水平预测外膜蛋白质的方法具体包括以下步骤: 步骤一、用户登录web服务器主页,在文本框内输入待预测的细菌蛋白质序列; 步骤二、服务器JSP程序获取用户输入的蛋白序列,并在前台生成结果输出页,不断刷 新; 步骤三、JSP程序建立结果保存目录,并调用Matlab来运行核心预测程序,计算蛋白质 序列分组重量编码特征、氨基酸组成特征; 步骤四、Matlab程序将多类特征依据预设方式进行特征选择和组合,产生一个蛋白质 特征向量; 步骤五、Matlab程序调用libSVM程序,使用事先训练好的模型,预测蛋白质是外膜蛋白 的似然率; 步骤六、根据SVM预测结果判断其是否为一个外膜蛋白,以HTML格式保存到结果目录; 步骤七、负责结果输出的JSP程序不断查询结果保存目录,确认结果文件是否生成; 步骤八、一旦结果生成,则JSP程序将蛋白序列和判断结果均显示在前台网页。3. 如权利要求1所述的可在细菌全基因组水平预测外膜蛋白质的方法,其特征在于,所 述分组重量编码算法即EBGW算法为: 蛋白质序列视为20种氨基酸残基组成的字符串,从氨基酸的疏水性、电荷性质方面分 为四组:中性非极性氨基酸61 = {6,4,¥儿,1,^,¥};中性极性氨基酸62={〇^,5,1',¥, C};酸性带负电荷的氨基酸G3= {D,E};碱性带正电荷的氨基酸G4= {H,K,R},两两组合,组 合方式为:{G1,G2}和 sn是一条长度为η的蛋白质序列,通过定义以下三个映射,将序列A转化为三条0-1进制序 列: τΗη)=8?(3?),8?(82)···8?(8η) (i = l,2,3) 其中,记(i = l,2,3),称T1,!'2,!'3分别为序列A的1-特征序列、2-特征序列、3-特征序列,对于 任意一条特征序列,定义该序列中"Γ出现的次数为该序列的重量,重量是与序列长度相关 的一个量,进一步定义正规重量为该序列中"Γ出现的频率,对于长度为η的特征序列T,其 正规重量为W(n)=p/n,其中p为序列中"Γ出现的次数,取一个正整数L,将特征序列T划分 为L条长度递增的子序列,记为丁([如/[」贴=1,2 ...,L),其中L·」表示取整运算;分别计算 每条子序列的正规重量,记为机A7i/L」(A'=1,2 ...,L),得到一个L维的向量,将长度为η的 蛋白质序列编码成为一个L维的向量,将Τ1,Τ2,Τ3三条特征序列向量组合在一起,得到一个 3L维的向量,记为[W1,W2,W3 ] = [W1,W2,…,W3L],称3L维的向量为序列分组重量特征向量;计 算蛋白质Α序列中20种氨基酸的含量,得到一个20维的向量,其中h表示第i种氨基酸残基 在序列中的含量,为氨基酸组成特征向量;将分组重量特征和氨基酸组成特征进行组合,将 一条蛋白质序列编码为一个3L+20维的向量: X= [wi ,W2 , ,W3L,fl ,f2 , ··· ,f2〇] 〇4. 如权利要求3所述的可在细菌全基因组水平预测外膜蛋白质的方法,其特征在于,所 述分组重量编码算法即EBGW算法中对于一条蛋白质序列,分组重量编码特征反映不同性质 的残基在序列不同区域出现的频率,氨基酸组成特征反映不同类型的残基在整个序列中出 现的频率。5. 如权利要求1所述的可在细菌全基因组水平预测外膜蛋白质的方法,其特征在于, web服务器后台的JSP程序,将用户输入的的蛋白质序列输入mat lab脚本程序,mat lab脚本 程序依据分组重量编码算法,采用预先设定的参数,从蛋白质序列中计算160维分组重量编 码特征,并同时计算氨基酸组成特征,将二类特征进行不同方式的组合,得到一个组合的特 征向量。6. 如权利要求1所述的可在细菌全基因组水平预测外膜蛋白质的方法,其特征在于,所 述提取特征向量方法为:使用F-score得分和反向特征选择算法挑选有效特征,将挑选出来 的有效特征转换成一个多维的特征向量。7. 如权利要求1所述的可在细菌全基因组水平预测外膜蛋白质的方法,其特征在于,所 述建立基于支持向量机的分类器,对外膜蛋白质和非外膜蛋白质进行分类的方法为: 利用1 ibSVM3.12建立基于支持向量机的SVM分类器并将多维特征向量输入,SVM分类器 包括外膜蛋白和非外膜蛋白训练数据集,以及根据SVM算法建立并使用训练数据集训练好 的分类模型、核函数、参数。8. 如权利要求6所述的可在细菌全基因组水平预测外膜蛋白质的方法,其特征在于,所 述使用F-score得分筛选有效特征方法为: 对于一个给定的m维训练向量Xk,k=l,2,…,m,若阳性和阴性的训练样本数量分别为n+ 和η-,贝lj第i个特征的F-score值计算公式为:这里,分别为第i个特征值的均值、正样本均值、负样本均值,Xk>1(+)表示第 k个阳性样本的第i个特征值,表示第k个阴性样本的第i个特征值,分子指出阳性数据 集和阴性数据集之间的差别,而分母指出两个数据集中每两个数据之间的差别。9. 如权利要求6所述的可在细菌全基因组水平预测外膜蛋白质的方法,其特征在于,所 述使用反向特征选择算法挑选有效特征方法为: 进行有效特征选择时,使用反向选择方法,首先使用全部特征来训练分类模型,每次进 行选择时,在当前特征向量中去掉F-score值最小的特征并重新进行训练和测试;测试中分 类效果包括分类效果提高和分类效果降低,测试中分类效果为分类效果提高时则舍弃当前 特征值,测试中分类效果为分类效果降低时则保留当前特征值,重复这一步骤,直到预测性 能无法继续提高,以此时的结果作为最终选择。10.如权利要求7所述的可在细菌全基因组水平预测外膜蛋白质的方法,其特征在于, 所述根据SVM算法建立并使用训练数据训练好的分类模型,核函数,参数中分类模型的构建 方法为: 首先从公开的数据库和文献中收集样本序列,并采用BLAST算法去除冗余序列,得到外 膜蛋白质序列和非外膜蛋白质序列作为训练数据集,去除冗余序列后的每一条蛋白质序列 之间的序列相似度不超过25%,训练SVM分类模型时,SVM核函数选择RBF核函数,惩罚因子 参数使用网格搜索和十倍交叉验证测试来确定,SVM分类模型使用libSVM中的SVMtrain程 序进行训练,使用敏感性、特异性、总预测精度和马氏相关系数综合评价预测性能,最终从 测试结果中选择马氏相关系数最优的特征组合方式和模型参数,将性能最优的模型作为最 终模型输出保存。
【文档编号】G06F19/18GK105930687SQ201610228308
【公开日】2016年9月7日
【申请日】2016年4月11日
【发明人】邹凌云, 陈抗, 钟蔚
【申请人】中国人民解放军第三军医大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1