一种新的融合遗传信息的蛋白质序列表示方法
【技术领域】
[0001] 本发明涉及生物信息学、蛋白质伪氨基酸成分和传统的蛋白质序列分析技术领 域,尤其涉及一种新的融合遗传信息的蛋白质序列表示方法。
【背景技术】
[0002] 随着人类基因组的测序完成,生物信息学进入了一个新的发展阶段一一后基因组 时代。基因组计划已产生数以亿计的基因组序列,如何从这些序列中找寻生命是如何起源 的、又是如何进化、这些基因又是如何使生命体具有活性等一系列的问题的答案,是当前研 究的热点。分析这些基因序列可以从多个层次,如碱基序列、蛋白质、基因组等,由于许多生 物表型性质以及基因调控都是由蛋白质的氨基酸序列所决定,分析氨基酸序列有一定的优 势。
[0003] 蛋白质序列是由20种氨基酸组成的一维字符序列,要得出更多的隐含在其中的 生物特性非常困难,为此人们设计了许多种伪氨基酸成分采用向量方式来描述蛋白质序 列,这些伪氨基酸成分如:二联体成分、三联体成分、灰色理论因子、复杂度因子等有的能很 好的描述蛋白质序列局部氨基酸顺序信息,有的能很好的描述蛋白质序列的全局氨基酸顺 序信息,对基于序列的蛋白质结构和功能分类预测都起到了积极作用。
[0004] 现有物种都是从有限的远古物种进化而来,同样现有蛋白质也是从一些简单的蛋 白质进化而来。进化过程中包含了碱基插入或删除、突变、复制或与其它基因融合等,随着 进化过程的深入,序列间的相似度越来越少,但所对应的蛋白质大多还保留同样的特性,如 同样的生物功能、三维结构和亚细胞定位等。为此抽取这些序列进化信息来构成蛋白质描 述向量是研究的热点。现在一般融合蛋白质进化信息的方法都是基于PSSM矩阵的,因为 每个蛋白质序列长度是变化的,所以得到的PSSM矩阵是一个行数变化、列数固定的维的矩 阵(L为蛋白质序列长度)。由于现有机器学习方法要求输入的维度相同,所以现有方法都 要将PSSM矩阵转换为固定维数的向量,如方法1采用将PSSM矩阵按行相加再除以L得到 20维向量表示蛋白质序列;方法2将PSSM矩阵中所有表示某一种相同的氨基酸对应的行 相加再除以这个氨基酸在序列中的个数,得到一个20维向量,氨基酸序列由20种氨基酸 构成,这样我们可以得到一个20X 20维的向量用于表示这个蛋白质;方法3现将PSSM矩 阵进行标准化,通过PSSMtXPSSM得到一个20 X 20的矩阵,由于这个矩阵是半正定矩阵,只 需要其中201个元素来表示蛋白质P ;本人基于灰色理论提出一种抽取PSSM信息的新模式 Grey-PSSM,这种方法基于灰色模型GM (2, 1)对PSSM矩阵中的每一列数值构建模型,得到 两个发展系数和一个干扰系数,这样将PSSM矩阵转成一个3 X 20=60维的向量。
[0005] 上述方法都是基于对PSSM矩阵进行简单的求和统计或者进行灰色模型建模,虽 然可以提取一些信息,但这必然会丢失蛋白质序列中氨基酸的顺序信息,而且上述操作没 有对应的生物学意义,这样做有可能将PSSM所包含的遗传信息丢失。由于遗传信息的重要 性,所以设计一种新的融合遗传信息的蛋白质序列描述方法对基于序列信息的蛋白质功能 和结构类型预测非常必要。
【发明内容】
[0006] 本发明要解决的技术问题是提供一种新的融合遗传信息的蛋白质序列表示方法, 旨在通过融合蛋白质进化信息,直接从序列上进行扩展,融合成新的蛋白质P的向量描述, 以解决蛋白质二级结构类型预测及亚细胞定位预测率较低的问题。
[0007]
[0008] 为解决以上技术问题,本发明的技术方案是:一种新的融合遗传信息的蛋白质序 列表示方法,其特征在于包括以下步骤: (1) 使用PSI-BLAST程序搜索Swiss-Prot数据库生成蛋白质序列P的位置特异打分矩 阵 PSSM ; (2) 将P蛋白基因与NCBI数据库中蛋白质序列进行比对,找到蛋白基因P的保守序列; (3) 根据PSSM矩阵可以知道蛋白质序列P中某个位置上的氨基酸突变为其它氨基酸的 概率,将此蛋白保守序列位置上的氨基酸不变,非保守区域氨基酸按照其突变为其它氨基 酸概率的大小依次转换成其它氨基酸,这样就可以得到20条含有蛋白质P遗传信息的虚拟 蛋白质; (4) 取这20个虚拟蛋白质中的前η个蛋白质序列构成描述蛋白质序列P的蛋白质组; (5) 对所得到的蛋白质组η+1个蛋白质采用伪氨基酸组成成分特征提取方法,得到其 向量描述,将这η+1个向量相结合,最终得到蛋白质P的向量描述方法。
[0009] 所述蛋白质序列P的位置特异打分矩阵PSSM的表达公式为:
?表示蛋白质进化过程中蛋白质序列第i个位置 的氨基酸突变为第j类氨基酸的可能性大小,其值越大表示转成的可能性越大,j从1到20 分别表示氨基酸 A、R、N、D、C、Q、E、G、H、I、L、K、M、F、P、S、T、W、Y 和 V。
[0010] 所述方法用于蛋白质二级结构类型预测及亚细胞定位预测中,相关预测器预测成 功率提尚4~7%。
[0011] 本发明提出的方法与现有融合进化信息方法相比,具有更明显的生物学意义,采 用最具可能进化的蛋白质组来表示某一个蛋白质,这些蛋白质同源性不高,但更可能具有 相同的结构和功能,这对那些在蛋白质结构和功能类型预测中与训练集中蛋白质序列相似 度不高,但具有远程同源性的蛋白质预测具有帮助,本方法用于蛋白质二级结构类型预测 及亚细胞定位预测中,能明显提高相关预测器的预测成功率,具有广阔的运用前景。
【具体实施方式】
[0012] 为了使本发明的目的、技术方案及优点更加清楚明白,以下结合实施例,对本发明 进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限 定本发明。
[0013] 采用本发明新的融合遗传信息的蛋白质序列表示方法,具体步骤如下: 1)使用PSI-BLAST程序搜索Swiss-Prot数据库生成蛋白质序列P的位置特异打分矩 阵(Position Specific Scoring Matrix, PSSM); 给定人类基因蛋白: > AAA61157 MVPSAGQLALFALGIVLAACQALENSTSPLSADPPVAAAVVSHFNDCPDSHTQFCFHATCRFLVHEDKPAC VCHSGYVGARCEHADLLAVVAASQKKQAITALVVVSIVALAVLIITCVLIHCCQVRKHCEffCRALICRHEKPSALL KGRTACCHSETLV 要进行计算其位置特异性打分矩阵(PSSM矩阵),首先要将BLAST本地化:(1)在NCBI 上下载blast进行本地配置,本机配置版本:blast-2. 2. 28+; (2)在蛋白质数据库http:// www.uniprot.org/ (UniPortKB/Swiss-Prot database (Release 2013_10))下载蛋白质 数据库;(3)参数设置(_num_iterations :3,-evalue :0· 001) 通过BLAST-2. 2. 28+中的PSI-BLAST程序我们可以得到蛋白质上述蛋白质的PSSM矩 阵,这个矩阵中第一列表示原蛋白质序列中氨基酸转换成氨基酸A的可能性,第二列表示 序列原氨基酸转换成氨基酸R的可能性大小,以此,第三列到第20列分别代表转换成氨基 酸10、(:、〇3、6、!1、1、1^、1(、]\^、?、3、1\1、¥和¥的可能性。?33]\1矩阵第一行表示蛋白质 序列第一个氨基酸,第二行表示第2个位置上的氨基酸,以此类推。
[0014] 2)将P蛋白基因与NCBI数据库中蛋白质序列进行比对,找到蛋白基因P的保守序 列; 将AAA61157序列输入到网址: http: //www. ncbi. nlm. nih. gov/Structure/cdd/wrpsb. cgi,此网址提供了查找保守 序列的功能,采用网站提供的默认参数值,可以得到序列AAA61157的保守序列有两段,一 段为44-83,另一段为47-121,总计为:44-121。如下所示,非加粗部分为非保守区域,加粗 部分为保守区域; MVPSAGQLALFALGIVLAACQALENSTSPLSADPPVAAAVVSHFNDCPDSHTQFCFHATCRFLVHEDKPA CVCHSGYVGARCEHADLLAVVAASQKKQAITALVVVSI