一种新的融合遗传信息的蛋白质序列表示方法

文档序号：9327186阅读：679来源：国知局

一种新的融合遗传信息的蛋白质序列表示方法
【技术领域】
[0001] 本发明涉及生物信息学、蛋白质伪氨基酸成分和传统的蛋白质序列分析技术领域，尤其涉及一种新的融合遗传信息的蛋白质序列表示方法。
【背景技术】
[0002] 随着人类基因组的测序完成，生物信息学进入了一个新的发展阶段一一后基因组时代。基因组计划已产生数以亿计的基因组序列，如何从这些序列中找寻生命是如何起源的、又是如何进化、这些基因又是如何使生命体具有活性等一系列的问题的答案，是当前研究的热点。分析这些基因序列可以从多个层次，如碱基序列、蛋白质、基因组等，由于许多生物表型性质以及基因调控都是由蛋白质的氨基酸序列所决定，分析氨基酸序列有一定的优势。
[0003] 蛋白质序列是由20种氨基酸组成的一维字符序列，要得出更多的隐含在其中的生物特性非常困难，为此人们设计了许多种伪氨基酸成分采用向量方式来描述蛋白质序列，这些伪氨基酸成分如：二联体成分、三联体成分、灰色理论因子、复杂度因子等有的能很好的描述蛋白质序列局部氨基酸顺序信息，有的能很好的描述蛋白质序列的全局氨基酸顺序信息，对基于序列的蛋白质结构和功能分类预测都起到了积极作用。
[0004] 现有物种都是从有限的远古物种进化而来，同样现有蛋白质也是从一些简单的蛋白质进化而来。进化过程中包含了碱基插入或删除、突变、复制或与其它基因融合等，随着进化过程的深入，序列间的相似度越来越少，但所对应的蛋白质大多还保留同样的特性，如同样的生物功能、三维结构和亚细胞定位等。为此抽取这些序列进化信息来构成蛋白质描述向量是研究的热点。现在一般融合蛋白质进化信息的方法都是基于PSSM矩阵的，因为每个蛋白质序列长度是变化的，所以得到的PSSM矩阵是一个行数变化、列数固定的维的矩阵（L为蛋白质序列长度)。由于现有机器学习方法要求输入的维度相同，所以现有方法都要将PSSM矩阵转换为固定维数的向量，如方法1采用将PSSM矩阵按行相加再除以L得到 20维向量表示蛋白质序列；方法2将PSSM矩阵中所有表示某一种相同的氨基酸对应的行相加再除以这个氨基酸在序列中的个数，得到一个20维向量，氨基酸序列由20种氨基酸构成，这样我们可以得到一个20X 20维的向量用于表示这个蛋白质；方法3现将PSSM矩阵进行标准化，通过PSSMtXPSSM得到一个20 X 20的矩阵，由于这个矩阵是半正定矩阵，只需要其中201个元素来表示蛋白质P ;本人基于灰色理论提出一种抽取PSSM信息的新模式 Grey-PSSM，这种方法基于灰色模型GM (2, 1)对PSSM矩阵中的每一列数值构建模型，得到两个发展系数和一个干扰系数，这样将PSSM矩阵转成一个3 X 20=60维的向量。
[0005] 上述方法都是基于对PSSM矩阵进行简单的求和统计或者进行灰色模型建模，虽然可以提取一些信息，但这必然会丢失蛋白质序列中氨基酸的顺序信息，而且上述操作没有对应的生物学意义，这样做有可能将PSSM所包含的遗传信息丢失。由于遗传信息的重要性，所以设计一种新的融合遗传信息的蛋白质序列描述方法对基于序列信息的蛋白质功能和结构类型预测非常必要。

【发明内容】

[0006] 本发明要解决的技术问题是提供一种新的融合遗传信息的蛋白质序列表示方法，旨在通过融合蛋白质进化信息，直接从序列上进行扩展，融合成新的蛋白质P的向量描述，以解决蛋白质二级结构类型预测及亚细胞定位预测率较低的问题。
[0007]
[0008] 为解决以上技术问题，本发明的技术方案是：一种新的融合遗传信息的蛋白质序列表示方法，其特征在于包括以下步骤： (1) 使用PSI-BLAST程序搜索Swiss-Prot数据库生成蛋白质序列P的位置特异打分矩阵 PSSM ; (2) 将P蛋白基因与NCBI数据库中蛋白质序列进行比对，找到蛋白基因P的保守序列； (3) 根据PSSM矩阵可以知道蛋白质序列P中某个位置上的氨基酸突变为其它氨基酸的概率，将此蛋白保守序列位置上的氨基酸不变，非保守区域氨基酸按照其突变为其它氨基酸概率的大小依次转换成其它氨基酸，这样就可以得到20条含有蛋白质P遗传信息的虚拟蛋白质； (4) 取这20个虚拟蛋白质中的前η个蛋白质序列构成描述蛋白质序列P的蛋白质组； (5) 对所得到的蛋白质组η+1个蛋白质采用伪氨基酸组成成分特征提取方法，得到其向量描述，将这η+1个向量相结合，最终得到蛋白质P的向量描述方法。
[0009] 所述蛋白质序列P的位置特异打分矩阵PSSM的表达公式为：

?表示蛋白质进化过程中蛋白质序列第i个位置的氨基酸突变为第j类氨基酸的可能性大小，其值越大表示转成的可能性越大，j从1到20 分别表示氨基酸 A、R、N、D、C、Q、E、G、H、I、L、K、M、F、P、S、T、W、Y 和 V。
[0010] 所述方法用于蛋白质二级结构类型预测及亚细胞定位预测中，相关预测器预测成功率提尚4~7%。
[0011] 本发明提出的方法与现有融合进化信息方法相比，具有更明显的生物学意义，采用最具可能进化的蛋白质组来表示某一个蛋白质，这些蛋白质同源性不高，但更可能具有相同的结构和功能，这对那些在蛋白质结构和功能类型预测中与训练集中蛋白质序列相似度不高，但具有远程同源性的蛋白质预测具有帮助，本方法用于蛋白质二级结构类型预测及亚细胞定位预测中，能明显提高相关预测器的预测成功率，具有广阔的运用前景。
【具体实施方式】
[0012] 为了使本发明的目的、技术方案及优点更加清楚明白，以下结合实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。
[0013] 采用本发明新的融合遗传信息的蛋白质序列表示方法，具体步骤如下： 1)使用PSI-BLAST程序搜索Swiss-Prot数据库生成蛋白质序列P的位置特异打分矩阵（Position Specific Scoring Matrix, PSSM)；给定人类基因蛋白： > AAA61157 MVPSAGQLALFALGIVLAACQALENSTSPLSADPPVAAAVVSHFNDCPDSHTQFCFHATCRFLVHEDKPAC VCHSGYVGARCEHADLLAVVAASQKKQAITALVVVSIVALAVLIITCVLIHCCQVRKHCEffCRALICRHEKPSALL KGRTACCHSETLV 要进行计算其位置特异性打分矩阵（PSSM矩阵)，首先要将BLAST本地化：（1)在NCBI 上下载blast进行本地配置，本机配置版本：blast-2. 2. 28+; (2)在蛋白质数据库http:// www.uniprot.org/ (UniPortKB/Swiss-Prot database (Release 2013_10))下载蛋白质数据库；（3)参数设置（_num_iterations :3,-evalue :0· 001) 通过BLAST-2. 2. 28+中的PSI-BLAST程序我们可以得到蛋白质上述蛋白质的PSSM矩阵，这个矩阵中第一列表示原蛋白质序列中氨基酸转换成氨基酸A的可能性，第二列表示序列原氨基酸转换成氨基酸R的可能性大小，以此，第三列到第20列分别代表转换成氨基酸10、(：、〇3、6、!1、1、1^、1(、]\^、？、3、1\1、￥和￥的可能性。？33]\1矩阵第一行表示蛋白质序列第一个氨基酸，第二行表示第2个位置上的氨基酸，以此类推。
[0014] 2)将P蛋白基因与NCBI数据库中蛋白质序列进行比对，找到蛋白基因P的保守序列；将AAA61157序列输入到网址： http: //www. ncbi. nlm. nih. gov/Structure/cdd/wrpsb. cgi,此网址提供了查找保守序列的功能，采用网站提供的默认参数值，可以得到序列AAA61157的保守序列有两段，一段为44-83,另一段为47-121，总计为：44-121。如下所示，非加粗部分为非保守区域，加粗部分为保守区域； MVPSAGQLALFALGIVLAACQALENSTSPLSADPPVAAAVVSHFNDCPDSHTQFCFHATCRFLVHEDKPA CVCHSGYVGARCEHADLLAVVAASQKKQAITALVVVSI

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：肖绚;
技术所有人：景德镇陶瓷学院;
我是此专利的发明人

上一篇：一种用于核酸单碱基改变的核酸反应理论分析方法
上一篇：基于DNA分子链置换反应提取实现组合逻辑的CRNs的方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。