氨基酸距离多态性比较蛋白质序列进行物种分类的方法

文档序号:9751166阅读:1364来源:国知局
氨基酸距离多态性比较蛋白质序列进行物种分类的方法
【技术领域】
[0001] 本发明属于物种鉴定领域,特别涉及一种氨基酸距离多态性比较蛋白质序列进行 物种分类的方法。
【背景技术】
[0002] 目前,根据进化论原理,两段蛋白质序列若来自同一祖先,会有一定的同源性,亲 缘关系越近的物种同源性就越高,所以可根据蛋白质序列中氨基酸的排列顺序进行分类, 建立分子进化的系统树(phylogenetic tree)。目前广泛使用的是由Higgins和Sharp于 1988年提出的Clustal算法,先将多个序列两两比对构建距离矩阵,反映序列之间两两关 系,然后根据距离矩阵计算产生系统进化树。两条序列比对时,最简单的情况就是不考虑空 位,只选择比对起始点,但这种方法误差较大,难以反映真实情况。目前最常用的方法是对 位比对,即通过插入间隔的方法使长度不同的序列对齐,但是由于有多种插入间隔的方式, 从而导致了比对的复杂性,使计算量大大增加。
[0003] 因此,本着求好的精神及理念,并由专业的知识、经验的辅助,以及在多方巧思、试 验后,方创设出本发明,特再提供一种氨基酸距离多态性比较蛋白质序列进行物种分类的 方法,能够将序列上氨基酸的差异转变为氨基酸间距离的差异,既兼顾了空位,又无需插入 间隔,大大简化了比对的复杂性。

【发明内容】

[0004] 本发明提出一种氨基酸距离多态性比较蛋白质序列进行物种分类的方法,将序列 上氨基酸的差异转变为氨基酸间距离的差异,既兼顾了空位,又无需插入间隔,计算方法简 单。
[0005] 本发明的技术方案是这样实现的:一种氨基酸距离多态性比较蛋白质序列进行物 种分类的方法,包括如下步骤:
[0006] S10:对蛋白质序列上的每个氨基酸进行编号;
[0007] S20:计算蛋白质序列上相邻同种氨基酸之间的距离;
[0008] S30:统计相邻同种氨基酸的不同距离在每条蛋白质序列上出现的次数;
[0009] S40:根据统计的每种氨基酸的不同距离在每条蛋白质序列中出现的次数,进行两 两对比,构建距离矩阵,根据距离矩阵计算产生系统发育树,进行物种分类。
[0010] 作为一种优选的实施方式,所述氨基酸的类型包括:丙氨酸、亮氨酸、精氨酸、赖氨 酸、天冬酰胺、甲硫氨酸、苯丙氨酸、半胱氨酸、脯氨酸、谷氨酰胺、丝氨酸、谷氨酸、苏氨酸、 甘氨酸、色氨酸、组氨酸、酪氨酸、异亮氨酸、缬氨酸、天冬氨酸中的任意一种或多种。
[0011] 作为一种优选的实施方式,所述步骤S20中计算蛋白质序列上相邻同种氨基酸的 距离采用将序列中各种氨基酸对应的编号分别提取出来,计算相邻同种氨基酸之间的距 离。
[0012] 作为一种优选的实施方式,所述步骤S40中根据统计的每种氨基酸的不同距离在 每条蛋白质序列中出现的次数,分析蛋白质中同种氨基酸距离的多态性,通过构建距离矩 阵、计算产生系统进化树进行物种分类。
[0013] 作为一种优选的实施方式,所述步骤S40中分析蛋白质中同种氨基酸距离的多态 性,满足公式:? = 21^/(1^+%),? = -11^,其中1^为两段蛋白质序列第一段蛋白质序列中相 邻同种氨基酸出现的某一距离的数目,ny是两段蛋白质序列第二段蛋白质序列中相邻同种 氨基酸出现的某一距离的数目,n xy为两段蛋白质序列相邻同种氨基酸之间某一距离出现次 数相同的数目,即nx和ny中的较小值,P为两段蛋白质序列相邻同种氨基酸距离的多样性值。
[0014] 作为一种优选的实施方式,所述步骤S40中计算蛋白质序列上相邻同种氨基酸距 离的多态性,对所有蛋白质序列两两比较计算所有氨基酸全部距离的多个多样性值后,求 取平均值构建距离矩阵,根据距离矩阵制作进化关系树。
[0015] 采用了上述技术方案后,本发明的有益效果是:根据蛋白质序列上相邻的两个同 种氨基酸距离的差异进行比对,构建距离矩阵,再根据距离矩阵计算产生系统进化树,本方 法将序列上氨基酸的差异转变为氨基酸间距离的差异,既兼顾了空位,又无需插入间隔,计 算方法简单,能够满足基本的要求。
【附图说明】
[0016] 为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现 有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本 发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可 以根据这些附图获得其他的附图。
[0017]图1为本发明流程不意图;
[0018]图2为本发明构建的系统发育树;
[0019]图3为采用Mega 6.0软件对位比对序列构建的系统发育树。
【具体实施方式】
[0020]下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完 整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于 本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他 实施例,都属于本发明保护的范围。
[0021] 如图1所示,本发明氨基酸距离多态性比较蛋白质序列进行物种分类的方法,包括 如下步骤:
[0022] S10:对蛋白质序列上的每个氨基酸进行编号;
[0023] S20:计算蛋白质序列上相邻同种氨基酸之间的距离;
[0024] S30:统计相邻同种氨基酸的不同距离在每条蛋白质序列上出现的次数;
[0025] S40:根据统计的每种氨基酸的不同距离在每条蛋白质序列中出现的次数,进行两 两对比,构建距离矩阵,根据距离矩阵计算产生系统发育树,进行物种分类。
[0026]所述氨基酸的类型包括:丙氨酸、亮氨酸、精氨酸、赖氨酸、天冬酰胺、甲硫氨酸、苯 丙氨酸、半胱氨酸、脯氨酸、谷氨酰胺、丝氨酸、谷氨酸、苏氨酸、甘氨酸、色氨酸、组氨酸、酪 氨酸、异亮氨酸、缬氨酸、天冬氨酸中的任意一种或多种。
[0027]所述步骤S20中计算蛋白质序列上相邻同种氨基酸的距离采用将序列中各种氨基 酸对应的编号分别提取出来,计算相邻同种氨基酸之间的距离。
[0028]所述步骤S40中根据统计的每种氨基酸的不同距离在每条蛋白质序列中出现的次 数,分析蛋白质中同种氨基酸距离的多态性,通过构建距离矩阵、计算产生系统进化树进行 物种分类。
[0029]所述步骤S40中分析蛋白质中同种氨基酸距离的多态性,满足公式:F = 2nxy/(nx+ ny),P = -lnF,其中nx为两段蛋白质序列第一段蛋白质序列中相邻同种氨基酸出现的某一距 离的数目,ny是两段蛋白质序列第二段蛋白质序列中相邻同种氨基酸出现的某一距离的数 目,n xy为两段蛋白质序列相邻同种氨基酸之间某一距离出现次数相同的数目,即nx和ny中 的较小值,P为两段蛋白质序列相邻同种氨基酸距离的多样性值。
[0030] 所述步骤S40中计算蛋白质序列上相邻同种氨基酸距离的多态性,对所有蛋
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1