一种基于子集错误率估计的肽鉴定方法

文档序号:6173828阅读:447来源:国知局
一种基于子集错误率估计的肽鉴定方法
【专利摘要】本发明涉及一种基于子集错误率估计的肽鉴定方法,其步骤包括:1)用质谱仪分析需要鉴定的肽样品以生成串联质谱;2)把所述串联质谱搜索包含目标肽序列的目标-诱饵蛋白质数据库,将得到的肽鉴定结果按照打分从高到低排序;3)给定打分阈值x,采用迁移FDR方法估计打分高于x的第k类肽鉴定子集的错误率FDRk(x);4)通过调整打分阈值x找到的x最小值,使得估计出的FDRk(x)小于给定的错误率控制水平α,所得打分高于x的第k类肽鉴定结果即为可以接受的可靠鉴定结果。本发明通过迁移FDR方法估计子集错误率,进而通过该子集错误率得到肽的可靠鉴定结果,具有更高的鉴定准确率。
【专利说明】一种基于子集错误率估计的肽鉴定方法【技术领域】
[0001]本发明属于蛋白质分析【技术领域】,具体涉及一种基于子集错误率估计的肽鉴定方法。
【背景技术】
[0002]众所周知,绝大多数生物的遗传信息保存在DNA中。DNA通过转录过程生成信使RNA,而信使RNA又通过翻译过程生成蛋白质,从而实现了遗传信息由DNA到RNA再到蛋白质的传递,这一过程也被称为生命的中心法则。在从RNA翻译生成蛋白质的过程中,20种氨基酸以肽键顺序相连所形成的链状分子被称为肽,而其中分子量达到一定级别的肽则被称为蛋白质。大多数蛋白质在翻译形成后,会在蛋白质中的某些氨基酸上增加某种功能团(如在蛋白质的N末端加入乙酰),或增加了其他的蛋白质或肽,或改变了氨基酸的化学性质或结构,这一过程被称为发生了化学修饰,由于该过程发生在前述的翻译过程后,因此在蛋白质氨基酸上所发生的变化也被称为蛋白质翻译后修饰。
[0003]液相色谱与质谱仪联用,并结合数据库搜索计算是目前蛋白质组学中鉴定蛋白质及其翻译后修饰的常用方法。在这种方法中,通过液相色谱与质谱仪联用可以得到蛋白质样品的实验串联质谱。实验串联质谱的获取过程包括:蛋白质样品首先被选定的蛋白酶水解,形成肽混合物;肽混合物通过液相色谱进行分离,不同物理化学性质的肽先后从色谱柱中流出;从色谱柱中流出的肽不断进入质谱仪;肽在质谱仪中被离子化,具有特定质量电荷比的肽离子在能量作用下碎裂形成碎片离子,碎片离子被分离和检测形成肽碎片离子谱;通过以上过程便得到蛋白质的实验串联质谱。在得到实验串联质谱后就可以从实验串联质谱中鉴定肽的氨基酸序列,进而鉴定蛋白质。
[0004]从实验串联质谱中鉴定肽的氨基酸序列时通常采用数据库搜索计算的方法。在计算过程中,数据库中所保存的蛋白质序列被模拟水解成候选肽,然后再将候选肽理论碎裂,生成理论串联质谱;将模拟计算得到的多个理论串联质谱依次与前述液相色谱与质谱仪联用所得到的实验串联质谱相比较,根据相似度进行打分,得分最高的理论质谱对应的肽就是实验质谱的鉴定结果。如果生成实验串联质谱的肽序列存在于数据库中的话,就可能将其鉴定出来。为了鉴定发生翻译后修饰的蛋白质,一种常见的基于串联质谱的鉴定方法是在数据库搜索时指定一些可变修饰类型,然后在生成候选肽时同时考虑发生和不发生指定修饰的情况,当候选肽中有多个可能的修饰位点时考虑所有可能的组合。
[0005]在基于质谱的蛋白质组学研究中,一次蛋白质组质谱实验通常能够产生数千至百万规模的串联质谱。通过数据库搜索鉴定这些质谱图,就产生了数目巨大的有待确认的肽鉴定结果。然而,由于谱图信号差、存在未知修饰、以及打分算法的缺陷等原因,这些结果的一部分(往往是大部分)是不正确的。所以,需要根据鉴定分值对鉴定结果进行过滤以及FDR (False Discovery Rate,中文可翻译为假发现率或者错误发现率,参见参考文献:Benjamini, Y.and Y.Hochberg,Controlling the false discovery rate:a practicaland powerful approach to multiple testing.Journal of the Royal StatisticalSociety, Series B (Methodological),1995.57 (I):p.289-300.)的估计和控制。目前最常用和有效的妝鉴定FDR估计方法是目标-诱傅库搜索方法(参见文献:Elias, J.E.andS.P.Gygi, Target-decoy search strategy for increased confidence in large-scaleprotein identifications by mass spectrometry.Nat Methods, 2007.4(3):p.207-14.X在这种方法中,通过搜索诱饵蛋白质序列(如目标库的反序列构成的数据库)来获得错误的鉴定,而FDR就用分值阈值之上的诱饵肽鉴定数量除以目标肽鉴定数量来估计。当鉴定数量较大时,这种目标-诱饵库搜索方法可以有效的估计肽鉴定FDR。但是如果鉴定数量较少的话,这种FDR估计方法就不准确了(参见文献:Huttlin, E.L., et al., Prediction of errorassociated with false-positive rate determination for peptide identification inlarge-scale proteomics experiments using a combined reverse and forward peptidesequence database strategy.J Proteome Res, 2007.6(1):p.392-8.)?
[0006]在当前的肽和蛋白质鉴定研究中,各种形式的肽(例如带有各种修饰的肽和非修饰的肽、特异性酶切肽和·非特异性酶切肽等等)通常都是混合在一起鉴定分析的,从最初的蛋白质样品处理到最后的FDR估计都是如此。但最后经常是只强调或报道鉴定结果的某个子集(例如带有某种修饰的肽,或者特异性酶切肽,或者含有某种特定氨基酸的肽等等),造成估计的FDR可能严重高于或低于真实的子集FDR。这种混合鉴定分析有多方面的原因。比如,质谱仪和鉴定软件通常都无法有效识别不同种类的肽。并且,对所有鉴定结果进行整体的FDR估计也是容易计算的,并且这也是现有蛋白质组学软件所提供的功能。各种肽的混合鉴定,降低了数据分析的复杂度,但却使不同种类的肽的特性遭到掩盖。这种“不分青红皂白”的混合可能造成非常严重的后果,甚至错误的结论。但这一点尚未引起领域的重视,也没有清晰的认识。一种解决办法是将感兴趣的肽鉴定子集分离出来,单独用目标-诱饵库方法估计FDR。但是如果子集较小的话,这种分离估计FDR的做法就不准确了。子集越小,误差越大。极端情况下,如果子集只包含一个鉴定,那么根本无法用目标-诱饵库方法来估计该子集的FDR,从而无法实现肽的可靠鉴定。

【发明内容】

[0007]本发明的目的是提供一种基于子集错误率估计的肽鉴定方法,通过优化的子集错误率估计得到肽的可靠鉴定结果。
[0008]本发明采用的技术方案如下:
[0009]一种基于子集错误率估计的肽鉴定方法,其步骤包括:
[0010]I)用质谱仪分析需要鉴定的肽样品以生成串联质谱;
[0011]2)把所述串联质谱搜索包含目标肽序列的目标-诱饵蛋白质数据库,将得到的肽鉴定结果按照打分从高到低排序;
[0012]3)给定打分阈值X,采用迁移FDR方法估计打分高于X的第k类肽鉴定子集的错误率 FDRk(X);
[0013]4)通过调整打分阈值X找到X的最小值,使得估计出的FDRk(X)小于给定的错误率控制水平a,所得打分高于X的第k类肽鉴定结果即为可靠鉴定结果。
[0014]进一步地,采用所述迁移FDR方法得到的FDRk(X)的计算公式为:
【权利要求】
1.一种基于子集错误率估计的肽鉴定方法,其步骤包括: 1)用质谱仪分析需要鉴定的肽样品以生成串联质谱; 2)把所述串联质谱搜索包含目标肽序列的目标-诱饵蛋白质数据库,将得到的肽鉴定结果按照打分从高到低排序; 3)给定打分阈值X,采用迁移FDR方法估计打分高于X的第k类肽鉴定子集的错误率FDRk(X); 4)通过调整打分阈值X找到X的最小值,使得估计出的FDRk(X)小于给定的错误率控制水平a,所得打分高于X的第k类肽鉴定结果即为可靠鉴定结果。
2.如权利要求1所述的方法,其特征在于:采用所述迁移FDR方法得到的FDRk(X)的计算公式为:
3.如权利要求2所述的方法,其特征在于:所述Xk(x)的估计方法为:
4.如权利要求2或3所述的方法,其特征在于:采用数据驱动的方法,将目标-诱饵库搜索结果中所有诱饵肽鉴定作为训练数据,用于估计所述YkOO。
5.如权利要求4所述的方法,其特征在于:将所述Yk(X)用X的线性函数来近似,SP


6.如权利要求5所述的方法,其特征在于:采用下式估计所述FDR(X):

7.如权利要求2或3所述的方法,其特征在于,估计所述Yk(X)的方法是:将数据库中的蛋白质模拟水解以生成所有候选肽,计算其中第k类肽所占的比例,作为Yk(X)的值。
8.如权利要求1所述的方法,其特征在于:所述给定的错误率控制水平a的值为0.01或 0.05。
【文档编号】G01N30/72GK103439441SQ201310375508
【公开日】2013年12月11日 申请日期:2013年8月26日 优先权日:2013年8月26日
【发明者】付岩 申请人:中国科学院数学与系统科学研究院
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1