胃癌诊断用蛋白标记的鉴定的利记博彩app

文档序号:6000168阅读:163来源:国知局
专利名称:胃癌诊断用蛋白标记的鉴定的利记博彩app
技术领域
本发明主要涉及用于检测和/或诊断癌的检测患者的生物液中的蛋白标记的方法。
背景技术
癌领域中的主要挑战之一是检测处于早期的癌的能力。早期癌检测方面的挑战主要由于大多数癌在其早期不具有明显的可以暗示癌的身体症状所致。经证明如乳房造影法或结肠镜检查等身体检查是有效的,但是仅限于特定类型的癌,例如乳癌或结直肠癌。 此外,当通过所述身体检查进行检测时,即使定期进行所述身体检查,癌可能已经超过了早期。非常常见的是当癌已经处于晚期时才被诊断,显然,需要用于早期癌检测的更有效的技术。基因和蛋白表达的变化提供了关于组织或器官的生理状态的重要线索。恶性转化期间,肿瘤细胞中的基因变化可以干扰自分泌信号传导网络和旁分泌信号传导网络,引起例如生长因子、细胞因子或可以被分泌到癌细胞外部的激素等某类蛋白的过表达(Hanahan 和Weinberg,2000 ;Sporn和Roberts,1985)。这些分泌蛋白以及其它分泌蛋白可以通过复杂的分泌途径进入血清、唾液、血液、尿、脑脊液(脊髓液)、精液、阴道液、眼内液、或其它生物液。虽然如果检测出癌,组织标记基因可用于对癌进行分级,但是它们不可直接用于癌诊断,除非疑似为特定的癌并且对相关组织进行探测。来自生物液的蛋白标记确实是用于标记鉴定的最终目标,因为它们允许通过简单的分析测试来进行癌检测。但是,生物液(例如,血清)中癌标记(蛋白、肽或其它分子)的鉴定与癌组织的基因表达研究相比,由于分子组成的复杂性更高和人类血清中分子丰度的动态范围较宽(可能高达6个数量级,差异范围从mg/ml至ng/ml),因此代表了更有挑战性的问题。例如,人类血清蛋白组是高丰度的天然血清蛋白的非常复杂的混合物,所述天然血清蛋白例如白蛋白和免疫球蛋白、以及由不同病变组织或正常组织分泌的或者从遍及人体的细胞渗漏的蛋白和肽。诸如疾病、饮食、甚至精神状态等许多因素都能相当迅速地改变血清中的分子组成及其丰度。将这些组织综合,大多数循环性天然血液蛋白的丰度比大多数经分泌的蛋白的丰度高出几个数量级。这些组织使得极其难以对来自患者群体和参照群体的生物液的蛋白组进行直接比较分析以用于生物标记鉴定。基因组技术和蛋白组技术的最近进展使得对于鉴定用于癌早期检测的有效标记产生了极大热情和新的希望。通过使用诸如微阵列芯片等技术对癌组织与参照组织中的基因表达模式进行比较分析,即使对于非常早期的癌,也可以检测某些基因在癌组织中相对于正常组织的表达模式的持续变化。这是可行的,因为随着癌经过关键的发育阶段的发展, 会获得许多新能力,例如(a)生长信号的自足性,(b)对于抗生长信号的不敏感性,(c)躲避凋亡,(d)无限复制潜能,(e)持续的血管生成和(f)组织入侵和转移,每一种都会改变某些基因的“正常”表达模式,例如,增加其表达水平以产生所获能力所需的相关蛋白;并且这些蛋白中的一些能够分泌到血液循环中,提供用于通过血液测试进行癌检测的可能痕迹。使用组学(omics)技术,已经提出了同时位于癌组织和血清中的许多标记。质谱法一直是用于对诸如血清等生物液中的蛋白进行蛋白组学研究的主要技术,特别是用于对诸如血清等生物液中的蛋白的鉴定和定量(Tolson等,2004)。表达蛋白的全局模式可用于某些病例,但是由于表达蛋白的全局模式的高度复杂性,显然它们不是良好的标记。本领域的普遍共识是现有标记未有效地起作用,并且需要根本性的新观点以鉴定更有效的癌检测用标记,特别是对于早期癌检测。本领域存在的另一问题是为了诊断癌和其它疾病,必须对以下情况做出准确的预测,即何种来自病变组织中(例如癌)中异常表达基因的蛋白可以被分泌到生物液中。与解决该问题相关的困难在于,目前对蛋白被分泌到细胞外部后的下游定位的理解非常有限, 现有知识不足以提供关于蛋白到生物液的分泌方面的有用提示。因此,所需要的是用于预测何种蛋白可能被分泌到生物液中的数据分类方法。本发明人认为将可源自癌组织的微阵列数据的信息与使用计算方法对生物液进行的蛋白组学研究结合,呈现出一种以更系统的方式发现新颖且更为有效的标记的新颖且更为有效的方法。

发明内容
本发明公开了用于检测癌的方法以及通过检测分泌到生物液中的蛋白来诊断癌的方法。通过本发明的实施方式提供的对分泌到生物液中的蛋白进行的可信检测会允许更及时准确地检测和诊断癌。在一个实施方式中,本发明公开了确定用于癌检测的蛋白标记的方法,所述方法包括a)获得癌样品和参照样品;b)确定在所述癌样品和所述参照样品之间差异性表达的一个或多个基因;c)鉴定作为所述一个或多个基因的产物的一个或多个蛋白;d)预测所述一个或多个蛋白被分泌到生物液中的可能性;和e)在所述生物液中检测经预测会分泌到所述生物液中的所述一个或多个蛋白的存在,其中所述生物液中的所述一个或多个蛋白的检测构成癌的检测。在另一实施方式中,本发明公开了诊断罹患癌的患者的方法,所述方法包括a) 从所述患者获得生物液;和b)检测所述生物液中一个或多个标记蛋白的存在,其中所述一个或多个标记蛋白是在癌样品和参照样品之间差异性表达的一个或多个基因的产物,其中所述一个或多个标记蛋白据预测且经实验验证会分泌到所述生物液中,并且其中所述生物液中的所述一个或多个标记蛋白的检测构成癌的检测。在第三实施方式中,本发明公开了诊断罹患癌的受试对象的方法,所述方法包括 a)从所述受试对象获得生物液;和b)测定所述生物液中一个或多个标记蛋白的水平,其中所述一个或多个标记蛋白是在癌样品和参照样品之间差异性表达的一个或多个基因的产物,其中所述一个或多个标记蛋白据预测且经实验证实会分泌到所述生物液中,并且其中所述生物液中的所述一个或多个标记蛋白相对于标准水平的差异性表达指示癌。
在又一实施方式中,本发明公开了用于癌鉴定的标记,所述标记包括选自由以下蛋白组成的组中的一个或多个蛋白MUC13、GKN2、COLlOA, AZTPU CTSB, LIPF、GIF、EL和 T0P2A,其中获自受试对象的生物液中的所述一个或多个蛋白相对于标准水平的差异性表达指示所述受试对象中癌的出现。在另一实施方式中,本发明公开了用于检测受试对象中的癌的试剂盒,所述试剂盒包含(a)与生物液中的蛋白特异性结合的一种或多种一抗,其中所述蛋白选自由 MUC13、GKN2、COLlOA, AZTPl、CTSB, LIPF, GIF、EL 和 T0P2A 组成的组;(b)与所述一种或多种一抗特异性结合的二抗;以及可选的是,(c)参照样品。为了说明本发明,首先将本发明应用于检测分泌到血清和尿中的蛋白。但是,应该理解,可将本发明更广泛地应用到开发用于检测分泌到其它生物液中的蛋白的工具和系统,所述其它生物液例如,但不限于,唾液、脊髓液、精液、阴道液和眼内液。


图1显示(a)在转录物的全长上选择探针选择区(PSR)的示意图。PSR下面的短划线表示用于各PSR的各个探针(来源=Affymetrix 人、小鼠及大鼠用GeneChip Exon阵列系统)。浅色区表示外显子,深色区表示在剪接期间被除去的内含子。(b)三个所预测剪接同种型的PCR数据。χ轴是组织样品轴(12个组织样品),其中NC是阴性对照。Y轴是质量轴。(i)略过外显子2的一个同种型;和(ii)分别是略过替代性外显子2 (下方)和略过外显子1(上方)的两个同种型。(c)外显子同种型和探针的示意图。长的水平线表示人类基因组的部分,最窄的矩形表示外显子,三个较宽的矩形表示三个外显子同种型,位于底部的较短的黑线表示探针。图2描述了(a)在癌组织中相对于参照组织差异性表达的总共2,540个基因和在早期癌中差异性表达的1,276基因的维恩图(Verm diagram)。(b)在癌组织和参照组织之间所述2,540个基因的表达差异性的分布。图3描述了(a)所述2,540个差异性表达的基因、911个癌相关基因和1,276 个在早期癌中差异性表达的基因的功能家族分布。(b)以上三组基因的亚细胞位置分布 (*Cyt.细胞质;Nuc.细胞核;E.R.内质网;Pla.:质膜;Ext.细胞外间隙)。图4描述了(上部)癌组织中MUCl的表达水平作为年龄的函数而改变,其与性别无关;(下部)THYl的表达与年龄和性别都无关。图5描述了在基因的子集的80个样品上鉴定的双基因簇(bi-cluster),其中各行表示基因,各列表示一对癌组织/参照组织,(a)Cl (上部)具有244个在癌组织中相对于参照组织一致性上调的基因;C2(中部)具有95个基因,其大多数下调;C3(下部)具有 53个显示复合模式的基因。要注意的是用于不同双基因簇的组织样品的顺序不必相同,因为所述算法会将组织样品的顺序重排。(b)可能具有亚型特异性的双基因簇,由42个基因组成。已知以竖线标记的6个基因与胃癌的亚型相关。图6描述了一个盒式图,显示了在出现所预测的外显子-略过事件时的紧邻上游内含子区(_150nt,+30nt)中的匹配基序的分布。图7 (a)以竖线标记的曲线表示k基因标记(k= 1,··,100)的总精度,其是500个随机选择的子集的最佳精度的平均值;以十字交叉标记的曲线表示通过穷举搜索鉴定出的k基因标记(k= 1,··,8)的5倍交叉验证(5-cross validation)精度。(b)最佳观个基因标记的热图,其包括13个上调基因和15个下调基因。其中,NKAP、TMEM185B、C14orfl04 和Clorf96上调,而KLF15、PI16和GADD45B在> 89%的早期患者中下调。图8描述了从对照组和癌组收集的血清样品的MS总离子色谱图。(a)对照组的基峰位于左侧,癌组的基峰位于右侧;(b)不同的分子量范围。图9描述了以下8个蛋白的蛋白质印迹(SDS-PAGE之后转移至硝酸纤维素以随后用抗体进行印迹):MUC13、GKN2、C0L10A1、AZTPl、CTSB, LIPF, GIF 和 T0P2A,显示了对照组和胃癌组之间丰度的差异。1)1肌13(1“8,稀释度一抗1 200;抗兔二抗,1 10, 000); 2)GKN2(150y g,稀释度一抗 1 1,000;抗兔二抗,1 30,000) ;3) C0L10A1 (1 μ g,稀释度一抗 1 500;抗兔二抗,1 10, 000) ;4)ΑΖΤΡ1(120μ g,稀释度一抗 1 500;抗鼠二抗,1 3,000) ;5) CTSB (5 μ g,稀释度一抗 1 1,500;抗兔二抗,1 20,000) ;6) LIPF(120y g,稀释度一抗 1 500;抗羊二抗,1 10, 000) ;7) GIF (120 μ g,稀释度一抗 1 5,00;抗鼠二抗,1 3, 000);和 8)Τ0Ρ2Α(60μ g,稀释度一抗 1 ;350 ;抗羊二抗, 1 10,000)。图10描述了 d值和ρ值之间的统计关系=P(TP),d表示离位于阳性训练数据和阴性训练数据之间的分离超平面的距离。图11描述了由注释、可视化及综合发现用数据库(Database for Annotation, Visualization and Integrated Discovery (DAVID))富集的功能组。DAVID 提供了一套全面的功能注释工具以理解大的基因列表所隐藏的生物学意义。χ轴表示功能组,y轴表示富集度。图12 使用 KEGG 直系同源类注释系统(Orthology-based Annotation System(KOBAS))网络服务器描述了 480个所预测尿蛋白的富集途径。KOBAS鉴定了与背景分布相比所查询序列中经常出现(或显著富集)的途径。各组中较短的条形表示所述480 个蛋白的百分比,各组中较长的条形表示所有人类蛋白;χ轴表示途径名称;以及y轴表示百分比。图13描述了 480个蛋白的代表性不足(underr印resented)的途径。各组中较短的条形表示所述480个蛋白的百分比,各组中较长的条形表示所有人类蛋白;χ轴表示途径名称;以及y轴表示百分比。图14描述了 3个正常样品(N1、N2、N3)和3个胃癌样品(SCI、SC5、SC11)的274 个细胞因子的抗体阵列。人类G6阵列显示Fit3-配体(白色矩形);人类G7阵列显示 EGF-R(深灰色矩形)、SGP-130(白色矩形);人类G8阵列显示PDGF_AA(白色矩形) ’人类 G9阵列显示Trappin-2 (浅灰色矩形)、黄体化激素(白色矩形)、! Μ-1 (深灰色矩形) ’人类GlO阵列显示CEACAM1 (浅灰色矩形)、FSH(白色矩形)、CEA (深灰色矩形)。图15描述了三个癌样品(GC)和三个对照样品(CTRL)的粘蛋白13(Mucinl3)的蛋白质印迹。各泳道含有Iyg的尿蛋白。Santa Cruz Mucin 13(M_250)兔多克隆抗体以 1 200稀释使用;抗兔二抗以1 10,000稀释使用。图16描述了三个对照样品(CTRL)和三个癌样品(GC)的C0L10A1的蛋白质印迹。 各泳道含有1 μ g的尿蛋白。Calbiochem的抗胶原X型Rabbit pAb以1 200稀释使用; 抗兔二抗以1 10,000稀释使用。
图17(上部)三个对照样品(CTRL)和三个胃癌样品(GC)的内皮脂肪酶(EL)的蛋白质印迹。各泳道含有ι μ g的尿蛋白。用于EL的抗体是Santa Cruz EL(C_19)亲和纯化羊多克隆抗体(1 200稀释);抗羊二抗以1 15,000稀释使用。(下部)前7条泳道对应于正常样品;后7条泳道是癌样品。图18描述了对前列腺癌和对照数据通过最佳1-基因标记和2-基因标记得到的分类表现。y轴是分类精度,χ轴是通过其分类精度分选的前100个最佳标记的列表。图19显示使用基于生物素标志的抗体阵列进行的蛋白阵列实验的结果。图19描述了癌血清和参照血清之间在103个蛋白中的蛋白丰度差异性的分布,χ轴表示以其丰度差异性的log值的升序分选的103个蛋白的列表,y轴是丰度差异性的log值。现在参照附图描述本发明。应该理解的是本申请的附图不必按比例绘出,并且这些图和图解仅是说明性的,并不限制本发明。
具体实施例方式本发明涉及检测癌的方法,所述方法通过以下步骤进行预测蛋白是否被分泌到生物液中,以及通过在蛋白组学研究中确定所述生物液中所述蛋白的存在来验证所述预测,所述生物液例如但不限于血清、唾液、血液、尿、脊髓液、精液、阴道液和眼内液,其中所述生物液中所述蛋白的检测构成了癌的检测。本发明包括诊断罹患癌的患者的方法的实施方式,所述实施方式通过以下步骤进行检测所述患者的生物液中由癌组织中的异常表达基因表达的一个或多个标记蛋白的存在,其中所述标记蛋白据预测并经实验验证会分泌到所述生物液中,并且其中所述生物液中的所述标记蛋白的检测构成癌的检测。各种生物液中的任一种都适于使用本发明的装置和方法进行分析。所述生物液包括脑脊液、滑液、血液、血清、血浆、唾液、肠液、精液、眼泪、鼻分泌物等。应该意识到根据本发明可同样地使用任何流体生物样品(例如,组织提取物或活组织检查提取物、粪便提取物、痰等)。在以下出于说明目的的描述中,所陈述的具体数值、参数和试剂是为了对本发明提供全面的理解。但是,应该理解的是,本发明无需这些具体细节即可实施。在某些情况下, 为了不使本发明模糊,可以省略或简述公知特征。说明书中所述的实施方式和参考文献提到“一种实施方式”、“本发明的实施方式”、“实施方式”、“示例性实施方式”等,表示所述的实施方式可以包括特定的特征、结构或特性,但是每一个实施方式可以不必包括该特定的特征、结构或特性。此外,以上术语不必指同一实施方式。另外,当将特定的特征、结构或特性结合实施方式进行描述时,应该理解, 无论是否明确指出,在本领域中已知都可以结合其它实施方式实现所述特征、结构或特性。本文的描述“a”或“an”物品可以指单数物品或复数物品。例如,某特征、蛋白、生物液或分类器可以是单个的特征、蛋白、生物液或分类器。作为另一种选择,某特征、蛋白、 生物液或分类器可以是多个的特征、蛋白、生物液或分类器。因此,如本文所用,“a”或“an” 可以是单数或复数的。类似地,对于复数项目的提及或描述可以指代单个项目。应该理解的是,在本文无论何处以语言“包含”来描述实施方式,也就另外提供了以术语“由......组成”和/或“基本上由......组成”描述的类似实施方式。说明书描述了通过检测生物液中标记蛋白的存在来检测和诊断癌的通常方法。本文提供了用于检测血清中的标记蛋白的具体示例性实施方式。本说明书公开了一个或多个并入本发明的特征的实施方式。所公开的实施方式仅仅是对本发明的举例说明。本发明的范围不限于所公开的实施方式。本发明由所附的权利要求限定。虽然说明书中所要求保护的方法及其对应的描述通常要求保护的特征是对癌检测用蛋白标记的检测,应该理解的是,针对所述蛋白标记的存在对样品进行分析、发现没有所述标记蛋白并由此未诊断出癌仍然是对所述蛋白标记的存在性的检测。定义术语“多肽”、“肽”、“蛋白”和“蛋白片段”在本文中可相互替换地使用以指代氨基酸残基的聚合物。这些术语适用于其中一个或多个氨基酸残基是相应天然存在的氨基酸的人工化学模拟物的氨基酸聚合物,以及天然存在的氨基酸聚合物和非天然存在的氨基酸聚合物。如本文所用,“蛋白”或“肽”通常是指大于约200个氨基酸至最大为从基因翻译的全长序列的蛋白;多肽为约100个氨基酸 200个氨基酸;和/或“肽”为约3个氨基酸 约 100个氨基酸,但并不限于以上定义。如本文所用,“氨基酸”是指任何天然存在的氨基酸、 本领域已知的任何氨基酸衍生物或任何氨基酸模拟物。在某些实施方式中,蛋白或肽的残基是连续的,没有任何非氨基酸打断氨基酸残基的序列。在其它实施方式中,所述序列可以包含一个或多个非氨基酸部分。在特定实施方式中,蛋白或肽的残基的序列可以被一个或多个非氨基酸部分打断。术语“氨基酸”是指天然存在的氨基酸和合成的氨基酸,以及与天然存在的氨基酸功能类似的氨基酸类似物和氨基酸模拟物。天然存在的氨基酸是由遗传密码编码的那些氨基酸,以及被稍后修饰的那些氨基酸,例如羟基脯氨酸、Y -羧基谷氨酸和0-磷酸丝氨酸。 氨基酸类似物是指与天然存在的氨基酸具有相同的基本化学结构(例如与氢结合的α碳、 羧基、氨基和R基)的化合物,例如高丝氨酸、正亮氨酸、蛋氨酸亚砜、蛋氨酸甲基锍。所述类似物可以具有经修饰的R基(例如正亮氨酸)或经修饰的肽主链,但是保留与天然存在的氨基酸相同的基本化学结构。氨基酸模拟物是指具有与氨基酸的一般化学结构不同的结构但是其功能与天然存在的氨基酸类似的化合物。如本文所用,受试对象或患者中的“癌”是指拥有致癌细胞的典型特性的细胞的存在,所述典型特性例如不受控的增殖、永生化、转移潜能、快速生长和增殖速率和某些特征性形态学特征。通常,癌细胞是肿瘤的形式,但是此类细胞可以在受试对象内单独存在,或可以是非致瘤性癌细胞,例如白血病细胞。在某些情况下,癌细胞是肿瘤的形式,此类细胞可以在动物内局部存在,或在血流中作为独立细胞循环,例如白血病细胞。癌的实例包括但不限于乳癌、黑色素瘤、肾上腺癌、胆管癌、膀胱癌、脑癌或中枢神经系统癌、支气管癌、母细胞瘤、癌(carcinoma)、软骨肉瘤、口腔癌或咽癌、子宫颈癌、结肠癌、结直肠癌、食道癌、胃肠癌、成胶质细胞瘤、肝癌、肝细胞瘤、肾癌、白血病、肝癌、肺癌、淋巴瘤、非小细胞肺癌、骨肉瘤、卵巢癌、胰腺癌、外周神经系统癌、前列腺癌、肉瘤、唾液腺癌、小肠癌或阑尾癌、小细胞肺癌、鳞状细胞癌、胃癌、睾丸癌、甲状腺癌、膀胱癌、子宫癌或子宫内膜癌和外阴癌。如本文所用,“样品”是指从患者、优选从人类患者获得的生物材料的样品,包括组织、组织样品、细胞样品,例如活组织检查(例如抽吸活组织检查、刷拭活组织检查、表面活组织检查、针吸活组织检查、钻取活组织检查、切除活组织检查、切开活组织检查、切取活组织检查或内窥镜活组织检查),肿瘤样品或从所述组织样品提取的RNA。样品还可以是生物液样品,包括但不限于尿、血液、血清、血小板、唾液、脑脊液、乳头抽吸液和细胞裂解物(例如全细胞裂解物的上清液、微粒体级分、膜级分或细胞质级分)。可以使用任何本领域已知的方法获得所述样品。“生物样品”是指从个体获得的任何生物样品,包括但不限于,粪便(大便)样品、 生物液(例如血液)、细胞、组织样品、RNA样品或组织培养物。从哺乳动物获得大便样品、 组织活组织检查或其它生物样品的方法是本领域公知的。如本文所用,“组织样品”是指从受试对象的完整组织获得或移取的组织的部分、 碎片、局部、片段或级分。术语“基因”是指包含产生多肽、前体或RNA(例如rRNA、tRNA)所需的编码序列的核酸(例如,DNA)序列。术语“基因”包括基因的cDNA和基因组形式。基因的基因组形式或克隆物含有被命名为“内含子”或“插入区”或“插入序列” 的非编码序列打断的编码区或“外显子”。内含子从核转录物或初级转录物中被除去或“剪除”;因此在信使RNA(mRNA)转录物中不存在内含子。除了含有内含子之外,基因的基因组形式还包括位于存在于RNA转录物上的序列的5'和3'末端的序列。将这些序列称为“侧接”序列或“侧接”区(这些侧接序列处在相对存在于mRNA转录物上的非翻译序列的5' 或3'处)。应该理解的是,对于特定的mRNA剪接变体而言“内含子”和“外显子”是相对的, 一种剪接变体的外显子可以是另一种剪接变体的内含子,反之亦然。但是,在一个剪接变体内,“内含子”不能是“外显子”,反之亦然。这些术语“内含子”和“外显子”在本文是为方便和清楚起见而使用的,并非意在限制。如本文所用,术语“基因表达”是指通过内源基因、其ORF或部分、或植物中的转基因的“转录”(例如,经由RNA聚合酶的酶促作用),将在内源基因、其ORF或部分、或植物中的转基因中编码的遗传信息转换为RNA(例如mRNA、rRNA、tRNA或snRNA)的过程,并且对于蛋白编码基因而言,通过mRNA的“翻译”转换为蛋白的过程。另外,表达是指正义(mRNA)或功能性RNA的转录和稳定累积。在该过程中的许多阶段可以调节基因表达。“上调”或“激活”是指增加基因表达产物(例如,RNA或蛋白)的产生的调节,而“下调”或“阻遏”是指减少产生的调节。涉及上调或下调的分子(例如转录因子)经常分别称为“激活子”或“阻遏子”。术语“差异性表达的基因”、“差异性基因表达”及其同义词可相互替换地使用, 是指相对于所述基因在正常受试对象或对照受试对象中的表达,其在罹患疾病、特别是癌 (例如胃癌)的受试对象中的表达被激活至更高水平或更低水平的基因。这些术语还包括其表达在相同疾病的不同阶段被激活至更高水平或更低水平的基因。还应该理解的是,差异性表达的基因可以在核酸水平或蛋白水平被激活或抑制,或可以经受替代性剪接以产生不同的多肽产物。所述差异可以由例如mRNA水平、多肽的表面表达、分泌或其它配分的改变而证明。差异性基因表达可以包括两个或多个基因或其基因产物之间的表达的比较,或两个或多个基因或其基因产物之间的表达比例的比较,或甚至是相同基因的两种不同加工产物的比较,所述两种不同加工产物在正常受试对象和罹患疾病(特别是癌)的受试对象之间不同、或在相同疾病的不同阶段之间不同。差异性表达包括定量以及定性差异,例如正常细胞和病变细胞之间、或经历不同疾病事件或疾病阶段的细胞之间的时间上或基因或其表达产物中的细胞表达模式上的定量及定性差异。出于本发明的目的,当在正常受试对象和病变受试对象中或在病变受试对象的疾病发展的不同阶段中给定基因的表达之间的差异至少为约1. 5倍、2倍,优选至少约4倍、更优选至少约6倍、最优选至少约10倍时,认为存在“差异性基因表达”。如本文所用,术语“受试对象,,或“患者”是指疑似患有癌或待要经受特定诊断的任何动物(例如,哺乳动物),包括但不限于人类、非人类灵长类和啮齿动物等。通常,提及人类受试对象时,在本文术语“受试对象”或“患者”可相互替换地使用。如本文所用,“正常受试对象”或“对照受试对象”是指未罹患疾病的受试对象。诸如“治疗中”、或“治疗”或“待治疗”、或“缓解”或“待缓解”等术语是指1)治愈、减慢、减轻所诊断病理性病况或病症的症状和/或暂停发展的治疗性措施,以及幻预防和/或减慢所针对的病理性病况或病症的发展的预防性或防止性措施。因此需要治疗的那些包括已经罹患所述病症的那些对象、倾向于罹患所述病症的那些对象和其中待预防所述病症的那些对象。如果患者显示出以下情况中的一种或多种,则已根据本发明的方法成功地“治疗” 了受试对象癌细胞的数量减少或完全不存在;肿瘤尺寸的减小;浸润到周围器官的癌细胞(包括例如癌至软组织和骨的扩散)的抑制或不存在;肿瘤转移的抑制或不存在;肿瘤生长的抑制或不存在;与特定癌相关的一种或多种症状的缓解;发病率和致死率减少;生活品质提高;或某些效果组合。如本文所用,术语“分类器”是指用于执行数据分类的方法、算法、计算机程序或系统。如本文所用,术语“分类”是学习将数据点分成不同类别的过程,其通过发现在已知类别内所收集的数据点之间的共同特征而进行。可以使用神经网络、回归分析或其它技术完成分类。如本文所用,术语“数据分类方法”表示一种一般性计算方法的类别,其试图基于所提供的各数据要素的特征值,确定给定数据集合中的各数据要素属于哪种预定义类别。术语“基于抗体的结合部分”或“抗体”包括免疫球蛋白分子和免疫球蛋白分子的免疫活性决定簇,例如含有特异性结合蛋白(与蛋白发生免疫反应)的抗原结合位点的分子。术语“基于抗体的结合部分”试图包括完整抗体,例如任何同型(IgG、IgA、IgM、IgE等) 的完整抗体,并且包括其也与抑制蛋白或其片段特异性反应的其片段。可以使用常规技术将抗体片段化。因此,该术语包括抗体分子的蛋白水解-切割的部分或重组制备的部分的区段(segment),其能够与特定蛋白选择性地反应。所述蛋白水解片段和/或重组片段的非限制性实例包括Fab、F (ab' )2,Fab'、Fv、dAbs和含有通过肽连接子连接的VL域和VH 域的单链抗体(scFv)。scFv可以共价连接或非共价连接以形成具有两个或多个结合位点的抗体。因此,“基于抗体的结合部分”包括多克隆抗体、单克隆抗体或抗体和重组抗体的其它纯化制品。术语“基于抗体的结合部分”还试图包括人源化抗体、双特异性抗体和具有至少一个源自抗体分子的抗原结合决定簇的嵌合抗体。在优选实施方式中,对基于抗体的结合部分进行可检测标记。如本文所用,“经标记抗体”包括通过可检测手段标记的抗体,并且包括但不限于被酶促、放射性、荧光和化学发光标记的抗体。还可以用诸如c-Myc、HA、VSV-G、HSV、FLAG、 V5或HIS等可检测标记将抗体标记。
本发明的一个方面中,提供了确定癌检测用血清蛋白标记的方法,所述方法包括 a)获得癌样品和参照样品;b)确定在所述癌样品和所述参照样品之间差异性表达的一个或多个基因;c)鉴定作为所述一个或多个基因的产物的一个或多个蛋白;d)预测所述一个或多个蛋白被分泌到生物液中的可能性;和e)在所述生物液中检测据预测会分泌到所述生物液中的所述一个或多个蛋白的存在,其中所述生物液中的所述一个或多个蛋白的检测构成癌的检测。癌样品和参照样品可以从相同受试对象或从不同受试对象获得。“参照样品”是指含有基线量的一个或多个基因的表达的样品,该基线量在一个或多个不患有癌的受试对象中确定。基线可以从至少一个受试对象获得,并且优选从平均量的受试对象(例如,η = 2 100或更多)获得,其中所述受试对象之前没有癌病史。基线还可以从来自疑似罹患癌的受试对象的一个或多个正常样品获得。例如,基线可以从至少一个正常样品获得,并且优选从平均量的正常样品(例如,η = 2 100或更多)获得,其中所述受试对象疑似罹患癌。在一个方面,与参照样品相比,一个或多个基因的表达在癌样品中可以增加。在另一方面,与参照样品相比,一个或多个基因的表达在癌样品中可以减少。基因表达的分析对在癌样品和参照样品之间差异性表达的一个或多个基因的确定包括从癌样品和参照样品分离核酸。核酸样品可以是总RNA、cDNA样品、聚(A) RNA、不含一种或多种RNA 的RNA样品,例如不含rRNA的RNA样品或RNA的扩增产物。在一个方面,所述样品来自哺乳动物,例如人类、大鼠或小鼠。所述样品还可以分离自组织,包括例如血液、肺、心脏、肾、 胰腺、前列腺、睾丸、子宫、大脑或皮肤。在癌样品和参照样品之间差异性表达的基因可以通过本领域已知的任何手段检验,包括但不限于微阵列图谱、聚合酶链式反应(PCR)、基于多核苷酸的杂交分析的方法、基于多核苷酸的测序的方法、基于选择性基因剪接的分析的方法和基于蛋白组学的方法。用于通过将生物液中的RNA定量而研究基因表达的本领域已知的广泛应用的方法包括微阵列分析、RNA印迹分析(Harada,1990)和原位杂交(Parker&Barnes,1999);核糖核酸酶保护检验(Hod,1992) ;Sl核酸酶作图(Fujita等,1987)和基于PCR的方法,例如逆转录聚合酶链式反应(RT-PCR) (Weis等,1992)、定量RT-PCR和连接酶链式反应(LCR) (Barany, 1991),这些都是本领域的常规方法。作为另一选择,可以使用能够识别具有序列特异性的双链体(包括DNA双链体、RNA双链体和DNA-RNA杂交双链体或DNA-蛋白双链体) 的抗体。基于测序的基因表达分析的代表性方法包括基因表达系列分析(SAGE)和通过大规模平行特征序列(parallel signature)测序(MPSS)进行的基因表达分析。在一个实施方式中,确定在癌样品和参照样品之间差异性表达的一个或多个基因包括从癌样品和参照样品分离总RNA。用于总RNA提取的通常方法是本领域已知的,并且记载于分子生物学的标准课本中,包括Ausubel等,Current Protocols ofMolecularBiology, John Wiley 禾口 Sons(1997)。在优选实施方式中,对分离自癌样品和参照样品的总RNA使用微阵列分析来研究在癌样品中相对于参照样品差异性表达的基因。在另一实施方式中,使用RNA印迹分析研究在癌样品中相对于参照样品差异性表达的基因。
在又一实施方式中,使用RNA酶保护检验研究在癌样品中相对于参照样品差异性表达的基因。在另一实施方式中,通过使分离的细胞RNA与经放射性标记的合成DNA序列杂交来评估RNA的表达,以便确定在癌样品中相对于参照样品差异性表达的基因,所述经放射性标记的合成DNA序列与所关注RNA的5'末端具有同源性。在另一实施方式中,使用聚合酶链式反应(PCR)研究在癌样品中相对于参照样品差异性表达的基因。在另一实施方式中,使用RT-PCR研究在癌样品中相对于参照样品差异性表达的基因。RT-PCR技术的最近变化形式是实时定量PCR,其通过经双标记的荧光发生探针 (即TaqMan 探针)测定PCR产物的累积。实时PCR与以下PCR均相容其中将各靶序列的内部竞争物用于标准化的定量竞争性PCR,以及与使用包含在样品内的标准化基因或 RT-PCR用管家基因的定量比较PCR。详细资料参见例如Held等,1996。可以使用代替PCR的替代性方法,例如“连接酶链式反应”(“LCR")来研究基因表达(Barany,1991)。另外的基于PCR的技术例如包括差异性展示(Liang和Pardee,1992);扩增片段长度多态性(iAFLP) (Kawamoto 等,1999) ;BeadArray 技术(Illumina,Mn Diego, Calif.; Oliphant 等,Discovery of Markers for Disease(Supplement to Biotechniques),2002 年6月;Ferguson等,2000);在基因表达用快速检验中使用商购LuminexlOOLabMAP系统和多色编码的微球(Luminex Corp.,Austin, Tex.)的用于检测基因表达的珠阵列(BADGE) (Yang等,2001);和高覆盖表达图谱(HiCEP)分析(Fukumura等,2003)。在本发明的另一实施方式中,通过基因表达系列分析(SAGE)研究在癌样品中相对于参照样品差异性表达的基因。在本发明的另一实施方式中,通过大规模平行特征序列测序(MPSQ研究在癌样品中相对于参照样品差异性表达的基因。关于该方法的描述,参见Brenner等,(2000)。迄今,此前关于癌标记的研究一直不能检查全人类转录物组,由于缺乏有效研究手段而未能检查大多数人类转录物组、由基因的选择性剪接生成的剪接变体。因此,在本发明的另一实施方式中,通过鉴定在癌样品中相对于参照样品差异性表达的剪接变体来研究在癌样品中相对于参照样品差异性表达的基因。选择性剪接是这样的真核细胞过程,通过其经由包含外显子的不同部分和/或经由保留内含子而可以从同一前mRNA产生多种成熟的mRNA转录物。据估计至少40 % 75 % 的人类基因在不同条件下经受选择性剪接(Modrek和Lee,2002)。选择性剪接是造成人类转录物组和蛋白组的复杂性的主要原因。此前的估计表明,人类蛋白组具有由约20,000个基因编码的至少约100,000个、可能至多约150,000个不同的蛋白,表明每个人类基因平均编码5 7个蛋白。因此,人类细胞中大多数功能蛋白是剪接同种型,强调了当研究基因表达和蛋白(在本案中为生物液中的标记蛋白)时研究剪接变体的需要。已知选择性剪接涉及人类的许多生物过程(Nakao等,2005),在正常和异常的功能过程中都涉及。异常剪接可对细胞的正常功能具有严重的影响。最近的调查回顾了在12 种癌类型中出现在P53剪接位点处的四个突变(Holmila等,200 。另一最近研究发现约200个基因的464个剪接变体在人类前列腺癌中差异性表达(Li等,2006)。在一个实施方式中,由Affymetrix进行的新兴外显子阵列技术为研究选择性剪接提供了有力工具。外显子阵列数据的分析代表了一个具有挑战性的问题,因为所述阵列的基本单元是外显子而不是基因。使用诸如鲁棒多芯片平均法(Robust Multichip Average, RMA) (Irizary 等,2003)和探针对数强度误差(Probe Logarithmic Intensity Error, PLIER) 估计法(AffymetriX,20(^)等方法,可以从外显子阵列数据评估个体外显子的表达水平, 而从所述表达水平并基于外显子的表达水平的相似性,可以推断出主要的剪接同种型。挑战在于在给定组织中,对于各个基因,可以存在具有不同表达水平的超过一种的表达剪接同种型,因此各外显子的所观察到的表达水平是含有该外显子的所有表达剪接同种型的总的表达水平。计算问题在于算出哪些剪接同种型被表达和以何种水平被表达,并且预测结果应该与外显子表达数据一致,但外显子表达数据通常具有噪音。虽然存在诸如 ANOVA (Affymetrix, 2005)等设计用于解读外显子阵列数据的计算机程序,因为外显子阵列从2006年才开始广泛应用,该问题提出了新的难题。关于外显子阵列数据的解读仍然存在许多挑战和未解决的问题。其中的关键问题是可信地预测主要的剪接同种型及其表达水平。 能够被从组织分泌到血液循环中的蛋白的预测使用基因表达数据分析技术,已经鉴定或提出与诸如肝癌(Smith等,200 、肾癌 (Young 等,2003)、乳癌(van der Vi jver 等、2002)、结直肠癌(Resnick, 2004)和其它主要的癌(Mllimen等,2000 ;HendriX等,2001)等特定的癌相关的许多基因。另外,已经提供用于评估癌阶段的几个标记。但是,通过将基于差异性基因表达数据得出的组织中的标记基因和通过蛋白组学分析发现的血清中的标记蛋白进行比较,观察到它们的关联相当弱, 表明分别对癌组织和血清使用基因组学和蛋白组学技术得到的信息之间的无关联。因此,虽然如果检测出癌,组织标记基因可用于对癌进行分级,但是它们不直接用于癌诊断,除非疑似为具体的癌并且对相关组织进行探测。获自生物液的标记确实是用于标记鉴定的最终目标,因为它们允许通过简单的分析测试来进行癌检测。将此成功完成的关键在于发现有效的途径来最大限度地利用源自在癌组织上进行的基因表达研究的信息, 从而指导生物液中的癌标记鉴定。具有预测病变组织中的哪些蛋白能够被分泌到生物液中的能力会在将可源自微阵列表达数据的信息与生物液中标记蛋白的鉴定连接起来方面提供关键的联系。基于如信号肽、特定长度的跨膜域、氨基酸组成和蛋白功能等蛋白序列信息(Mott 等,2002 ;Guda等,2006),已经进行了许多研究来预测蛋白的亚细胞定位,所述蛋白包括能够被运输到细胞表面或被分泌到胞外环境中的蛋白(Menne等,2000 ;Nair和Rost,2005 ; Guda等,2006 ;Horton等,2007)。虽然这些程序能够预测蛋白是否能够由细胞分泌,但是它们不涉及所述蛋白在离开细胞后最终在何处。本发明中,该问题已经使用数据挖掘方法得以解决,所述数据挖掘方法通过以下过程进行首先收集已知由于各种病理性病况被分泌到生物液中的人类蛋白,所述生物液例如但不限于血清、尿、唾液、脊髓液、精液、阴道液、羊膜液、龈沟液和眼内液,所述蛋白可通过蛋白组学研究进行检查,然后就可用于预测这些蛋白的其物化性质以及其序列和结构特征方面,鉴定在这些蛋白中存在的共同特征。使用该策略,已经开发并据报道用于预测能够从组织分泌到生物液中的蛋白的计算机程序。参见PCT申请第PCT/US2009/053309号, 本文并入其全部内容作为参考。该算法的基本思路如下。通过广泛的文献检索产生大人类蛋白集合,如通过之前的蛋白组学研究所检测已知会由于各种病理性病况而分泌到血流中的人类蛋白。绘出这些分泌蛋白共有的特征的列表,所述特征包括其物化性质、氨基酸序列和基序,以及结构特征 (表1)。使用这些特征,对分类器进行训练来将能够被分泌到生物液中的蛋白与不能被分泌到生物液中的蛋白区分开。然后使用该算法来预测所述组织基因标记中的哪些可以被分泌到生物液中。在一个实施方式中,所述算法包括以下步骤选择蛋白的阳性分泌类别;选择阴性集的代表性蛋白;映射(mapping)蛋白特征以构建特征集;对分类器进行训练以识别蛋白的类别的特性;确定所映射特征的精度和相关性;除去最不重要的特征以产生经再训练的分类器;接收蛋白序列;载体生成和扩增;预测所接收蛋白序列的类别;和返回所接收蛋白序列的预测结果。该算法的详细描述在共同未决的申请PCT/US2009/053309中提供。表1 预测血液分泌蛋白的初始特征的列表
权利要求
1.确定用于检测癌的血清蛋白标记的方法,所述方法包括(a)获得癌样品和参照样品;(b)确定在所述癌样品和所述参照样品之间差异性表达的一个或多个基因;(c)鉴定作为所述一个或多个基因的产物的一个或多个蛋白;(d)预测所述一个或多个蛋白被分泌到生物液中的可能性;和(e)检测据预测会分泌到所述生物液中的所述一个或多个蛋白在所述生物液中的存在,其中所述生物液中的所述一个或多个蛋白的检测构成癌的检测。
2.如权利要求1所述的方法,其中所述癌样品或所述参照样品包含组织样品。
3.如权利要求1所述的方法,其中在所述癌样品和所述参照样品之间所述一个或多个基因的表达存在至少1. 5倍的变化。
4.如权利要求1所述的方法,其中在所述癌样品和所述参照样品之间所述一个或多个基因的表达存在至少2倍的变化。
5.如权利要求1所述的方法,其中,与参照样品相比,所述一个或多个基因的表达增加。
6.如权利要求1所述的方法,其中,与参照样品相比,所述一个或多个基因的表达减少。
7.如权利要求1所述的方法,其中所述确定在所述癌样品和所述参照样品之间差异性表达的一个或多个基因的步骤包括从所述癌样品和所述参照样品分离总RNA。
8.如权利要求7所述的方法,其中所述确定在所述癌样品和所述参照样品之间差异性表达的一个或多个基因的步骤进一步包括对从所述癌样品和所述参照样品分离的RNA进行微阵列分析。
9.如权利要求1所述的方法,所述方法还包括鉴定在所述癌样品和所述参照样品之间差异性产生的一个或多个蛋白的特征。
10.如权利要求9所述的方法,其中鉴定在所述癌样品和所述参照样品之间差异性产生的一个或多个蛋白的特征的步骤包括鉴定在所述癌样品中相对于所述参照样品差异性表达的基因。
11.如权利要求9所述的方法,其中鉴定在所述癌样品和所述参照样品之间差异性产生的一个或多个蛋白的特征的步骤包括鉴定在癌样品中相对于参照样品差异性表达的基因剪接变体。
12.如权利要求9所述的方法,其中鉴定在所述癌样品和所述参照样品之间差异性产生的一个或多个蛋白的特征的步骤包括鉴定能够区分所述癌样品和所述参照样品的标记基因。
13.如权利要求9所述的方法,其中所述预测包括使用所鉴定的在所述癌样品和所述参照样品之间差异性产生的一个或多个蛋白的特征,并且其中所述特征对应于在已知被分泌到所述生物液中的蛋白的集合中呈现的性质。
14.如权利要求13所述的方法,其中在已知被分泌到所述生物液中的蛋白的集合中存在的性质包括一般序列特征、物化性质、结构性质、以及结构域和基序。
15.如权利要求14所述的方法,其中所述一般序列特征包括氨基酸组成、序列长度、二肽组成、序列顺序、标准化MOTeau-Broto自相关指数和Geary自相关指数。
16.如权利要求14所述的方法,其中所述物化性质包括疏水性、标准化范德华体积、 极性、极化率、电荷、二级结构、溶剂可进入性、溶解度、不可折叠性、非稳定区、全局电荷和亲水性。
17.如权利要求14所述的方法,其中所述结构性质包括二级结构含量和形状。
18.如权利要求14所述的方法,其中所述结构域和基序包括信号肽、跨膜域、糖基化和双-精氨酸信号肽基序(TAT)。
19.如权利要求1所述的方法,其中所述检测包括对所述生物液进行质谱分析。
20.如权利要求1所述的方法,其中所述检测包括对所述生物液进行蛋白质印迹分析。
21.如权利要求1所述的方法,其中所述检测包括对所述生物液进行MS/MS分析。
22.如权利要求1所述的方法,所述方法还包括在所述检测之前除去在所述生物液中存在的最丰富的蛋白。
23.如权利要求22所述的方法,所述方法包括使用抗体柱除去在所述生物液中存在的最丰富的蛋白。
24.如权利要求23所述的方法,所述方法还包括在除去所述生物液中存在的最丰富的蛋白之后从所述抗体柱洗脱非特异性结合的蛋白。
25.如权利要求23所述的方法,所述方法还包括从所述抗体柱洗脱特异性结合的蛋白以用于进一步分析。
26.如权利要求22所述的方法,其中所述生物液中存在的最丰富的蛋白包括白蛋白、 IgG, α -酸糖蛋白、α2-巨球蛋白、HDL (载脂蛋白A_1和A_II)和纤维蛋白原。
27.如权利要求1所述的方法,其中所述生物液是血清、唾液、血液、尿、脊髓液、精液、 阴道液、羊膜液、龈沟液或眼内液中的一种或多种。
28.如权利要求1所述的方法,其中所述癌包括胃癌、胰腺癌、肺癌、卵巢癌、肝癌、结肠癌、结直肠癌、乳癌、鼻咽癌、肾癌、子宫颈癌、脑癌、膀胱癌、肾癌和前列腺癌、黑素瘤以及鳞状细胞癌。
29.如权利要求1所述的方法,其中所述蛋白为人类蛋白。
30.诊断罹患癌的患者的方法,所述方法包括(a)从所述患者获得生物液;和(b)检测所述生物液中一个或多个标记蛋白的存在,其中所述一个或多个标记蛋白是在癌样品和参照样品之间差异性表达的一个或多个基因的产物,其中所述一个或多个标记蛋白据预测且经实验证实会分泌到所述生物液中, 并且其中所述生物液中的所述一个或多个标记蛋白的检测构成癌的检测。
31.诊断罹患癌的受试对象的方法,所述方法包括(a)从所述受试对象获得生物液;和(b)测定所述生物液中一个或多个标记蛋白的水平,其中所述一个或多个标记蛋白是在癌样品和参照样品之间差异性表达的一个或多个基因的产物,其中所述一个或多个标记蛋白据预测且经实验证实会分泌到所述生物液中, 并且其中所述生物液中的所述一个或多个标记蛋白相对于标准水平的差异性表达指示癌。
32.如权利要求31所述的方法,其中所述差异性表达包括所述生物液中的所述一个或多个蛋白的水平相对于所述标准水平增加。
33.如权利要求31所述的方法,其中所述差异性表达包括所述生物液中的所述一个或多个蛋白的水平相对于所述标准水平减少。
34.如权利要求31所述的方法,其中一个或多个标记蛋白选自由MUC13、GKN2、C0L10A、 AZTPU CTSB, LIPF, GIF、EL 和 T0P2A 组成的组。
35.用于癌鉴定的标记,所述标记包含选自由MUC13、GKN2、C0L10A、AZTP1、CTSB、LIPF、 GIF、EL和T0P2A组成的组的一个或多个蛋白,其中获自受试对象的生物液中的所述一个或多个蛋白相对于标准水平的差异性表达指示所述受试对象中癌的出现。
36.如权利要求32所述的标记,其中所述差异性表达包括所述生物液中的所述一个或多个蛋白的水平相对于所述标准水平增加。
37.如权利要求32所述的标记,其中所述差异性表达包括所述生物液中的所述一个或多个蛋白的水平相对于所述标准水平减少。
38.一种用于检测受试对象中的癌的试剂盒,所述试剂盒包含(a)与生物液中的蛋白特异性结合的一种或多种一抗,其中所述蛋白选自由MUC13、 GKN2、COLlOA, AZTPU CTSB, LIPF, GIF、EL 和 T0P2A 组成的组;(b)与所述一种或多种一抗特异性结合的二抗;以及可选的是,(c)参照样品。
全文摘要
本发明提供了通过检测分泌到生物液中的蛋白而检测癌的方法以及诊断癌的方法。首先将本发明应用于检测分泌到血清和尿中的蛋白。但是,应该理解的是,所述方法具有更广泛的应用,以开发用于检测分泌到其它生物液中的蛋白的工具和系统,所述其它生物液例如,但不限于唾液、脊髓液、精液、阴道液和眼内液。通过该方法的实施方式提供的对分泌到生物液中的蛋白进行的可信检测能够更及时准确地检测和诊断癌。
文档编号G01N33/53GK102348979SQ201080011326
公开日2012年2月8日 申请日期2010年2月19日 优先权日2009年3月9日
发明者C·洪, 大卫·普特, 崔娟, 徐鹰, 李凡 申请人:乔治亚大学研究基金公司, 吉林大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1