诊断和监测动脉粥样硬化性心血管疾病的方法和组合物的利记博彩app

文档序号:6122586阅读:1461来源:国知局

专利名称::诊断和监测动脉粥样硬化性心血管疾病的方法和组合物的利记博彩app诊断和监测动脉粥样硬化性心血管疾病的方法和组合物相关申请的交叉引用本申请要求2005年6月24日提交的美国临时申请60/693,756的优先权,该份申请的内容出于所有目的全文纳入本文作为参考。
背景技术
:发明领域本申请涉及生物信息学和动脉粥样硬化性疾病领域。具体地说,本发明涉及用于动脉粥样硬化性疾病的诊断、监测和治疗剂开发的方法和组合物。相关领域描述由于我们进行早期和准确诊断然后进行积极治疗的能力有限,动脉粥样硬化性心血管疾病(ASCVD)依旧是全球发病率和死亡率的主要原因。ASCVD患者代表了不均匀的一群个体,其所患疾病以不同的速度和截然不同的模式发展。虽然ASCVD患者明显有适当的治疗方法,但每年的复发率和死亡率依旧有2-4%。由于我们不能准确地鉴定可从积极风险降低(aggressiveriskreduction)中获益的那些患者,初级预防(primaryprevention)的各种优点还未实现。虽然某些疾病标记已显示能在群体水平预测治疗的结果和反应,但它们不够灵敏或特异,从而不足以临床应用于个体患者。因此,超过半数的冠状动脉疾病患者的首次临床表现便是心肌梗塞或死亡。体检和目前的诊断方法不能准确测定个体患ASCVD并发症的风险。己知的风险因素,例如高血压、高脂血症、糖尿病、家族史和吸烟未能确立动脉粥样硬化性疾病的诊断方法。依赖于解剖学数据(例如,冠状动脉造影术、冠状动脉钙化度(coronarycalciumscore)、CT或MRI血管造影术)的诊断方法缺乏有关该疾病过程的生物学活性的信息,对未来心脏活动(cardiacevent)的预测不佳。功能性评估内皮功能可以是非特异性的并且与动脉粥样硬化性疾病过程的存在无关,虽然一些数据证明这些测量值有预后价值。个体生物标记,例如脂质和炎性标记已显示能预测ASCVD患者对治疗的结果和反应,一些标记用作产生动脉粥样硬化性疾病的重要风险因子。然而,迄今为止,没有一种生物标记足够特异从而足以临床应用于诊断个体患者的ASCVD。动脉粥样硬化性心血管疾病的复杂性质据信,动脉粥样硬化通常是涉及多种生物学途径的复杂疾病。动脉粥样硬化性疾病过程的自然变迁史以及对风险因素的反应不同和个体的治疗反应变化部分反映了遗传背景和它们与导致该疾病发生和改变的环境因素之间错综复杂的相互作用中的差异。心血管系统本身的复杂性质也影响动脉粥样硬化性疾病,在该系统中,解剖学、功能和生物学均在健康和疾病中发挥至关重要的作用。由于这种复杂性,一种标记或方法不可能产生足够的信息而获取该疾病过程的真实性质。单一生物标记方法炎症ASCVD的各阶段均涉及炎症,据信炎症是动脉粥样硬化的病理生理学基础的主要部分,其提供该疾病过程的潜在标记。在许多流行病学研究中循环炎性生物标记升高已显示能对心血管风险分层次并评估对治疗的反应。目前,虽然炎症的通用标记可能用于对风险分层次,但它们不足以鉴定个体中是否存在CAD,因为许多标记缺乏特异性。出于相似的原因,炎症的通用标记,例如C-反应性蛋白(CRP)和红细胞沉降率(ESR)早已不用作其它炎性疾病,例如狼疮和类风湿性关节炎的特异性诊断标记,虽然它们依旧是临床实践中对风险分层次和(评估)治疗反应的重要标记。个体对环境风险因素的反应不均匀也可能诱导ASCVD标记浓度高度变化。在这点上,一种炎性蛋白所携带的生物学信息不足以全面代表血管炎性状态,从而不能准确鉴定是否存在疾病或其严重程度。动脉粥样硬化的病理生理学基础动脉粥样硬化斑块由累积的胞内和胞外脂质、平滑肌细胞、结缔组织和葡萄糖胺聚糖构成。动脉粥样硬化最早的可检测损伤是由充满脂质的泡沫细胞构成的脂肪纹,这些细胞是作为单核细胞从循环(系统)迁移入内膜的内皮下层中的巨噬细胞,脂肪纹随后演化成由围绕以结缔组织的内膜平滑肌细胞和胞内及胞外脂质构成的纤维斑块。已有人提出了相关的假设来解释动脉粥样硬化的发病机理。脂质假说假定血7桨LDL水平升高会导致LDL透入动脉壁中,造成脂质累积在平滑肌细胞和巨噬细胞中。LDL对生长因子起反应还会促进平滑肌细胞增生以及迁移入内膜下和内膜区域中。在此环境中,LDL得到修饰或氧化,从而更能造成动脉粥样硬化。修饰或氧化的LDL对单核细胞有趋化性,促使它们迁移入内膜,早期出现在脂肪纹中和转化为巨噬细胞并驻留在内膜下隔室中。巨噬细胞表面的清道夫受体促进氧化的LDL进入这些细胞,将它们转化成充满脂质的巨噬细胞和泡沫细胞。氧化的LDL还对内皮细胞有毒性,可导致它们功能障碍或因更严重的损伤而丧失。慢性内皮损伤假说假定各种机理造成的内皮损伤导致内皮丧失,血小板附着到内皮下膜、血小板凝集、单核细胞和T-细胞淋巴细胞的趋化作用并释放血小板衍生和单核细胞衍生的生长因子,这些生长因子能诱导平滑肌细胞从介质迁移入内膜中并在其中复制、合成结缔组织和蛋白聚糖进而形成纤维斑块。其它细胞,例如巨噬细胞、内皮细胞、动脉平滑肌细胞也产生能促进平滑肌(细胞)增生并胞外基质产生的生长因子。内皮功能障碍包括提高了内皮对脂蛋白和其它血浆成分的渗透性,附着分子的表达和生长因子的加工从而导致单核细胞、巨噬细胞和T淋巴细胞附着增加。这些细胞可经内皮迁移并将自己定位于内皮下层中。泡沫细胞也释放生长因子和细胞因子,从而能促进平滑肌细胞迁移和刺激血管内膜(neointimal)增殖,基序、、继续累积脂质并支持内皮细胞功能障碍。临床和实验室研究显示炎症在粥样斑的产生、发展和不稳定中起主要作用。"自身免疫"假说假定炎性免疫学过程是动脉粥样硬化的最早阶段的特征,其由抵御内源性抗原的体液和细胞免疫反应来启动。人Hsp60表达本身是由几种应激因素启动的对损伤的反应,所述应激因素已知是动脉粥样硬化的风险因素,例如高血压。氧化的LDL是动脉粥样硬化自身抗原的另一候选对象。已在动脉粥样硬化患者中检测到oxLDL的抗体,动脉粥样硬化损伤中也发现了它们。从人动脉粥样硬化损伤处分离的T淋巴细胞已显示对oxLDL有反应,其是细胞免疫应答中的主要自身抗原。所提出的与动脉粥样硬化有关的第三种自身抗原是2-糖蛋白1(2GPI),其是用作体外抗凝剂的一种糖蛋白。动脉粥样硬化斑块中发现了2GPI,在易患动脉粥样硬化的转基因小鼠中用2GPI高度免疫或转移2GPI-反应性T细胞增强了脂肪纹形成。感染可通过诱导炎症和自身免疫力而导致动脉粥样硬化产生。许多研究证明了传染性因子,病毒(巨细胞病毒、单纯疱疹病毒、肠病毒、甲肝病毒)和细菌(肺炎衣原体(C.p"ewwom力e)、幽门螺杆菌(//.j^/on')、牙周病原体)在动脉粥样硬化中的作用。近年来,已有人提出了新的"病原体负荷"假说,提示多种传染性因子可导致了动脉粥样硬化,感染所致的心血管疾病风险与个体所接触的病原体数量有关。对于一种微生物,肺炎衣原体可能与动脉粥样硬化最相关。这些假说关系密切,不是相互排斥的。修饰的LDL对培养的内皮细胞具有细胞毒性,可诱导内皮损伤,吸引单核细胞和巨噬细胞并刺激平滑肌生长。修饰的LDL还能抑制巨噬细胞活动性,从而使得巨噬细胞一旦在内皮下间隙中转化成泡沫细胞,即被截留。此外,再生的内皮细胞(损伤后)功能受损,其从血浆摄取LDL增加。动脉粥样硬化的特征在于除非临界狭窄、血栓形成、动脉瘤或栓塞接连发生否则不为人知。首先,症状和体征反映出受影响的组织的血流量不能随需求而增加,例如心绞痛发作、间歇性跛行。症状和体征通常随着粥样斑缓慢侵入血管腔而逐渐发展。然而,当主要的动脉被急性阻塞时,症状和体征可能是惊人的。如上所述,目前,因为缺乏合适的诊断方法,超过半数的冠状动脉疾病患者的首次临床表现便是心肌梗塞或死亡。预防和治疗的进一步发展取决于开发出将焦点集中在血管壁初级炎性过程上的方案,该过程在动脉粥样硬化性疾病的病因学中是基础性的。没有能准确报道血管壁疾病活性和/或程度的良好替代标记便不可能开发出能完全确定风险、监测风险的作用向原发病缓解降低或开发靶向血管壁的新型治疗剂的方法。一种有前途的方法是鉴定能反映血管炎症程度和特征的循环蛋白。已鉴定到许多免疫调制蛋白作为替代标记具有一定价值,但这些生物标记尚未显示添加了足够的信息从而能应用于临床。这是因为^未能同时顾及所检测的多种标记的数据,^未能将单个标记数据与调节循环蛋白水平并混淆信息模式的临床数据整合,遗传变异促进了编码这些标记的基因表达水平并混淆了丰度测定,和W缺乏在ASCVD中激活的特异性免疫途径的有关信息,而这些信息能用于更好地选择生物标记。最后,现有技术未能提供可利用一组循环蛋白的检测值的有效诊断或预测方法。未满足的临床与科学需求因此,将鉴定患血管炎症和动脉粥样硬化性心血管疾病个体的改进工具用于临床医学和生物医学研究的需求未获满足。目前,虽然对动脉粥样硬化的机制和情况的了解在增加,但我们用于鉴定高风险患者并预测预防方案效力的方法依旧不够。因此,需要新方法来更好地诊断风险患者;鉴定动脉粥样硬化性疾病患者可启动急需的治疗从而能改善临床结果。发明概述本发明提供检测循环蛋白表达来诊断、监测动脉粥样硬化病症并开发相关治疗剂的方法,所述动脉粥样硬化病症包括但不限于会导致心绞痛、不稳定心绞痛、急性冠状动脉综合征、心肌梗塞和心力衰竭的病症。具体地说,本发明鉴定和描述了在动脉粥样硬化患者中表达有差异的循环蛋白,所述蛋白包括但不限于循环炎性标记。本文鉴定的循环炎性标记包括MCP-1、MCP-2、MCP-3、MCP-4、嗜酸细胞活化趋化因子、IP-IO、M-CSF、IL-3、TNFa、Ang-2、IL-5、IL-7和IGF-1。检测本文所鉴定蛋白质的循环水平可将患者分类为属于各种动脉粥样硬化情况,包括动脉粥样硬化性疾病、无疾病、心肌梗塞、稳定的心绞痛、接受药物治疗、未治疗等,所述蛋白质是因动脉粥样硬化过程而在血管壁中特异性产生的。还可用这种分类预测心血管活动和对治疗的反应;并用于预测和评估心血管疾病的并发症。在本发明的一个实施方式中,对于表明动脉粥样硬化各阶段及其临床后遗症的各种情况,评估一组蛋白质的表达情况(expressionprome)。这样一组蛋白质所提供的鉴别水平是用单个标记做不到的。在一个实施方式中,通过检测蛋白质浓度或含量来测定表达分布。分析方法可包括但不限于利用数据集形成预测模型,将测试样品数据输入这种模型根据动脉粥样硬化分类来分类样品,其中所述分类选自动脉粥样硬化性疾病分类、健康分类、血管炎症分类、用药分类、不用药分类和冠状动脉钙化度分类,以及根据该方法的输出来分类样品。在一些实施方式中,利用这种预测模型通过获得哺乳动物对象样品相关数据集来分类该样品,其中所述数据集包括至少3种、至少4种或至少5种选自以下的蛋白质标记MCP1;MCP2;MCP3;MCP4;嗜酸细胞活化趋化因子;IP10;MCSF;IL3;TNFa;Ang2;IL5;IL7;IGF1;IL10;INFy;VEGF;MIPla;RANTES;IL6;IL8;ICAM;TIMP1;CCL19;TCA4/6kine/CCL21;CSF3;TRANCE;IL2;IL4;IL13;Illb;MCP5;CCL9;CXCL1/GR01;GROa;IL12;和痩蛋白(leptin)。数据任选包括临床指征(clinicalindicia)的概况;其它蛋白质表达情况;代谢指标;遗传信息等。本发明的预测模型利用由本文所述一组或多组标记获得的定量数据。在一些实施方式中,预测模型能提供一定水平的分类准确率;即该模型满足了所需的质量阈值(qualitythreshold)。有意义的质量阈值可提供满足给定阈值的AUC或准确率,这些术语(AUC;准确率)中的一种或两种在本文中可称为质量指标(qualitymetric)。预测模型可提供一种质量指标,例如分类的准确率或AUC为至少约0.7,至少约0.8、至少约0.9或更高。用这种模型可以正确选择参数,从而能在灵敏度和选择性之间提供所需平衡。在其它实施方式中,循环蛋白分析被用于筛选生物学活性物质的动脉粥样硬化治疗效力的方法。在这种方法中,将动脉粥样硬化相关细胞,例如血管壁细胞等在培养物中或在体内与候选物质接触,并测定这种接触对一种或多种标记,例如一组标记表达的作用。在另一实施方式中,分析上述循环蛋白的差异表达被用于患者用在遵循一定治疗方案的方法中。当患者曾接受了某种治疗,在单个时间点或一段时期内测定一种或多种标记(例如一组标记)的表达,所述治疗包括药物、多种药物、非药理学干预以及它们的组合等。在另一方法中,采用3种或更多本文鉴定的动脉粥样硬化相关蛋白的相对量来诊断或监测个体的动脉粥样硬化。本文鉴定的蛋白组还可包括其它临床指征;其它蛋白质表达情况;代谢指标;遗传信息等。在另一实施方式中,本发明包括通过以下步骤分类哺乳动物对象样品的方法获得样品相关数据集,其中所述数据集包括至少3种、或至少4种、或至少5种、或至少6种、或至少7种、或至少8种、或至少9种或9种以上选自以下的蛋白质标记的定量数据MCP1、MCP2、MCP3、MCP4、嗜酸细胞活化趋化因子、IP-IO、M-CSF、IL-3、TNFa、Ang-2、IL-5、IL-7和IGF-1;将数据输入利用数据分类样品的分析方法,其中所述分类选自动脉粥样硬化性疾病分类、健康分类、血管炎症分类、药物接触分类、未接触药物分类和冠状动脉钙化度分类;和根据该方法的输出来分类样品。在另一实施方式中,本发明包括通过以下步骤分类哺乳动物对象样品的方法:获得样品相关数据集,其中所述数据集包括至少3种、或至少4种、或至少5种、或至少6种蛋白质标记的定量数据,各标记显示了循环蛋白质浓度与动脉粥样硬化血管组织RNA浓度之间的相互关系;将数据输入利用数据分类样品的分析方法,其中所述分类选自动脉粥样硬化性疾病分类、健康分类、血管炎症分类、药物接触分类、未接触药物分类和冠状动脉钙化度分类;和根据该方法的输出来分类样品。附图简述图1.喂食高脂饮食的载脂蛋白(apo)E-缺陷型小鼠中随动脉粥样硬化进展的时间依赖性血清炎性蛋白表达。热图(heatmap)是血清浓度水平的图形化显示,其中,x-轴是各血清样品,y-轴是蛋白质标记。数值表示喂食高脂饮食的apoE-缺陷型小鼠在基线(TOO;"=5)和10(丁10;w=5)、16(T16;w=4)、24(T24;w=5)及40周(T40;"=5)时的血清蛋白表达水平。请注意,对于16周时间点,数值获自另一独立数据集。图2.apoE-缺陷型小鼠和对照小鼠的循环炎性蛋白表达水平。热图是标准化表达数值表的图形化显示。数值表示喂食高脂饮食的apoE-小鼠平行组在基线(TOO)0=9)和40周(T40)时(n=9),以及喂食高脂饮食的C57B1/6(11=5)和C3H/HeJ(n二3)小鼠在基线和40周时(n值分别为5,5)的循环蛋白平均表达水平(log2)。喂食高脂饮食的apoE-缺陷型小鼠的炎性标记水平最高,而C3H/HeJ小鼠的水平最低,尽管它也喂食高脂饮食。采用N-向ANOVA鉴定各种情况下的统计学显著差异。在最右边一列中,报道的p-值未考虑饮食、品系和时间之间可能的相互作用。下文讨论了这些因素的影响和它们彼此的相互作用。图3.小鼠动脉粥样硬化分类血清炎性标记的蛋白质组学签名(proteomicsignaturepattern)。A鉴定动脉粥样硬化分类蛋白质亚组。采用各种分类算法,包括微阵列预测分析(PAM)、递归特征排除(recursivefeatureelimination)(RFE)、支持向量机(supportvectormachine)(SVM)禾卩ANOVA,根据准确区分4种不同动脉粥样硬化性疾病阶段(基线时和10、24及40周时喂食高脂饮食的apoE-缺陷型小鼠)小鼠的能力对一亚组的标记进行排名。这些标记中的部分用所有分类算法进行了排名。&小鼠动脉粥样硬化性疾病的分类准确率(混淆矩阵(confusionmatrix))。为测定小鼠分类蛋白质预测疾病严重程度的准确率,我们使用以前鉴定的优选蛋白质标记(Cc121、Ccl9、Csf3、Tnfsfll、Vegfa、Cclll、Ccl2)。用SVM算法交叉验证根据疾病阶段分组的小鼠实验。用1,000-步7V-倍交叉验证方法测定分类准确率,25。/。的实验用作测试组(testgroup),其余的用作训练组(traininggroup)。结果以表格形式表示,混淆矩阵如"方法"部分所述。标记"真"表示"的确患病",而"预测的"表示"预计患病"。C:一独立数据集的分类。采用SVM算法,我们能将独立数据集("测试")归入最接近原实验组("己知的")的时间点组别。已知实验包括获得蛋白分类符(classifier)组的原始分析中的4个时间点。独立实验组获自未包括在原始组中的16-周时间点。热图中显示了一对多比较(one-vs-allcomparison)所得各实验的SVM评分(亲和度)。16-周时的蛋白质分布情况与原始数据集中10-周时是更相关。图4.优选分类符标记的血清水平和血管基因表达之间的相关性。A:为研究这些血清标记中一个亚组的疾病相关基因表达,我们研究了它们在血清来源小鼠主动脉中的基因时序表达(temporalexpression)。采用定量实时RT-PCR(qRT-PCR),我们能使这些标记的时间依赖性血清蛋白质水平与它们的血管壁基因表达相关。测定了血清蛋白质水平的loglO-标准化平均表达比与主动脉基因表达值的loglO-标准化平均表达比的皮尔逊相关性(Pearsoncorrelation)。将各时间点的蛋白质微阵列除以apoE缺陷型小鼠的基线水平得到蛋白质水平平均比(n:4-9)。将各时间点的重复qRT-PCR反应结果除以apoE-缺陷型小鼠的基线值得到基因表达水平的平均比。请注意,对于16-周时间点,数值获自另一独立数据集。B:皮尔逊相关性数值的相关性矩阵总结表,比较了血清蛋白质水平的标准化平均比值、血管基因表达的标准化平均比值和喂食高脂饮食时间(loglO-喂食周数)。显著性水平为0.05(双侧检验(2-tailed))。图5.对象的临床特征。名义变量(Nominalvariable)(*)以计数(%)表示,连续变量(continuousvariables)(卞)以中值(四分位数间距((interquartilesrange))表示。$通过皮尔逊卡方或曼-惠特尼U检验进行适当比较。基于10000次抽样比较,采用蒙特卡洛方法计算显著性。BP(血压);FH(家族史);ACEI(血管紧张素转换酶抑制剂);BB((3阻断剂);CCB(钙通道阻断剂);AB(ct阻断剂);ASA(乙13酰水杨酸);BMI(体重指数);DBP(舒张压);SBP(收縮压);HR(心率);CRP(C-反应性蛋白)。图6.就临床特征进行调整前后,冠状动脉疾病患者和健康对照的血清趋化因子分布。所示数据为几何平均数(95。/。CI)。通过GLM多变量分析进行调节,通过t-检验比较调整后平均数。*模型1,就年龄和腰围进行调整;t模型2,如同模型l进行调整,并就治疗(ACE抑制剂、他汀类药物和阿司匹林)调整。图7.临床变量和病例比对照的两维层次聚类法(hierarchicalclustering)。图8.主成分分析证明趋化因子、胰岛素耐受性情况和一个其它临床变量(例如高血压和高脂血症)亚组可以解释在对象中观察到的差异中的60-70%,其中炎症标记是主要因素。图9.该表格显示了用于测定排名变量的最佳数量从而能以最低误差率将实验分类成正确组的支持向量机(SVM)和递归特征排除(RFE)。通过1000次重复交叉验证计算最佳误差率或分类误差,其中25%的实验用作测试组,其余实验用作训练组。图10.ROC曲线。图11.该表格显示了预测冠状动脉疾病的对数回归模型(LogisticRegressionmodel)。模型l)逐步前向选择(Stepwiseforwardselection),缺失数值不估算;2)逐步前向选择,采用条件均值(conditionalmeans)进行缺失数据估算;3)临床变量和趋化因子评分的逐步前向选择。独立变量年龄、性别、舒张压(DBP)、收縮压(SBP)、心率、血浆胰岛素、C-反应性蛋白和趋化因子(模型1和2:嗜酸细胞活化趋化因子、IP-IO、MCP-1、MCP-2、MCP-3、MCP-4和MIP-la;模型3:趋化因子评分)。图12.—系列0)八模型的预期八1;(:数值和8.£.,标记数如图所示依次增多。图13.—系列对数回归模型的预期AUC数值和S.E.,标记数如图所示依次增多。图14.LDA模型预测,MCP-1标记不在可用预测标记组之列。该新模型用Ang-2、IGF-1和M-CSF作为另一种标记组合来超越AUC>0.75的阈值。图15a.采用赤池信息量基准(AkaikeInformationCriterion)(AIC)选择对数回归模型的标记。图151^.—系列对数回归模型的预期八1;(:数值和8卫.,标记数如图所示依次增多(=在标记选择过程中采用aic标准从完整模型中依次除去标记数的倒序)。图16.包括临床变量和生物学标记的对数回归模型。图17.包括临床可变变量和生物学标记的对数回归模型。包括"P阻断剂"(DC512)和"他汀类药物"(DC3005)及MCP-4的模型产生的AUC预计值超过0.85。图18.以下三组的第一辨别变量(discriminantvariate)值分布的箱线图(boxplot):"未治疗的"、"ACE或他汀类药物"和"ACE和他汀类药物"。发明详述定义除非另有表述,权利要求书和说明书中使用的术语如下所述。术语"改善"指疾病状态,例如动脉粥样硬化性疾病状态的治疗中获得的任何有益的治疗结果,包括预防、严重程度或进展的减缓、缓解或治愈。本文所用的术语"哺乳动物"包括人和非人,包括但不限于人、非人灵长类、狗、猫、鼠、牛、马和猪。述及两条或多条核酸或多肽序列时的术语"相同性"百分比指当比较和排列对比两条或多条序列或子序列的最大一致性时,利用一种下述序列比较算法(例如,BLASTP和BLASTN或技术人员可用的其它算法)或通过目测检测到有一定百分比的核苷酸或氨基酸残基相同。取决于具体应用,"相同性"百分比可以涉及进行比较的序列区域,例如功能性结构域,或者涉及待比较的两条序列的全长。为了进行序列比较,通常将一条序列用作供测试序列与之相比的参比序列。当使用序列比较算法时,将测试序列和参比序列输入计算机,根据需要设定子序列的坐标,并设定序列算法程序参数。序列比较算法于是根据所设定的程序参数计算一条或多条测试序列相对于参比序列的序列相同性百分比。可通过以下方法对要比较的序列进行最佳比对排列,例如Smith和Waterman的局部同源算法(Adv.Appl.Math.2:482(1981))、Needleman和Wunsch的同源比对算法(J.Mol.Biol.48:443(1970))、Pearson和Lipman的相似度检索法(Proc.Nat'l.Acad.Sci.USA85:2444(1988))、计算机执行这些算法(威斯康星遗传学软件包的GAP、BESTFIT、FASTA和TFASTA,遗传学计算机组(GeneticsComputerGroup),575ScienceDr.,麦迪逊,威斯康星州)或目测(通常参见Ausubel,FM等,CurrentProtocolsinMolecularBiology(《最新分子生物学方法》),4,约翰威立父子公司(JohnWiley&Sons,Inc.),布鲁克林,纽约,A.1E.1-A.1F.11,1996-2004)。适合于测定序列相同性百分比和序列相似性百分比的算法的一个实例是Altschul等(J.Mol.Biol.215:403-410(1990))所述的BLAST算法。执行BLAST分析的软件可从生物技术信息国家中心(NationalCenterforBiotechnologyInformation)公开获f寻(www.ncbi.nlm.nih.gov/)。术语"足量"表示足以产生所需作用的用量,例如足以改变蛋白质表达特征的用量。术语"治疗有效量"是能有效缓解疾病症状的用量。治疗有效量可以是"预防有效量",因为预防可视为治疗。TP:真阳性TN:真阴性FP:假阳性FN:假阴性N:阴性样品总数P:阳性样品总数A:样品总数_准确率=(TP+TN)/A平均CV误差=平均分类误差误差=1-平均准确率灵敏度=TP/P=TP/(TP+FN)特异性=TN/N=TN/(TN+FP)本申请所用的縮写包括以下CAD=冠状动脉疾病;MIPla=MIPla;LDA=线性辨别分析;MI=心肌梗塞;ASCVD=动脉粥样硬化性心血管疾病。必须注意,除非文中另有明确表述,说明书和随附的权利要求书中所用的单数形式"一"、"一个"和"该"包括复数含意。在本文中,动脉粥样硬化(也称为动脉硬化、动脉粥样化血管疾病、动脉阻塞性疾病)指特征在于血管壁上有斑块累积及血管炎症的心血管疾病。所述斑块由胞内和胞外脂质、平滑肌细胞、结缔组织、炎性细胞和葡萄糖胺聚糖累计而成。炎症与脂质累积常在血管壁中联合发生,血管炎症是动脉粥样硬化性疾病过程的标志。心肌梗塞是通常由流向心肌部分的冠状动脉血液突然减少导致的缺血性心肌坏死。在绝大多数急性MI患者中,急性血栓(常与斑块破裂有关)阻塞了向受损区域供血的动脉。斑块破裂通常发生在以前被富集于炎性细胞中的动脉粥样硬化斑块所部分阻塞之处。据估计,动脉粥样硬化斑块中内皮机能障碍和血管炎症所诱导的血小板功能改变导致血栓形成。心肌梗塞可分类成ST升高和非ST升高型MI(也称为不稳定心绞痛)。两种心肌梗塞形式中均有心肌坏死。ST升高型心肌梗塞中有透壁心肌损伤,从而导致心电图上ST升高。在非ST升高型心肌梗塞中,损伤在心内膜下,不引起心电图上ST段升高。心肌梗塞(ST升高型和非ST升高型)代表了一种不稳定的动脉粥样硬化性心血管疾病。急性冠状动脉综合征包括各种形式的不稳定冠状动脉疾病。心绞痛指向心血流不足导致的胸部疼痛或不适。心绞痛可视为动脉粥样硬化性心血管疾病的症状之一。心绞痛可分类为稳定型,其遵循一种规律的慢性症状模式,与不稳定动脉粥样硬化性心血管疾病不同。稳定型动脉粥样硬化性心血管疾病的病理生理学基础也是复杂的,但在生物学上区别于不稳定型。稳定心绞痛一般不是心肌坏死。心力衰竭可能是心肌梗塞导致的心肌机能障碍所致。目前方法的几个特征值得注意。动脉粥样硬化和相关的病症是通过评估是否存在一种或一组蛋白质标记的血检来诊断的。所述标记包括MCP-1、MCP-2、MCP-3、MCP-4、嗜酸细胞活化趋化因子、IP-IO、M-CSF、IL國3、TNFa、Ang-2、IL-5、IL-7和IGF-1。已知,这些标记在动脉粥样硬化过程中在血管壁中特异性产生。在一些实施方式中,这种预测模型利用从循环标记获得的定量数据,所述标记包括MCP1;MCP2;MCP3;MCP4;嗜酸细胞活化趋化因子;IP10;MCSF;IL3;TNFa;Ang2;IL5;IL7;IGF1;IL10;INFy;VEGF;MIPla;RANTES;IL6;IL8;ICAM;TIMP1;CCL19;TCA4/6kine/CCL21;CSF3;TRANCE;IL2;IL4;IL13;Illb;MCP5;CCL9;CXCL1/GR01;GROa;IL12;和痩蛋白。有用的其它循环标记包括sVCAM;sICAM-l;E-选择蛋白;P-选择蛋白;白介素-6,白介素-18;肌酸激酶;LDL,oxLDL,LDL粒度,脂蛋白(a);肌钙蛋白I,肌钙蛋白T;LPLA2;CRP;HDL,甘油三酯,胰岛素,BNP(脑钠尿肽),神经趋化蛋白(fractalkine),骨桥蛋白,骨保护素,制瘤素-M,髓过氧化物酶,ADMA,PAI-1(纤溶酶原激活物抑制剂),SAA(循环淀粉样蛋白A),t-PA(组织型纤维蛋白溶酶原激活剂),sCD40配体,血纤蛋白原,高半胱氨酸,D-二聚体,白细胞计数;还可包括本文所述的各种其它标记,包括指征,代谢指标,遗传信息和其它循环标记。在本发明的某些实施方式中,由患者样品获取分类数据集,其中该数据集包括选自以下的至少三种蛋白质标记的定量数据MCP-1、MCP-2、MCP-3、MCP-4、嗜酸细胞活化趋化因子、IP-IO、M-CSF、IL-3、TNFa、Ang-2、IL-5、IL-7和IGF-l。所述至少三种蛋白质标记可包括选自以下的标记组(markerset):MCP-l、IGF國1、TNFa;MCP-1、IGF墨1、M-CSF;ANG-2、IGF-1、M-CSF;和MCP-4,IGF-1,M-CSF。当数据集包括至少四种蛋白质标记的定量数据时,所述至少四种蛋白质标记可选自下组MCP-1,MCP-2,MCP-3,MCP-4,嗜酸细胞活化趋化因子,IP-IO,M-CSF,IL-3,TNFa,Ang-2,IL-5,IL-7和IGF-1;MCP-1,IGF-1,TNFa,IL-5;MCP陽1,IGF-1,M-CSF,MCP匿2;ANG隱2,IGF-1,M-CSF,IL-5;MCP-1,IGF-1,TNFa,MCP-2;和MCP-4,IGF-1,M墨CSF,IL-5。当数据集包括至少五种标记的定量数据时,所述至少五种标记可包括选自以下的标记组MCP-1,MCP-2,MCP-3,MCP-4,嗜酸细胞活化趋化因子,IP-IO,M-CSF,IL-3,TNFa,Ang-2,IL-5,IL誦7和IGF-1;MCP-1,IGF-1,TNFa,IL-5,M陽CSF;MCP陽1,IGF隱l,M-CSF,MCP隱2,IP-10;ANG隱2,IGF匿1,M-CSF,IL-5,TNFa;MCP-1,IGF扁1,TNFa,MCP-2,IP-10;MCP-4,IGF-1,M-CSF,IL隱5,TNFa;和MCP-4,IGF-1,M-CSF,IL-5,MCP-2。在本发明的另一实施方式中,至少两种、至少三种、至少四种、至少五种或更多种标记选自M-CSF、嗜酸细胞活化趋化因子、IP-IO、MCP-1、MCP-2、MCP-3、MCP-4、IL-3、IL-5、IL-7、IL-8、MIPla、TNFa和RANTES。鉴定动脉粥样硬化相关循环蛋白能提供诊断和预后方法,所述方法能通过检测所鉴定循环蛋白的水平变化来检测病症(例如冠状动脉疾病、动脉粥样硬化等)的发生,特别是这种病症表明有心肌梗塞、心力衰竭等倾向时;或评估个体这种疾病18的易发性。这些方法还包括筛选治疗剂和方法的效力;给疾病分阶段和分类;等等。可采用早期检测来测定进程性疾病的发生,从而能用合适的预防性或保护性手段加以干预。感兴趣的循环蛋白包括表1所列的那些<table>tableseeoriginaldocumentpage20</column></row><table><image>imageseeoriginaldocumentpage21</image><formula>formulaseeoriginaldocumentpage22</formula><table>tableseeoriginaldocumentpage23</column></row><table><table>tableseeoriginaldocumentpage24</column></row><table><formula>formulaseeoriginaldocumentpage25</formula>CCL3||SCYA3||CCL3||MIP1A||LD78-all巨噬细胞炎性蛋白l-all小的可诱导细胞因子A3H趋化因子(C-C基序)配体3II趋化因子,CC基序,配体3||趋化因子(C-C基序)配体36348画_002983(SE^IDNO:182)CX756573,M27281,M32977,S85192,X62568AC069363,D90144,M23178,X04018,AF043339,BC071834,D00044,D63785,M23452,M25315,X03754,CR591007画—011337(SEQIDNO:183)AL596122,M73061,X53372,AF065939,AF065940,AF065941,AF065942,AF065943,AK150590,AK150634,AK150698,AK151581,AK152648,AK153155,AK155058,J04491,M23447,X12531,AA895994NP一002974,Pl6"l47,Q14745(SEQIDNOS184-186)NP_035467,P10855'Q5Q丽0(SEQ1DNOS187-189)CCL5||TCP228||SCYA5||CCL5||T细胞特异性RANTESIIT细胞特异性蛋白p228H小的可诱导细胞因子A5卩趋化因子(C-C基序)配体5||趋化因子,CC基序,配体5||活化后调节的,通常是T细胞表达的,估计是分泌的II趋化因子(C-C基序)配体56352丽—002985(SEQIDNO:190)AB023652,AB023653,AB023654,AC015849,AF088219,DQO17060,AF043341,AF266753,BC008600,BG272739'M21121,BM917378雨—013653(SEQIDNO:191)AB051897,AL596122,,298,X70675,AF065944,AF065945,AF065946,AF065947,AF128187,AK003101,AK158074,AY722103,BC033508,CT0腿5,M77747,S37648,AI020884NP一002976,P13501,Q9UBL2(SEQIDNOS192-194)NP_038681,P30882,Q5XZF2(SEQIDNOS195-197)IL6HIL6IIIFNB2IIHSFIIBSF2II干扰素,P-2H杂交瘤生长因子卄B-细胞分化因子IIB-细胞剌激因子2H白介素6(干扰素,P2川BMI增加中的HGF血清IL6水平,修饰物||白介素6(干扰素,P2)3569雨—000600(SEQIDNO:198)AC073072,AF372214,CH236948,X04402,Y00081,BC015511,BTO19748,BTO19749,NM一031168(SE^IDNO:199)AC112933,M20572,M24221,M36996,X51457,AK089780,AK150440,NP—000591,P0f231,Q75MH2,Q8N6X1(SEQIDNOS200-203)NP—112445,f08505(SEQIDNOS204-205)<table>tableseeoriginaldocumentpage27</column></row><table>TIMP1HTIMP1IIHCIIIEPAII胶原酵抑制剂,人IITIMP金属肽酶抑制剂lll金属肽酶1的组织抑制剂(红系增能活性,胶原酶抑制剂川CCL19||CCL19||ELC||MIP3B||SCYA19IIEBIl-配体趋化因子IIEXODUS3||巨噬细胞炎性蛋白3-則趋化因子,CC基序,配体19||趋化因子(C-C基序)配体19||小的可诱导细胞因子亚族A,成员19||CCL21||SCYA21||CCL21||SLC||EXODUS2||二级淋巴组织趋化因子ll趋化因子,CC基TIMP金属肽酶抑制剂17076画一003254(SE^IDNO:222)趋化因子(C-C基序)配体196363謹—006274(SEQIDNO:235)趋化因子(C-C基序)配6366函002989(SEQIDNO:AK152527,AK152530'AK152556,AK156417,AK168275,AK171502,AK171520,AK172321,BC008626,CTO10246,CT010302,X16624,X52264,X54331AY932824,画011593AL671885,NP003245;NP03572D11139,L47361,(SE^IDNO:M21162,Q5§JP21,3,&2032,Z84466,223)M28308,Q5H9A7,Q60734AK074854,M28309,Q6FGX5,(SEQIDBC000866,M28310,2,NOSBC007097,M28311,P01033;232-234)BQ181804,M28312,X69413Q14252;BU857950,AY622853,(J9UCU1CR407638,BC008I07,(SEQIDNOSCR541982,BC034260,224-231)CR590572,BC051260,CR593351,M17243,CR602090,V00755,X04684M12670,M59906,S68252,X02598,X03124,A10416AJ223410,觀一0U888AF307988,NP006265,NP036018AL162231,AF308159,Q6rBD6,,071)460,AB000887,(SE(JIDNO:AL772334,Q99731Q548P0BC027968,236)AF059208,CR456868,AK144337,(SEQIDNOS(SEQIDCR623730,U77180,AK156269,237-239)NOSU88321,BM720436BC025130,240-242)BC051472,BE864988AF030572,NM—023052NP002980,NP—075539AJ005654,00^585,AL162231,(SEQIDNO:Q5VZ73,(SEQID<formula>formulaseeoriginaldocumentpage29</formula>胞刺激因子1||白介素43565應一000589'薩—172348(SE^IDNOS288-289)IL13HIL13II白介素13||白介素133596蘭—002188(SE^IDNO:300)BC066254,X01663,X01664,,Q9C001BC066255,X01665,X52618,(SEQIDNOSBC066256,AF065914,275-285)BC066257,AF065915,BC070338,AF065916,DQ231169,AF352786,S77834,S77835,AF538059,S82692,U25676,AF542383,V00564,X01586,AF542384,A14844AF542385,AY147902,K02292,U41494,U41504,U41505,U41506,X01772,X66058,X73040AC004039,丽021283AC005742,NP758858,NP06725AF395008,(SE^IDNO:AL596095,P05112,8,f07750,AF465829,290)AL645741,Q5FC01,Q5SV00M23442,X06750,U07869,X05064,Q6丽P0,(SEQIDAB102862,X05252,X05253,Q6NZ77,NOSAF043336,AB174765,Q9UPB9297-299)BC066277,AF352783,(SEQIDNOSBC066278,BC027514,29卜296)BC067514,M13238,BC067515,M25892,X03532BC070123,M13982,X81851AC004039,画008355AC005742,NP002179,NP03238AF172149,(SE^IDNO:AL645741,P352251,#"20109,AF172150,301)L13028,M23504,Q4VB50Q5SUZ9AF193838,,Q4VB51(SEQIDAF193839,,Q4VB52NOSAF193840,,Q4VB53308-310)AF377331,(SEQDNOSAF416600,302-307)AY008331,AY008332,L13029,L42079,L42080,U10307,U31120,AF043334,BC096138,gob80030864.1敦滔*被25/74m<table>tableseeoriginaldocumentpage31</column></row><table><table>tableseeoriginaldocumentpage32</column></row><table><formula>formulaseeoriginaldocumentpage33</formula>除了本申请中以名称、登录号或序列指定的具体生物标记外,本发明还考虑采用与所例举序列有至少卯%或至少95%或至少97%相同且目前知导的或将被发现可用于本发明方法的生物标记变体。这些变体可代表多态性、间接变体、突变等。本发明的诊断方法可用各种技术和试剂。在本发明的一个实施方式中,可检验血液样品或衍生自血液的样品,例如血检、循环(蛋白)等中是否存在多肽。通常抽取血液样品,然后检验衍生产物,例如血检或血清。可利用特异性结合成分检测这些多肽。将抗体用于这一目的尤其值得关注。这种试验可采用多种形式,包括抗体阵列;ELISA和RIA;在悬液和/或溶液中进行标记抗体的结合然后通过流式细胞术、质谱法等进行检测等等。检测可利用一种或一组抗体,优选阵列形式的一组抗体。表达签名(expressionsignature)通常联用检测方法与结果分析来测定是否存在与疾病签名统计学意义上显著的匹配。在另一实施方式中,采用体内成像来检测心脏组织中是否存在动脉粥样硬化相关蛋白。这些方法可采用,例如这些蛋白质的经标记的特异性抗体或配体。在这些实施方式中,将多肽特异性的以可测方式标记的抗体、配体等物质给予个体(例如,通过注射),采用标准成像技术(包括但不限于磁共振成象、计算机化断层显像扫描等)来定位被标记的细胞。检测可采用一种成像试剂或多种成像试剂的混合物。在另一实施方式中,分析血管(优选受动脉粥样硬化影响的一条或多条血管)组织的mRNA样品中的动脉粥样硬化指示性遗传学签名(geneticsignature)。所提供的循环蛋白表达模式表现了动脉粥样硬化中的炎性签名的特征,并进一步将特定的免疫相关路径与糖尿病和药物疗法关联起来。虽然目前的数据显示它们在动脉粥样硬化的炎症反应中具有显著的作用,但将血管壁中的免疫路径与疾病的一些关键方面关联起来的直接数据依然很少,所述关键方面包括风险因素影响初级炎性反应(primaryinflammatoryprocess)的机制和调节例如高血压和高脂血症等风险因素的药物如何特异性地影响了炎症的机制。本发明鉴定了可用于诊断和分类动脉粥样硬化性心血管疾病的炎症生物标记的表达分布情况。在诊断患者动脉粥样硬化和相关病症的方法中,获取本文提供的生物标记在血液、血清等中的表达模式,将其与对照值比较来确诊。本发明分析还可包括源于临床变量的输入值。例如,可将患者的血源样品例如血液、血浆、血清等加给一种或一组特异性结合试剂来确定是否存在要找的标记。该项分析一般包括至少一种本文所述的标记,例如M-CSF、嗜酸细胞活化趋化因子、IP-IO、MCP-1、MCP-2、MCP-3、MCP-4、IL-3、IL-5、IL陽7、IL-8、MIPla、TNFa、Ang國2、IGF陽1和RANTES,通常是至少两种标记,更常见是至少三种标记,还可包括4、5、6、7种或最多所有的标记。优选的标记组包括以下标记中的至少3种MCP-1、MCP-2、MCP-3、MCP-4、嗜酸细胞活化趋化因子、IP-IO、M-CSF、IL-3、TNFa、Ang-2、IL-5、IL-7和IGF-1,可以包括4、5、6、7、8、9、10、11、12种或所有标记o该项分析还可包括可能存在于血清或组织样品中的其它蛋白质的表达信息。采用适用于具体标记的方法来获得定量信息。标记包括但不限于SVCAM;SICAM-1;E-选择蛋白;P-选择蛋白;白介素-6,白介素-18;肌酸激酶;LDL,oxLDL,LDL粒度,月旨蛋白(a);肌,丐蛋白I,肌铐蛋白T;LPLA2;CRP;Ccl9;Ccl2;Ccl21;Ccll9;IL-5;Tnfsf11;Vegfa;Cxcll;瘦蛋白,HDL,甘油三酯,胰岛素,BNP(脑钠尿肽(brainnatureticpeptide)),神经趋化蛋白,骨桥蛋白,骨保护素,制瘤素-M,髓过氧化物酶,ADMA,PAI-1(纤溶酶原激活物抑制剂),SAA(血清淀粉样蛋白A),t-PA(组织型纤维蛋白溶酶原激活剂),sCD40配体,血纤蛋白原,高半胱氨酸,D-二聚体,白细胞计数等。其它变量包括临床指征,通常是对这些临床指征进行评估后将所得数据与循环标记分析组合用于某算法。这些临床标记包括但不限于性别;年龄;葡萄糖;胰岛素;体重指数(BMI);心率;腰围;舒张压;收縮压;血脂障碍;吸烟否;等等。其它变量包括用外周血测定的基因表达指标、代谢指标和遗传学信息本发明方法可用于取定动脉粥样硬化的阶段、动脉粥样硬化预后、评估动脉粥样硬化的进展程度、监测治疗反应等。鉴于本文所述,本领域普通技术人员不难理解如何用本发明实现这些应用。例如,可如下确定动脉粥样硬化阶段一组数据集与从阶段已知的疾病样品所获得的一份或多份数据集作比较;或者,构建能预测阶段的模型,然后将某数据集输入该模型以获得预测的阶段。可采用类似方法来提供动脉粥样硬化的预后。可通过观察预测模型例如上述模型所得的一种或多种预测值的随时间变化来监测进展。可采用本发明方法并确定已知疾病患者的一种或多种分类结果是否接近或落入常规分类来测定治疗反应。采用上述方法,如本领域所知,定量测定某测试样品中的标记。然后将如此35获得的定量数据应用于分析性分类方法。在这种方法中,根据某算法处理原始数据,其中该算法已用训练组的数据预先确定,参照本文实施例所述。一种算法可用本文提供的训练组的数据,或用本文提供的指导来产生处理另一不同数据组的算法。分析性分类方法可采用各种统计学分析方法来处理定量数据并提供样品的分类信息。有用方法的实例包括线性辨别分析、递归特征排除、微阵列预测分析、对数回归、CART算法、FlexTree算法、LART算法、随机森林算法(randomforestalgorithm)、MART算法、机械学习算法(machinelearningalgorithm);等等。采用这些方法中的任一种,用动脉粥样硬化数据集建立预测模型。在建立这种模型的过程中,将包含对照和患病样品的数据集用作训练组。训练组包所有感兴趣标记的数据。本文提供了感兴趣标记的预测模型的实例,例如参见实施例6-10。本文所示的预测模型利用了多项蛋白质水平测定的结果,提供能以所需准确率将个体分类为属于特定状态的算法,其中状态可以是动脉粥样硬化或非动脉粥样硬化。感兴趣的分类包括但不限于将样品指定为一种或多种动脉粥样硬化性疾病状态i)动脉粥样硬化状态与非动脉粥样硬化状态,ii)MI状态与心绞痛状态,iii)低钙状态与高钙状态。可根据预测模型法作出分类,所述方法设定一阈值,据此阈值确定某样品属于某给定类别的概率。该概率优选至少50%、或至少60%或至少70%或至少80%或更高。还可通过确定获得的数据集与参比数据集相比是否有统计学显著的差异来作出分类。如果存在所述差异,则认定获得数据集的来源样品不属于参比数据集代表的类别。相反,如果在统计学上这样的比较与参比数据集的差异不明显,则将获得数据集的来源样品归入参比数据集代表的类别。可根据某模型提供某具体数值或数值范围的AUC或准确率等质量指标准确率的能力来评估其预测能力。在一些实施方式中,所需的质量阈值是分类某样品的准确率如下所示的预测模型至少约0.7、至少约0.75、至少约0.8、至少约0.85、至少约0.9、至少约0.95或更高。作为另一指标,所需的质量阈值可以指分类某样品的AUC(曲线下面积)如下所示的预测模型至少约0.7、至少约0.75、至少约0.8、至少约0.85、至少约0.9、至少约0.95或更高。本领域已知可以"调谐"预测模型的相对灵敏度和特异性以提高选择性指标或灵敏度指标,这项指标具有反比关系。可根据所进行的测试的具体要求调节上述模型的限度来提供选定的灵敏度或特异性水平。灵敏度或/和特异性可以至少约0.7、至少约0.75、至少约0.8、至少约0.85、至少约0.9或更高。可通过检测各标记的数值来初步分析原始数据,通常按一式三份或多次一式三份进行。可以处理数据,例如可利用标准曲线转换原始数据,一式三份检测值的平均值可用于计算各患者的平均值和标准偏差。可先转换这些数值,再用于模型中,例如log-转换,Box-Cox转换(参见Box和Cox,(1964)J.RoyalStat.Soc.,B系列,26:211-246)等。然后将数据输入按照状态分类样品的预测模型。可将得到的信息传递给患者或专业医护人员。为建立动脉粥样硬化状态的预测模型,在训练组中使用包括已知对照样品和对应于感兴趣的动脉粥样硬化分类的样品的强大数据集。采用普遍认可的标准选择取样规模。如上所述,可采用不同的统计学方法获得高度准确的预测模型。实施例5、ll和12给出了这种分析的实例。在一个实施方式中,基于预测模型进行层次聚类法,其中,将皮尔逊相关性用作聚类指标。一种方法是将患者动脉粥样硬化数据集视作"有监督的学习(supervisedlearning)"中的"学习样品"。CART是一项医药学应用标准(Singer(1999)RecursivePartitioningintheHealthSciences,其if普林格公司(Springer)),该方法可通过以下步骤改进将任一项定性特征转换成定量特征;根据所得显著性水平对这些特征进行分选,通过样品再用法(samplereusemethod)来评估霍特林T2统计量(Hotelling'sT2statistic);并适当地应用拉索法(lassomethod)。预测问题转换成了仍与预测相关联的回归问题,实际上通过在对回归质量的评估中适当运用Gini分类标准。该方法产生了称为FlexTree的方法(Huang(2004)PNAS101:10529-10534)。用于模拟和用于SNP和其它形式的数据时,FlexTree效果良好。已开发了自动执行FlexTree的软件。或者可用LARTree或LART。幸运的是,近年来已开发出了称为LARTree(或简单LART)的方法(Turnbull(2005)ClassificationTreeswithSubsetAnalysisSelectionbytheLasso,斯坦福大学)。拉索该名称反映其为二叉树(binarytree),如CART和FlexTree中那样;拉索法(Lasso),如前所述;通过Efron等所谓的的LARS((2004)AnnalsofStatistics32:407-451)执行拉索法。也可参见Huang等,(2004)Tree-structuredsupervisedlearningandthegeneticsofhypertension.ProcNatlAcadSciUSA.101(29):10529陽34。可用的其它分析方法包括逻辑回归(logicregression)。一种逻辑回归方法见Ruczinski(2003)JournalofComputationalandGraphicalStatistics12:475-512。逻辑回归与CART的相似之处在于其分类符(classifier)可以展示为二叉树。其不同之处在于各节点(node)具有关于特征的布尔语句(Booleanstatement),该语句比CART产生的简单"和"语句更全面。另一种方法是最近收縮形心(nearestshrunkencentroid)的方法(Tibshirani(2002)PNAS99:6567-72)。该技术是k-均值样(k-means-like)的,但优点在于通过收縮聚类中心,可以自动选择特征(如拉索方法一样)从而能将注意力集中于能提供信息的少量特征。该方法可作为PAM软件购得,使用广泛。其它两组算法是随机森林算法(Breiman(2001)MachineLearning45:5-32)和MART算法(Hastie(2001)TheElementsofStatisticalLearning,斯普林格公司)。这两种方法早己是"委员会方法(committeemethod)"。因此,它们包括对结果进行"表决"的预测符。为提供显著性定级,可以测定错误发现率(falsediscoveryrate)(FDR)。首先,产生不相似度数值的一组零分布(nulldistribution)。在一个实施方式中,对观察到的分布的数值进行排序,获得了几乎零概率(outofchance)的相关系数分布序列,从而能产生相应的相关系数的零分布(参见,纳入本文作为参考的Tusher等,(2001)PNAS98,5116-21)。通过以下步骤获得零分布组对每一种测得分布的数值进行排序;计算所有分布的成对相关系数(pair-wisecorrelationcoefficients);计算该排序的相关系数的概率密度函数;重复该过程N次,其中N是较大的数值,通常是300。利用该N种分布可以计算出相关系数值相关值(平均值、中值等),这些相关系数的数值大于由给定显著性水平实测相似度数值分布所得的(相似度)数值。FDR是预计假显著相关的数量(根据随机数据集中大于该选定皮尔逊相关系数的相关数来估算)与经验数据(显著相关)中大于该选定皮尔逊相关系数的相关的数之比。该限界相关值可应用于不同实验分布数据之间的相关性。利用上述分布,可选择显著性的置信水平。可用该置信水平确定高于随机结果的相关系数最低值。采用该方法可获得正相关、负相关或这二者的阈值。利用所得阈值,用户可过滤成对的相关系数的观测值,排除未超过阈值的那些。此外,还可估算某给定阈值的假阳性率。对于各种"随机相关"分布,可以确定有多少观测值落在阈值范围外。该方法提供了一个数值序列。该序列的平均值和标准偏差显示潜在假阳性的平均数及其标准偏差。在另一分析方法中,分别将横断分析(cross-sectionalanalysis)中选择的变量用作预测符。鉴于具体的ASCVD结果,患者观察期的随机长度,蛋白质组学特征和其它特征的选择,分析存活率的参数方法可能优于广泛应用的半-参数Cox模型。存活率的威布尔参数拟合可以使风险率(hazardrate)单调升高、降低或维持恒定,还具有发现比风险比表示(hazardsrepresentation)(与Cox模型一样)和加速失效时间表示(failure-timerepresentation)。采用该模型可实现在建立回归系数的近最大似然度估算函数(estimator)时用到的所有统计学标准工具的功能。此外,还可利用Cox模型,主要是由于拉索方法将共变量(covariate)数量降低至了可操控的规模,这将显著简化分析,使得对存活率的完全非参数评估方法成为可能。这些统计学工具适用于所有格式的蛋白质组学数据。本发明提供了一组易于测定并具有高信息含量的生物标记、临床和遗传学数据,所述信息是检测临床上显著的动脉粥样硬化性冠状动脉血管疾病个体。而且,本发明的算法还提供了关于未来心血管疾病风险的信息。在预测模型的建立中,可能需要选择一标记亚组,即至少3种、至少4种、至少5种、至少6种直至整组标记。通常,根据定量样品分析所需来选择标记亚组,例如考虑试剂的可得性,定量测定的方便性等,但同时仍应确保不失为高度准确的预测模型。选择大量高信息含量标记来构建分类模型需要确定性能指标(performancemetdc)和用户-定义阈值,用这些指标和阈值来建立能根据该指标提供有用预测信息的模型。例如,性能指标可以是预测的灵敏度和/或特异性、AUC以及预测模型的总准确率。如实施例5、11和12所述,训练模型中可采用多种方法。选择标记亚组可以是为了进行标记亚组的前向选择或反向选择。可不使用全部标记而选择标记的数量来优化模型性。确定最佳标记数的一种方法是选择能产生具有所需预测能力(例如,AUC>0.75,或相当的灵敏度/特异性指标)的模型的标记数,所需预测能力与各种39组合和各种数量经给定算法所得该指标的最髙值相差小于一个标准偏差。试剂和试剂盒本发明还提供了用于实施一种或多种上述方法的试剂及包含所述实际的试剂盒。所述试剂及其试剂盒可以多种多样。有用的试剂包括专门为用于产生动脉粥样硬化病症相关循环蛋白标记的上述表达分布所用的试剂。这种试剂的一种类型是能结合感兴趣标记组的抗体阵列或试剂盒。本领域已知多种不同的阵列形式,这些阵列具有多种不同的探针结构、基板组成和连接技术。代表性阵列或试剂盒包含用于定量测定选自以下的至少2种、至少3种、至少4种、至少5种或更多种标记的试剂或由这些试剂构成M-CSF、嗜酸细胞活化趋化因子、IP-IO、MCP-1、MCP-2、MCP-3、MCP-4、IL-3、IL-5、IL-7、IL-8、MIPla、TNFa禾卩RANTES。在其它实施方式中,代表性阵列或试剂盒包含用于定量测定选自以下的至少3种蛋白质标记的试剂或由这些试剂构成MCP-1、MCP-2、MCP-3、MCP-4、嗜酸细胞活化趋化因子、IP-IO、M-CSF、IL-3、TNFa、Ang-2、IL-5、IL-7和IGF-1。所述至少3种蛋白质标记可包含选自以下的标记组或由其构成MCP-1、IGF-1、TNFa;MCP-1、IGF-1、M-CSF;ANG-2、IGF隱1、M-CSF;和MCP-4、IGF-1、M-CSF。在其它实施方式中,代表性阵列或试剂盒包含用于定量测定选自以下的至少4种蛋白质标记的试剂或由这些试剂构成MCP-1、MCP-2、MCP-3、MCP-4、嗜酸细胞活化趋化因子、IP-IO、M-CSF、IL-3、TNFa、Ang-2、IL-5、IL國7和IGF-1。所述至少4种蛋白质标记可包含以下标记(组)或由其构成MCP-1、MCP-2、MCP-3、MCP-4、嗜酸细胞活化趋化因子、IP-IO、M-CSF、IL-3、TNFa、Ang-2、IL誦5、IL-7和IGF-1;MCP-1、IGF-1、TNFa、IL-5;MCP-1、IGF國1、M-CSF、MCP-2;ANG陽2、IGF-1、M國CSF、IL-5;MCP-1、IGF-1、TNFa、MCP曙2;禾口MCP-4、IGF-1、M-CSF、IL隱5。在其它实施方式中,代表性阵列或试剂盒包含用于定量测定选自以下的至少5种蛋白质标记的试剂或由这些试剂构成MCP-1、MCP-2、MCP-3、MCP-4、嗜酸细胞活化趋化因子、IP-IO、M-CSF、IL-3、TNFa、Ang-2、IL-5、IL-7和IGF-1。所述至少5种标记可包含选自以下的标记组或由其构成MCP-1、MCP-2、MCP-3、MCP-4、嗜酸细胞活化趋化因子、IP-IO、M-CSF、IL-3、TNFa、Ang-2、IL陽5、IL-7和IGF隱1;MCP-1、IGF-1、TNFa、IL陽5、M-CSF;MCP-1、IGF-1、M-CSF、MCP-2、IP-10;ANG陽2、IGF-1、M-CSF、IL-5、TNFa;MCP-1、IGF-1、TNFa、MCP-2、IP陽10;MCP-4、IGF-1、M陽CSF、IL-5、TNFa;和MCP-4、IGF-1、M-CSF、IL-5、MCP-2。这些试剂盒还可装有用于统计学分析一种或多种表型的软件包,还可装有用于计算分类概率的参比数据库。试剂盒可装有用于各种方法的组份,例如抽取和处理血液样品的装置,二期抗体(secondstageantibody)、ELISA试剂、试管、离心柱(spincolumn)等。除了以上组分,所述试剂盒还可装有实施所述方法的使用说明书。所述试剂盒中的这些使用说明书可采取多种形式,一个试剂盒中可装有一份或多份使用说明书。这些使用说明书可采取的一种形式是试剂盒包装上或包装内附件上的印刷在合适介质或底材上的信息,如印刷了信息的一张或多张纸。另一种方式是记录了信息的计算机可读介质,例如软盘、CD等。还有另一种方式是网址,可经因特网远程获得信息。试剂盒中装有任何适宜的工具。实施例以下是实施本发明的具体实施方式的实施例。提供这些实施例只是说明性目的,不是打算以任何方式性质本发明的范围。已努力确保所用数值(例如,用量、温度等)的准确率,但当然应考虑到有一些实验误差及偏差。实施例l:动物模型中动脉粥样硬化的血清标记由小鼠蛋白质阵列获得的血清生物标记数据由于已知多条生物学途径参与人和小鼠血管组织内的转录,设计了一项概念验证研究(proofofconceptstudy)来检验多分析物方法是否能提高动脉粥样硬化进程中各种阶段之间的区分32。该项研究证明定量测定多种疾病相关的生物标记能提供灵敏度和特异性更高的方法来评定小鼠的动脉粥样硬化性疾病,并看望用于人类。该项研究中鉴定的优选血清蛋白质分类符代表了不同的动脉粥样硬化相关生物学过程,包括巨噬细胞趋化反应(chemoattraction)(Cc19、Ccl2)、T-细胞趋化因子活性(Ccl21和Ccl19)、先天免疫力(IL-5)、血管钙化(Tnfsfll)、血管生成41(Vegfa)和高脂诱导的炎症(Cxcll、瘦蛋白)。从这些标记的同步检测值获得的签名提高了正确确定小鼠动脉粥样硬化性疾病进程阶段所需的特异性。如以下实施例3和4所述,在前瞻性人队列研究中(cohortstudy)进一步验证了该方法的可靠性。为鉴定能与疾病进程和血管壁中基因表达都关联的血清蛋白表达模式,我们利用了纵断面实验设计(longitudinalexperimentaldesign)和小鼠遗传学模型加饮食的组合,这些组合产生了不同程度的动脉粥样硬化。此处,我们利用蛋白质阵列来鉴定小鼠血清中表达水平不同的一组炎性生物标记,所述水平与疾病程度相关。还通过定量实时逆转录酶聚合酶链式反应(RTPCR)评估这些标记中一亚组的血管壁基因表达。采用分类算法鉴定一组最灵敏的鉴别符(discriminator),我们能证明血管衍生炎性生物标记的独特签名能准确预测小鼠动脉粥样硬化性疾病的不同严重程度。方法实验没#、欲桌逾獰#/7激吝iA^.所有实验得到了斯坦福动物研究委员会(StanfordCommitteeonAnimalResearch)的批准。以前己描述了总体实验设计(45)。3周龄的雌性叩oE敲除(C57BL/6L4poe加7[/"c)、C57B1/6J和C3H/HeJ小鼠购自杰克逊实验室公司(JacksonLaboratory)(巴港,缅因州)。4周龄时,这些小鼠有些继续喂食常规食物,有些喂食包含21%无水乳脂和0.15%胆固醇(Dyets号101511;戴茨公司(Dyets),伯利恒,宾夕法尼亚州)的高脂饮食,最长40周。如前所述,在每个时间点通过眶后法收集5-9只同队列高脂饮食apoE-缺陷型小鼠的血清。为建立饮食和遗传差异的对照,也在基线和40周时收集喂食常规食物的叩oE敲除小鼠(C57BL/6J-^oe加/f/"c)以及分别喂食常规食物和高脂饮食的野生型C57Bl/6J和C3H/HeJ小鼠的血清。如前所述(45),在各条件(品系-饮食组合)的各时间点收集15只小鼠(3组,每组5只)的主动脉来分离RNA,与血清收集时间表平行。如前所述采用改进的两步纯化方法(45,47)分离总RNA。过去曾定量测定(测定整个主动脉中损伤区域的百分比)过该队列小鼠的主动脉动脉粥样硬化斑块,并己记载在现有文献中(45)。为了分类,还采用了高脂饮食2周、apoE-缺陷型、16-周龄的另一独立小鼠队列(4组,每组3-4只)的血清和主动脉。按照现有技术(45-47,49)合并RNA和血清样品来进行微阵列杂交。所有样品加工和蛋白质杂交均同时进行以消除任何潜在的技术变差。歪/^^主激芯^V杂3^浙J^^^^^按照生产商的使用说明书,使用扎奥米克斯1200试验工作站(Zyomyx1200Assaystation)(扎奥米克斯公司(Zyomyx))将血清样品与扎奥米克斯鼠科细胞因子生物芯片(ZyomyxMurineCytokineBioChips)(扎奥米克斯公司,海达德,加利福尼亚州)杂交。为准确测定测试血清中的蛋白质水平,制作各分析物的9-点校验曲线(各校验曲线请参见附录S4;可通过尸/z"/o/og/cfl/GeMom/a(生理学基因组学)网址获得)。l使用扎奥米克斯100荧光扫描仪(Zyomyx100fluorescencescanner)扫描蛋白质生物芯片,使用GenPixPro和ZyomyxZDR4001版软件进行微阵列的网格定位。测定芯片内变率(所有阴性对照特征的标准偏差与那些特征平均强度的比值)和芯片间变率(平均标准偏差与平均中值强度的比值M乍为为质量控制指标。根据分析物,蛋白质阵列提供的对照差率范围是3%至约15%,灵敏度为l-l,000pg/ml(参见,各分析物的校验曲线附录,可从http:〃physiolgenomics.physiology.org/cgi/content/full/00240.2005/DC1获得)(11)。不在校验曲线的线性部分的数值标记为缺失数值。然后将数值形式的原始数据输入专用于微阵列数据分析的奥雷克尔关系型数据库(Oraclerelationaldatabase)(CoBi)(基因数据公司(GeneData))。利用热图构建软件(HeatM叩Buildersoftware)(7)制作热图。详细的补充方法可从http:〃physiolgenomics.physiology.org/cgi/謹tent/ful画240.2005/DCl获得。歪^^:遂雍#"兹^7^_^^^>已有关于蛋白质选择和分类算法的记载(45)。简言之,在有监督的分析(supervisedanalyses)中,,我们使用5.0版的表达者(Expressionist)软件(基因数据公司),该软件采用多种分类算法,根据各基因区分高脂饮食apoE-小鼠的0、10、24和40周时间点的能力对基因进行排名。这些算法包括方差分析(ANOVA)、支持向量机(SVM)(4)和递归特征排除(RFE)(16),该算法是SVM权重的递归算法,其中,反复进行基因排名并且每次除去固定比例的最低分者(35)。我们还使用已知的微阵列预测分析(PAM)作为附加分类算法(48)。然后,用各方法确定能以最低误差率将各实验正确归类的最佳数量的排名基因用它们。通过交叉验证计算最佳误差率或分类误差,其中,25%的实验用作测试组,其余的用作训练组。这一过程对ANOVA、SVM和RFE算法重复1,000次。对于SVM和RFE,我们的分析采用线性核模型(linearkernel);非线性高斯核模型(Gaussiankernel)得到类似的结果。然后,将这一最小分类符基因亚组用于另一独立数据集的交叉验证和分类。详细的方法见http:〃physiolgenomics.physiology.org/cgi/content/fu11/00240.2005/DC1。资/A激立游J^^^桌游^"义验^^7分桥.为测定用先前鉴定的蛋白质小亚组进行分类的准确率,我们利用SVM算法(线性核模型)和交叉验证产生混淆矩阵,重复地将实验分为75%的训练组、25%的测试组。结果以表格形式表示。如前所述,我们还利用SVM算法对独立的实验组进行了分类(45,50)。在此项分析中,我们将apoE-缺陷型小鼠的4个时间点的数据作为训练组,独立的实验组作为测试组。以热图方式图示各实验根据一对多比较的SVM输出值(参见图3),该值是上述4种SVM分类符各自的标准化边际值(normalizedmarginvalue)。SVM输出值使得我们能看出新实验是如何根据四种SVM超平面分类的。详细方法可从http:〃physiolgenomics.physiology.org/cgi/content/full/00240.2005/DC1获f寻。^^^^^r-尸0.用于Taqman分析的10个基因的引物和探针购自请求式应用生物系统试验公司(AppliedBiosystemsAssays-on-Demand)(表2)。表2<table>tableseeoriginaldocumentpage44</column></row><table>Mu—IL-6Mm004461卯一mlMu_T^ANCEHs.3337918600Mm00441908_mlM;—MCP-5定制设计按照现有技术(45-47),使用从三组主动脉(每组5根)获得的代表性RNA样品一式三份进行反应。结果欽溶星W、^动嚴蕭存硬众过荐^蚤A廣表这游好,樣式.我们己报导(45)了该队列apoE-缺陷型小鼠中动脉粥样硬化的损伤程度。鉴于apoE缺陷型小鼠主动脉以及主动脉瓣膜中广泛存在的动脉粥样硬化损伤,这些研究中未检查其它血管床。为鉴定与动脉粥样硬化损伤程度相关的血清标记,我们使用蛋白质微阵列在疾病发展时程中同时测定了高脂饮食apoE-缺陷型小鼠30个炎性标记的血清水平。我们将喂食常规食物的apoE-缺陷型小鼠以及野生型C57Bl/6JandC3H/HeJ小鼠的两个时间点的数据作为对照。所检测的30种标记中有8种未显示明显的血清表达水平。该队列小鼠中,22个标记显示独特的时间相关表达模式,其中一些与前述主动脉中动脉粥样硬化程度密切相关(图1)(45)。这些标记包括各种趋化因子(Ccl2、Ccl9、Cclll、Cell9、Ccl21、Cxcll和Cxcl2)和几种细胞因子f112、114、115、116、1110和U12)以及其它炎性蛋白(Csfl、Csf2、Csf3、Ifng、Tnfsfll)和Vegfa。与作为对照的野生型C57B1/6J和C3H/HeJ小鼠相比,这些标记中的绝大多数在apoE-缺陷型小鼠中表达较高(图2)。如前所述,在相似的条件下,对照小鼠不发生组织学意义上明显的动脉粥样硬化损伤(47);因此,很容易将疾病相关变化与诸如高脂饮食和衰老等其它因素相区开来。/i^f汰會^7:^老分志游^^"特,丝歪/^^;^^.为说明高脂饮食、衰老和遗传背景所致的非动脉粥样硬化依赖性血清蛋白质水平变化,我们使用了许多对照,其中包括熟知的具有不同患动脉粥样硬化倾向的两种小鼠品系,使用了两种不同的饮食和纵断面实验设计。己知这些对照小鼠不发生动脉粥样硬化损伤,因此,它们是用来说明这些独立变量以及这些变量之间可能的相互作用的合适对照。结果,我们鉴定到了apoE-缺陷型小鼠中可能与各变量有关的差异表达的蛋白质并区分出了与血管疾病过程专性相关的那些蛋白质。简单ANOVA显示,不同饮食-品系-时间组合之间,至少12种标记表达有差别(图2)。为说明这三种独立变量之间可能的相互作用,我们采用三向ANOVA。三种独立的变量有三种一级相互作用(时间-品系、时间-饮食、品系-饮食)和一种二级相互作用(时间-品系-饮食)。在说明所有这三种因素之间相互作用的过程中,我们鉴定了5种差异表达的蛋白质(3-向ANOVA,尸<0.05),包括Ccl9、Ccl21、Cclll、Csfl和1112b。在较晚的时间点,许多炎性标记的血清水平升高,表示高脂饮食还在C57B1/6野生型小鼠中激发了炎性应答(图2)。在另一方面,C3H/HeJ小鼠的炎性标记水平最低,即使喂食高脂饮食亦是如此。该发现与我们过去的研究结果一致,在过去的研究中我们比较了C3H/HeJ小鼠与C57B1/6J小鼠的主动脉血管壁基因表达。当时研究的结论是,C57B1/6J小鼠在动脉粥样硬化过程中表达炎性标记的遗传倾向性较高。鉴定^嚴虚獰W游好/^錄^丝歪A廣表这签名.人类癌症的分类方法就肿瘤的临床特征提供了大量信息,包括转移的倾向性、药物反应和长期预后(13、23、33、43)。对动脉粥样硬化来说,分类算法的临床用途在于预测未来事件。在以前的研究中,我们应用分类算法确定了一组基因,这些基因在血管壁中的表达能准确区分小鼠和人动脉粥样硬化血管组织中疾病的严重程度(45)。在本次研究中,我们采用相似的方法来鉴定血清蛋白最小亚组,用该组蛋白按照准确己知的小鼠动脉粥样硬化四阶段将各蛋白质组学实验准确分类(图3)。在此,我们采用几种熟知的分类算法来鉴定最能区分不同疾病状态小鼠的变量。这些算法包括RFE、SVM和ANOVA。我们还用PAM作为附加分类算法。这些算法根据蛋白质在高脂饮食apoE-小鼠中区分O、10、24和40周时间点的能力对这些蛋白质进行排名。我们的结果显示,大多数算法鉴定了一个蛋白质小亚组(Cc121、Ccl9、Csf3、Tnfsfll、Vegfa、Cclll、Ccl2)(图3A)。该组标记签名的预测能力优于任何单一标记,因为单一标记都不能准确区分不同的疾病状态(分析未显示)。为确定这些蛋白质的血清水平按照不同疾病状态对小鼠进行分类的效用,我们采用SVM算法(线性核模型)通过交叉验证(反复的将按75%训练组和25%测试组分组)产生了一个混淆矩阵。该算法显示,这些血清蛋白质表达的签名能以高达100%的准确准确率区分患病和未患病的小鼠组(图3B),并且还能高准确准确率(79.6-100%)地将疾病中期的小鼠与其它阶段的区分开来(图35)。教J^^"^^游^"义验^^/7i^^.—组分类符蛋白质具有效用的重要证明是它们能对来自独立实验的数据进行准确分类。为验证分类符蛋白质的效用,我们研究了它们将准确独立的一组16周龄apoE-缺陷型小鼠准确分类的能力。采用SVM算法,我们能将准确平行进行的各实验准确地归入正确的疾病进展阶段(图3C)。据该独立组小鼠的蛋白质表达与原实验组(IO周龄)的蛋白质表达模式之间的最高相关性所示,这些分类符蛋白质将使得验证数据集与训练组中最接近的时间点准确匹配。必需指出的是,在该分析中,训练组("已知")中不包括独立数据集("测试")。生欽标记i清歪^^水乎与逾,壁基齿表达7大乎賴关.据估计,循环蛋白水平与血管壁中的分子事件和表达水平相关的那些生物标记可提供最多的血管疾病相关信息。为査明这些相关性并从生物标记数据获得与动脉粥样硬化的病理生理学有关的信息,我们研究了高信息含量生物标记编码基因的血管壁基因表达模式。采用定量实时RT-PCR,我们能确立数种标记的血清蛋白水平与它们的血管RNA表达之间的关联。在被研究的标记中,Ccl21(r=0.91)、Ccl2(r=0.97)、Ccl19(r=0.80)和Cclll(r=0.67)显示基因表达的时间相关行增加与血清水平之间高度相关(图4)。这些数据虽然还包括这些标记在其它组织中的表达,但它们提示表达与血管壁动脉粥样硬化特别相关。通过比较血清蛋白质水平、血管基因表达和高脂饮食时间(loglO(喂食周数))的标准化平均比值来测定皮尔逊相关值。如果动脉粥样硬化血管壁中的mRNA表达与所编码蛋白质的血清水平之间的相关系数(r)是至少0.6、至少0.7、至少0.8、至少0.9或更高,则将这种相关性视作显著。讨论明显需要改进的工具来诊断和治疗临床前动脉粥样硬化。虽然目前对动脉粥样硬化的机制和情况的了解越来越多,但我们鉴定髙风险患者和预测冠状动脉疾病预防手段效力的方法依然不够。由于缺乏动脉粥样硬化性疾病的高灵敏性、高特异性生物标记,半数以上此类患者的首次临床表现便是心肌梗塞或死亡(19,20)。曾就动脉粥样硬化研究了小鼠和人的几种炎性标记,结果支持动脉粥样硬化的炎性假说(38)。然而,各项研究仅关注少数几个单用标记上,一些研究没有进行纵断面实验,只有少数研究证明在血管水平上与基因表达直接相关(25,29,34)。虽然目前已提出用通用炎症标记划分患者动脉粥样硬化疾病风险级别,但不曾用这些标记在无症状患者中就确定准确疾病类别进行筛选,更重要的是未曾用于预测首次心血管病变。例如C-反应性蛋白(CRP)和血纤蛋白原等标记缺乏特异性的原因可能在于它们不是血管衍生蛋白,可作为各种器官中炎症的信号。还可能,由于高危人群之间的异质性,单独一种标记提供的信息不足以准确预测疾病。出于相似的原因,这些通用炎症标记,例如CRP和沉降速率(ESR)早已不被用作其狼疮(SLE)和类风湿性关节炎(RA)等它炎性疾病的特异性诊断标记。我们曾经采用本发明所用的实验设计对小鼠主动脉组织RNA分布进行研究,证明可以鉴定到少量能够按照疾病严重程度进行分类的基因(45)。显然,由于不易对血管组织直接进行处理,鉴定血清中的蛋白质标记对于开发诊断人冠状动脉疾病的诊断工具来说具有实际意义。在本文报道的工作中,我们研究了炎性血清生物标记丰度模式以及这些生物标记的亚组是否可用于就疾病进展对动物进行分类。在科学上,这两类信息是互补的,明显加强了对疾病详细分子机制的理解,所述机制包括从基因转录到翻译到胞内途径到向血清中分泌递质。如上所述,鉴定某给定疾病状态的血清标记分布能开发可人用的非侵入性诊断方法。因为我们还具有基于微阵列的患病组织转录情况详细全景(transcriptionallandscape),我们能用该图估测导致炎性介质表达的途径中的上游组分,这是开发高度靶向性治疗手段的第一步。实际上,然后可用血清试验(例如本文所述)来检验这种治疗手段的最终效果。我们用蛋白质微阵列同时(检测)多种动脉粥样硬化小鼠模型的血清蛋白质表达分布,所述模型具有不同的动脉粥样硬化易感性和严重程度。用与分类癌症进程和类型所用相似的分类算法,我们能证实这些血管衍生生物标记的独特签名能准确预测不同程度的小鼠动脉粥样硬化。在以前的研究中(45),我们的分析显示16周时间点获得的独立数据集的微阵列基因表达分布与24周时间点的更相关,而在此次研究中,相近时间点的蛋白质分布与IO周时间点的更相关。基于该发现可能产生许有趣的假设。由于目前蛋白质微阵列中的探针数量有限,本发明研究中的蛋白质分类符不同于以前研究中鉴定的基因分类符。血清蛋白质表达的时间相关行增加还可能滞后于血管壁基因表达水平的变化。由于相同标记的血管基因表达和血清蛋白质水平之间可能因各种因素(例如转录后修饰和蛋白质稳定性)而不直接相关,这些数据的重要验证是证明这些标记中亚组的疾病相关血管基因表达。我们证实这些标记的时间相关性血清水平与它们在血管壁中的基因表达相关。疾病进展与血管基因表达的时间依赖性关联提示标记产生的主要部位是血管壁。然而,如以前的报道所述(22),血管可能不是炎性标记的唯一来源,其它组织,例如肌肉、脾脏、脂肪组织或肝脏可能也影响着这些标记的血清水平。在我们的研究中评估的一种标记是116,已知其产生于肌肉和肝脏以及血管壁。制得关注的是,116的血清丰度与疾病的时序性发展不相关,与血管壁中的基因表达只有微弱相关性。这些发现提示其它组织可能也影响着一些标记(例如116)的血清水平,但这些标记的水平与所研究的疾病状态不相关,也无助于分类(对象)。一些全身性炎性标记的血清水平还可能应研究所用不同小鼠之间代谢参数差异而变得复杂。业已证明,高脂饮食激发在肝内炎性应答(22)。这些基因在整个高脂喂食期间维持高水平表达。为了设立关于这些全身性效应的对照,我们在动脉粥样硬化早期和晚期都对高脂饮食的小鼠进行了比较,结果,血清脂质水平不变(14)而动脉粥样硬化程度改变。因此,这些代谢参数与随时间线性增加的标记血清水平之间相关性不佳。因此,血管衍生标记的时序性变化与动脉粥样硬化的程度更相关,与脂质水平则不甚相关。本项研究所鉴定的这些标记有力地支持了动脉粥样硬化的炎症性质,所鉴定的各标记能提供了了解疾病在小鼠中潜在机制的部分信息。这些标记包括巨噬细胞和T细胞重要特异性趋化因子。Ccl21(原来称为Exodus-2/SLC/6Ckine/TCA4)是至今鉴定的最强T细胞趋化剂,其在T细胞附着和从血管向炎症组织部位转移中发挥着重要作用(30)。在我们的实验中,相关趋化因子Cxcll2和Ccll9也高水平表达,它们通过激活淋巴细胞功能相关的抗原-l(LFA-l)来介导T细胞与内皮强烈结合(6,15)。重要的是,据信,在正常免疫应答期间Ccl21不参与T细胞的效应细胞功能,但在T细胞介导的自身免疫疾病中,它被发现在内皮细胞中高水平地诱导性表达(8)。因此,疾病相关性高水平循环Ccl21这一新发现和以及高度相关的CCL21在患病血管壁中的表达提出了一个问题,即在小鼠中,自身免疫过程是否参与了动脉粥样硬化的发展(44)。人疾病期间的Cc121水平尚有待测定。Ccll9[巨噬细胞炎性蛋白(MIP)-3b]与Ccl21的功能有些相似。其与相同的受体即Ccr7结合,是T细胞和B细胞的强效趋化剂。但与Ccl21不同,Ccl19似乎还采与正常的T细胞功能。其在动脉粥样硬化性血管中的表达以及血清水平与主动脉基因表达之间的高度相关性均是新发现。Ccl2(Mcpl或JE)(3)和Cclll(嗜酸细胞活化趋化因子)(10,17)在动脉粥样硬化中的作用已很清楚,这些证实了我们的发现。我们也记载了Cxcl2(MIP-2)和Cxcll(KC)的血清水平在动脉粥样硬化小鼠的血清中均升高,与其它研究者所述的血清水平一致(29)。如其它研究者的研究所述(29),我们发现Cxll2(MIP-2)的可靠性较低。此外,鉴于血清水平与主动脉基因表达的相关性较低,大量的Cxcl2可能是有非血管性组织产生的,这证实了以前的结论(29)。然而,我们发现与Cxcl2血管基因表达的相关性仍优于例如116和Csf3等其它标记。尽管Cxcll(KC)的水平升高,我们发现该标记不是疾病的稳定预测符,这与近年来的研究一致(34)。近年来有报道将^g力描述成急性冠状动脉综合征的独立预测符(18,24)。我们的研究在至少三种所用算法中支持Vegfa是合理的分类符,从而证实其可应用于监测人类疾病。我们的另一非常值得关注的发现是Tnfsfll(TRANCE)在动脉粥样硬化中的作用。Tnfsfl1是肿瘤坏死因子(TNF)细胞因子家族的一员,并且是骨保护素的配体,是破骨细胞分化和活化中起到关键因子。该蛋白质也称为树突状细胞存活因子(dentriticcellsurvivorfactor),参与调节T细胞依赖性免疫应答。近年来,骨保护素被认为是进行性人动脉粥样硬化和人心血管疾病的潜在风险因子(21,37)。据推测在动脉粥样硬化中起作用的其它细胞因子包括1112b(25)和115(9)。虽然我们证明了它们的血清水平能预测疾病状态,但我们未能证实1112b在动脉粥样硬化损伤时的血管特异性表达。总之,我们鉴定的优选血清蛋白分类符涵概了多种动脉粥样硬化生物学过程,包括巨噬细胞趋化反应(Ccl9,Ccl2)、T细胞趋化因子活性(Ccl21和Ccl19)、先天免疫性(115)、血管钙化(Tnfsfll)、血管生成(Vegfa)和高脂诱导的炎症(Cxcll,可能还有瘦蛋白)。同时检测这些标记获得的签名代表着不同的动脉粥样硬化相关性生物学过程,有望满足诊断动脉粥样硬化性疾病的特异性要求。如实施例3-12所述,通过合适的前瞻性人试验对该方法的进一步验证获得了用于动脉粥样硬化和冠状动脉疾病的改良筛选诊断工具。参考文献1.Ffl"SooA:i^ca/]^ar26^3.贝塞斯达,马里兰州国家心脏、肺和血液研究院(NationalHeart,Lung,andBloodInstitute),2003.2.MoA/ctt_yMoC/zaW6oo/t,2002.贝塞斯达,马里兰州国家心脏、肺和血液研究院,2002.3.AielloRJ,Bou腦aPA,LindseyS,WengW,NatoliE,RollinsBJ和MilosPM.Monocytechemoattractantprotein-1acceleratesatherosclerosisinapolipoproteinE-deficientmice.^4Wer/osc/erJ7wowZ)Fasc19:1518—1525,1999.4.BurgesCJC.Atutorialonsupportvectormachinesforpatternrecognition.DfltoM/m'wg《"ow/ec/geZ)^cov2:121—167,1998.5.BursillCA,ChannonKM禾卩GreavesDR.Theroleofchemokinesinatherosclerosis:recentevidencefromexperimentalmodelsandpopulationgenetics.Cw/rC^/"丄&Wo/15:145-149,2004.6.CampbellJJ,HedrickJ,ZlotnikA,SianiMA,ThompsonDA禾卩ButcherEC.Chemokinesandthearrestoflymphocytesrollingunderflowconditions.5Wewce279:381—384,1998.7.ChenMM,AshleyEA,DengDX,TsalenkoA,DengA,TabibiazarR,Ben-DorA,FensterB,YangE,KingJY,FowlerM,RobbinsR,JohnsonFL,BmhnL,McDonaghT,DargieH,YakhiniZ,TsaoPS禾卩QuertermousT.Novelroleforthepotentendogenousinotropeapelininhumancardiacdysfunction.C7rcw/Wo"108:1432—1439,2003.8.ChristophersonKW二世,HoodAF,TraversJB,RamseyH禾口HromasRA.EndothelialinductionoftheT-cellchemokineCCL21inT-cellautoimmunediseases.B/oot/101:801—806,2003.9.DaughertyA,RateriDL禾卩KingVL.IL-5linksadaptiveandnaturalimmunityinreducingatheroscleroticdisease.■/C7//"veW114:317—319,2004.10.EconomouE,TousoulisD,KatiniotiA,StefanadisC,TrikasA,PitsavosC,TentolourisC,ToutouzaMG禾口ToutouzasP.Chemokinesinpatientswithischaemicheartdiseaseandtheeffectofcoronaryangioplasty,/"f/CaWo/80:55—60,2001.11.FeezorRJ,BakerHV,XiaoW,LeeWA,HuberTS,Mindri廳M,KimRA,Ruiz-TaylorL,MoldawerLL,DavisRW禾口SeegerJM.Genomicandproteomicdeterminantsofoutcomeinpatientsundergoingthoracoabdominalaorticaneurysmrepair.J"7mmwwo/172:7103—7109,2004.12.GlassCK禾口WitztumJL.Atherosclerosis.Theroadahead.CW/104:503—516,2001.13.GolubTR,SlonimDK,TamayoP,HuardC,GaasenbeekM,MesirovJP,CollerH,LohML,DowningJR,CaligiuriMA,BloomfieldCD和LanderES.Molecularclassificationofcancer:classdiscoveryandclasspredictionbygeneexpressionmonitoring.>SWece286:531—537,1999.14.GrimsditchDC,PenfoldS,LatchamJ,Vidgeon-HartM,GrootPH和BensonGM.C3HapoE(」」micehavelessatherosclerosisthanC57BLapoE(丄)micedespitehavingamoreatherogenicserumlipidprofile.A/zemyc/ems7'>y151:389—397,2000.15.G飄MD,TangemannK,TamC,CysterJG,RosenSD和WilliamsLT.AchemokineexpressedinlymphoidhighendothelialvenulespromotestheadhesionandchemotaxisofnaiveTlymphocytes./VocAto/^4cad95:258—263,1998.16.GuyonI,WestonJ,BarnhillS禾卩VapnikV.Geneselectionforcancerclassificationusingsupportvectormachines.Mac/'e46:389,2002.17.HaleyKJ,LillyCM,YangJH,FengY,KennedySP,TuriTG,ThompsonJF,SukhovaGH,LibbyP禾口LeeRT.OverexpressionofeotaxinandtheCCR3receptorinhumanatherosclerosis:usinggenomictechnologytoidentifyapotentialnovelpathwayofvascularinflammation.C7rcw/加'ow102:2185—2189,2000.18.HeeschenC,DimmelerS,HammCW,FichtlschererS,SimoonsML禾卩ZeiherAM.Pregnancy-associatedplasmaprotein-Alevelsinpatientswithacutecoronarysyndromes:comparisonwithmarkersofsystemicinflammation,plateletactivation,andmyocardialnecrosis.Co//CaWo/45:229—237,2005.19.KannelWB和McGeeDL.Epidemiologyofsuddendeath:insightsfromtheFraminghamStudy.CarWomscC7/"15:93—105,1985.20.KannelWB禾口SchatzkinA.Suddendeath:lessonsfromsubsetsinpopulationstudies.J"爿mCo//Cani/o/5:141B-149B,1985.21.KiechlS,SchettG,WenningG,RedlichK,OberhollenzerM,MayrA,SanterP,SmolenJ,PoeweW禾口WilleitJ.Osteoprotegerinisariskfactorforprogressiveatherosclerosisandcardiovasculardisease.C7rcw/a"ow109:2175—2180:2004.22.KimS,SohnI,AhnJI,LeeKH禾卩LeeYS.Hepaticgeneexpressionprofilesinalong-termhigh-fatdiet-inducedobesitymousemodel.340:99-109,2004.23.LapointeJ,LiC,HigginsJP,vandeRijnM,BairE,MontgomeryK,FerrariM,EgevadL,RayfordW,BergerheimU,EkmanP,DeMarzoAM,TibshiraniR,BotsteinD,BrownPO,BrooksJD禾卩PollackJR.Geneexpressionprofilingidentifiesclinicallyrelevantsubtypesofprostatecancer./VocTVaWJcad101:811—816,2004.24.LeeSH,WolfPL,EscuderoR,DeutschR,JamiesonSW禾卩ThistlethwaitePA.Earlyexpressionofangiogenesisfactorsinacutemyocardialischemiaandinfarction.TV五wg/JAfed342:626—633,2000.25.LeeTS,YenHC,PanCC和ChauLY.Theroleofinterleukin12inthedevelopmentofatherosclerosisinApoE-deficientmice.JWe".osc/er7T^om6Fasc肠/19:734—742,1999.26.LibbyP.Inflammationinatherosclerosis.TVaZwre420:868—874,2002.27.LucasAD禾卩GreavesDR.Atherosclerosis:roleofchemokinesandmacrophages.五x戸^vMo/Me<i2001:1—18,2001.28.LusterAD.Chemokines—chemotacticcytokinesthatmediateinflammation.混wg〃Med338:436—445,1998.29.MurphyN,BruckdorferKR,GrimsditchDC,OverendP,Vidgeon-HartM,GrootPH,BensonGM禾卩GrahamA.TemporalrelationshipsbetweencirculatinglevelsofCCandCXCchemokinesanddevelopingatherosclerosisinapolipoproteinE*3Leidenmice.JWen'osc/er7T^om6Fasc23:1615—1620,2003.30.NagiraM,ImaiT,HieshimaK,KusudaJ,RidanpaaM,TakagiS,NishimuraM,KakizakiM,NomiyamaH禾口YoshieO.MolecularcloningofanovelhumanCCchemokinesecondarylymphoid-tissuechemokinethatisapotentchemoattractantforlymphocytesandmappedtochromosome9部分13./C/zem272:19518-19524,1997.31.NakashimaY,PlumpAS,RainesEW,BreslowJL禾卩RossR.ApoE-deficientmicedeveloplesionsofallphasesofatherosclerosisthroughoutthearterialtree,^他〃'osc/er77zr謹614:133—140,1994.32.NapoliC,PalinskiW,DiMinnoG禾卩D'ArmientoFP.DeterminationofatherogenesisinapolipoproteinE-knockoutmice.iVw^*Me似6CofWovcwcZ)/>y10:209—215,2000.33.PaikS,ShakS,TangG,KimC,BakerJ,CroninM,BaehnerFL,WalkerMG,WatsonD,ParkT,HillerW,FisherER,WickerhamDL,BryantJ禾口WolmarkN.Amultigeneassaytopredictrecurrenceoftamoxifen-treated,node-negativebreastcancer.A^"g7/她d351:2817—2826,2004.34.ParkinSL,PritchettJP,GrimsditchDC,BruckdorferKR,SahotaPK,LloydA,OverendP禾口BensonGM.CirculatinglevelsofthechemokinesJEandKCinfemaleC3Hapolipoprotein-E-deficientandC57BLapolipoprotein-E-deficientmiceaspotentialmarkersofatherosclerosisdevelopment.Soc7><my32:128—130,2004.35.RamaswamyS,TamayoP,RifldnR,MukherjeeS,YeangCH,AngeloM,LaddC,ReichM,LatulippeE,MesirovJP,PoggioT,GeraldW,LodaM,LanderES禾口GolubTR.Multiclasscancerdiagnosisusingtumorgeneexpressionsignatures./VoctVw/Jcaaf^SW98:15149—15154,2001.36.ReddickRL,ZhangSH禾卩MaedaN.AtherosclerosisinmicelackingapoE.Evaluationoflesionaldevelopmentandprogression.Jwe"'osc/erT7zr麵614:141—147,1994.5437.RheeEJ,LeeWY,KimSY,KimBJ,SungKC,KimBS,KangJH,OhKW,OhES,BaekKH,KangMI,WooHY,ParkHS,KimSW,LeeMH和ParkJR.Therelationshipofserumosteoprotegerinlevelswithcoronaryarterydiseaseseverity,leftventricularhypertrophyandC國reactiveprotein.C7/w108:237—243,2004.38.RidkerPM,BrownNJ,VaughanDE,HarrisonDG禾卩MehtaJL.Establishedandemergingplasmabiomarkersinthepredictionoffirstatherothromboticevents.C/,c由/o"109:IV6—IV19,2004.39.RidkerPM,CannonCP,MorrowD,RifaiN,RoseLM,McCabeCH,PfefferMA禾口Brau而aldE.C隱reactiveproteinlevelsandoutcomesafterstatintherapy.A^五"g〃MW352:20_28,2005.40.RifaiN禾口RidkerPM.Inflammatorymarkersandcoronaryheartdisease.C鮮13:383—389,2002.41.RossR.Atherosclerosis—aninflammatorydisease.W£>g//Mec/340:115—126,1999.42.SaadeddinSM,HabbabMA禾卩FernsGA.Markersofinflammationandcoronaryarterydisease.MedSc/MomY8:RA5—RA12,2002.43.SorlieT,PerouCM,TibshiraniR,AasT,GeislerS,JohnsenH,HastieT,EisenMB,vandeRijnM,JeffreySS,ThorsenT,QuistH,MateseJC,BrownPO,BotsteinD,EysteinLonningP禾口Borresen-DaleAL.Geneexpressionpatternsofbreastcarcinomasdistinguishtumorsubclasseswithclinicalimplications.淑"cWS"',98:10869—10874,2001.44.StemmeS,FaberB,HolmJ,WiklundO,WitztumJL禾口HanssonGK.Tlymphocytesfromhumanatheroscleroticplaquesrecognizeoxidizedlowdensitylipoprotein.A^/JcfldSc/92:3893—3897,1995.45.TabibiazarR,WagnerRA,AshleyEA,KingJY,FerraraR,SpinJM,SananDA,NarasimhanB,TibshiraniR,TsaoPS,EfronB禾口QuertermousT.Signaturepatternsofgeneexpressioninmouseatherosclerosisandtheircorrelationtohumancoronarydisease.尸/2戶'o/Gewom/cs22:213—226,2005.46.TabibiazarR,WagnerRA,LiaoA禾口QuertermousT.Transcriptionalprofilingoftheheartrevealschamber-specificgeneexpressionpatterns.Cz>c93:1193-1201,2003.47.TabibiazarR,WagnerRA,SpinJM,AshleyEA,NarasimhanB,RubinEMEfronB,TsaoPS,TibshiraniR禾口QuertermousT.Mousestrain-specificdifferencesinvascularwallgeneexpressionandtheirrelationshiptovasculardisease.JWen'osc/er7T^om6Fasc25:302—308,2005.48.TibshiraniR,HastieT,NarasimhanB禾口ChuG.Diagnosisofmultiplecancertypesbyshrunkencentroidsofgeneexpression._/VaZ/JcadSc/99:6567-6572,2002.49.WagnerRA,TabibiazarR,PowersJ,BernsteinD禾口QuertermousT.Genome-wideexpressionprofilingofacardiacpressureoverloadmodelidentifiesmajormetabolicandsignalingpathwayresponses./Mo/Ce//CaWo/37:1159—1170,2004.50.YeangCH,RamaswamyS,TamayoP,MukherjeeS,RifkinRM,AngeloM,ReichM,LanderE,MesirovJ禾卩GolubT.Molecularclassificationofmultipletumortypes.肠/"/or顧"cs17,增干'J1:S316-S322,2001.实施例2:蛋白质微阵列分析为评估不同趋化因子(嗜酸细胞活化趋化因子、IP-IO、MCP-1、MCP-2、MCP-3、MCP-4、IL-8、MIPla和RANTES)的抗体阵列的性能,我们用市售施莱歇尔和舒尔蛋白质微斑点阵列(FastQuant人趋化因子,S&S拜尔森斯公司(S&SBioscenceslnc.),基涅,新罕布什尔州,美国)。该阵列平台采与点样在包被了3-D硝基纤维素表面的标准显微镜载玻片上的多种高特异单克隆性抗体。作为人循环(血)样品,我们选择了有病史、运动试验确定阳性(positiveexercisetest)或接受过冠状动脉导管术的一组11个已知严重冠状动脉病例,和没有病史及运动试验或冠状动脉造影呈阴性的9个对照。收集循环(血)样品,冷冻保存于-80°C,融化后立即用在阵列上。各样品在一式两份的两个阵列上温育。用一次点样(printmn)制备的总共8块载玻片(每块载玻片上8个阵列)对11份患者样品和9份对照进行测评。该项研究中对各样品进行的重复实验显示阵列之间的重现性良好。对于各抗体,将同一阵列上4重复特征扣除了背景信号的信号中值与重复实验中的各个中值作图比较。重复实验的检测值之间相关系数大多为0.99,表明两组阵列数据之间的一致性优良。在以下分析中,各分析物循环检测值表示一种循环(血)样品的四次检测值的平均值,其中扣除了空白载玻片的相应平均检测值,用差值的log(10)数值进行分析。将对照9份样品组的蛋白质水平与病例组11份样品的蛋白质水平作比较。对于每种蛋白质,采用高斯误差评分法(Gaussianerrorscore)比较病例和对照组的蛋白质水平分布,并制作成热图,所述评分法检测按照各组样品数值拟合的正态分布交叠。高斯分布图显示了两组中MMP-2/TIMP-2复合物的蛋白质水平实际分布。一种蛋白质检测值不能明确分开这些组中的少量个体,高斯图中明显可见重叠的信号分布。虽然本项工作的目的不是鉴定分类算法,但通过将少量优选蛋白组合并用费希尔线性辨别分析来区分病例样品和对照样品是可能的。我们用标准ELISA夹心试验,用与该阵列所用相同的捕捉抗体和检测抗体验证了该阵列所得的结果。虽然该阵列所用的抗体对是购买的并己由供应商验证适用于ELISA,还是先检查然后将用于阵列以确保它们符合灵敏度要求。采用ELISA方法分析病例和对照人循环样品,将ELISA数据与阵列数据相比较。分析物之一循环瘦蛋白的比较数据显示,无论以10倍还是20-倍样品稀释液进行ELISA,相关性良好。实施例3:用于准确预测和诊断人冠状动脉疾病的循环炎性标记签名人血清生物标记的前期试验数据由于实施例1和2获得的结果令人鼓舞,我们研究了是否可用蛋白质微阵列鉴定血清炎性蛋白质的签名用作人类动脉粥样硬化性疾病的高灵敏度、高特异性标记。为此,我们设计一项病例-对照嵌套研究(nestedcase-controlstudy),通过以检测动脉粥样硬化风险因素和遗传决定因素为目的的大型临床流行病学研究选择了51位临床明显CAD患者和44位健康对照。用蛋白质微阵列对报名时收集的血清样品进行多种炎性标记的同时检测。有一个亚组的所测分析物在病例受试者中的浓度明显较高。采用这些标记的血清表达分布的分类算法能准确相对于对照将CAD对象准确分级。此外,这些生物标记的独特签名明显提高了CAD其它已知标记的预测能力。在该前期研究中,我们证明循环炎性标记的特征模式能准确鉴定动脉粥样硬化患者。引言动脉粥样硬化性心血管疾病(ASCVD)是发达国家中发病率和死亡率的主要原因1>2。然而,由于缺乏准确的早期诊断标记,超过半数的冠状动脉疾病(CAD)患者的首次临床表现便是心肌梗塞或死亡3'41'2。炎症在ASCVD的所有阶段均涉及,认为其是动脉粥样硬化的病理生理学基础,从而提供了该疾病过程的潜在标记5'6'在大型流行病学研究中,血清炎性生物标记升高已显示能区分心血管风险的级别并评估治疗反应89。虽然可能可用于风险定级,目前的炎性标记缺乏足够的疾病特异性,因而不能用作CAD诊断的筛选工具。例如C-反应性蛋白(CRP)和血纤蛋白原等目前的标记缺乏准确性的原因可能在于它们既不是主要衍生自血管壁又不是主要由参与血管炎性过程的细胞产生的,并且可能作为许多不同器官和组织中的炎症信号。此外,还可能,因为高危人群的疾病表型异质性,单独一种标记提供的信息不足以准确评估冠状动脉循环系统中的血管损坏。出于相似的原因,这些通用炎症标记,例如CRP和红细胞沉降率(ESR)早己不被用作例如狼疮(SLE)和类风湿性关节炎(RA)等其它炎性疾病的特异性诊断标记,尽管它们依旧是临床实践中对风险定级和测评治疗反应的工具。因此,亟需能更准确反映ASCVD活性并能用作鉴定患者的高度灵敏、高特异性试验的生物标记。我们推测,循环炎性蛋白质的独特签名可更好地鉴定CAD。为解决该问题,我们设计了一次嵌套病例-对照研究(nestedcase-controlstudy),通过从ADVANCE研究(动脉粥样硬化性疾病,血管功能和遗传流行病学(AtheroscleroticDisease,F/lscularFuNction,&GenetiC五pidemiology))选择51位最近发生过心肌梗塞(MI)的患者和44位健康对照,所述ADVANCE研究是关于动脉粥样硬化遗传易感性的群体研究。用商品化购得的蛋白质微阵列对报名时收集的血清样品进行9种炎性标记的同时检测。数据分析包括了大量临床变量,例如病史、用药情况、个人和家族史(一级亲属)以及血浆葡萄糖、胰岛素和C-反应性蛋白(CRP)58水平。统计学算法鉴定到蛋白质生物标记签名,当所述签名与其它临床变量联用时能准确鉴别CAD患者和对照。方法逮者絲鋪微薪所有研究方案均经由学院评审委员会评审和批准。从ADVANCE研究队列的两个不同组别中随机选择患者,所述ADVANCE研究是斯坦福心血管部门(StanfordCardiovasculardivision)和北加利福尼亚凯撒永久医疗保健项目(NorthernCaliforniaKaiserPermanenteMedicalCareProgmm)研究部合作进行的一项更大规模的遗传流行病学研究,其目的是调查心血管疾病的遗传决定因素。旧金山海湾地区(SanFranciscoBayArea)的总共3666人参与了ADVANCE,根据性别和年龄对这些人进行分类以代表北加利福尼亚州人口状况。所有可能参加试验对象书面表示知情并同意参与,研究方案得到斯坦福大学和凯撒研究部门的人类对象委员会(HumanSubjectsCommittees)的批准。ADVANCE研究队列由特征明确的临床组别构成743位年轻、明显健康的对照(组1);1023位年长的对照(组2);503位年轻的CAD病例(组3);926位年长的新近诊断CAD病例,病历记载在报名时已发生过首次心肌梗塞(MI),首次心肌梗塞时间距离报名时间的中值是3.4个月(组4);和471位年长的稳定心绞痛首次发作病例(组5)。我们通过性别随机取样法从组2和组4中选择了95例高加索受试者、44位MI病例和51位对照。大型ADVANCE研究数据库包括例如病史、用药情况、个人和家族史(一级亲属)以及血浆葡萄糖、胰岛素和C-反应性蛋白(CRP)水平和脂质分布。只在组2中测得了脂质分布。病例受试者包括45-75岁老年男性和55-75岁女性,都是因急性MI首次发现CAD。鉴定这些受试者的标准是出院主诊断码(primaryhospitaldischargediagnosiscode)为410.x,并且,住院期间或入院前72小时内心脏酶类升高(肌钙蛋白I水平24.0ng/mL,或者,CK-MB25.6ng/ml与CK-MB%23.3ng/mL至少其一)。导引病变(indexevent)(中值为3.4个月)后7-20周采集血清。ADVANCE研究委员会审阅了临床文件,确认了诊断结论。对照是不同性别的60-69岁老人,据其主要医师报告并检索凯撒永久数据库(KaiserPermanenteDatabase)的结果,他们没有任何ASCVD表现或其它重症疾病的临床史。在报名参见ADVANCE后的首次寻访时擦剂临床数据和空腹血清样品。用标准方法检测葡萄糖和胰岛素的血浆浓度。通过高灵敏度ELISA试验测定CRP。節廣微A辨效微微湮为测定9种不同趋化因子(嗜酸细胞活化趋化因子、IP-IO、MCP-1、MCP-2、MCP-3、MCP-4、IL-8、MIPla和RANTES)的浓度,我们使用市售施莱歇尔和舒尔蛋白质微斑点阵列(FastQuant人趋化因子,S&S拜尔森斯公司,基涅,新罕布什尔州,美国)。该阵列平台采用点样在包被了3-D硝基纤维素表面的标准显微镜载玻片上的多种高特异单克隆性抗体。这些标记的灵敏度和特异性以及与常规ELISA的相关性是已知的。己确定这些标记之间没有交叉反应性。按照生产商的使用说明书使血浆样品与蛋白质微阵列杂交,然后加入生物素化的第二抗体和Cy5-链霉亲和素偶联物。用AxonGenepix4000B微阵列扫描仪和特征提取软件(ArrayVisionFast8.0,S&S拜尔森斯公司)将扫描图像转化成数字强度,由此测得杂交后荧光强度。根据内标参比值由荧光强度值算得绝对浓度。根据具体分析物,快速定量(FastQuant)蛋白质阵列的对照变率为3%至约15%,灵敏度为1-10pg/ml。快速定量蛋白质阵列的准确率与具有相似线性范围的相应ELISA相当1Q'U。目前研究的具体的其他方法和质量控制见发行人的在线网址(其他材料可参见Ardigo,Tabibiazar等,"SignaturePatternsofCirculatingBiomarkersAccuratelyPredictPresenceofCoronaryArteryDisease"),包括阵歹U重现性和标准曲线。随后用局部视窗工作站(localWindowsworkstation)分析原始数值数据并其迁移到专用于微阵列数据分析的奥雷克尔关系型数据库(Omclerelationaldatabase)。出于技术原因,RANTES和IL-8不包括在后续分析中。RANTES标准曲线不是S形,因此不具有计算浓度的线性部分。在病例和对照样品中,大多数IL-8值在标准曲线界限之外。统^"学分桥用曼-惠特尼的U检验(连续变量)和卡方检验(名义变量采)测定两组之间的临床特征差异。用蒙特卡洛方法计算显著性水平。在对U检验和5C检验所示组件分布不均衡的临床变量进行调整之前和之后进行通用线性模型(GLM)多变量分析来鉴定病例和对照之间的趋化因子差异。用接受器工作特性(ROC)曲线检验趋化因子的诊断性能。采用12对数回归(LR)分析来验证趋化因子数值是否可区分病例和对照。在双变量分析中两组之间差别显著的年龄、性别和临床变量也纳入这些模型作为独立变量。由于两组之间在用药(常规CAD处方药,例如ACE-抑制剂和他汀类药物)方面的差异会在模型中引入假的疾病预测符,我们决定从分析中排成关于药物治疗的所有信息。构建了三种LR模型应对以下问题独立变量的数量相对升髙,存在缺失值(8位对象中约10个值)和趋化因子浓度之间的共线性。对变量(采纳概率(entryprobability)为0.05;排除概率(removalprobability)为0.15)进行两次前向逐步选择不进行缺失数据估算和采用条件均值进行缺失数据估算。专用于解决共线性问题的第三LR模型包括连同临床变量的趋化因子评分。评分计算包括在一个l-10级别标度(根据十分位数)上对各趋化因子浓度进行重新编码,然后求得各测得趋化因子的平均级数。关于检验、模型构建和缺失数据估算的详尽描述可在线查阅以作补充。采用基于视窗系统的SPSS统计学软件(12.0版)(SPSS公司(SPSSInc.),芝加哥,伊利诺斯州)进行U和5C2检验、GLM、ROC禾QLR。为总览数据结构,我们进行了两维层次聚类法分析(2D-HC)。利用开源软件Tmev,3.0版(TM4套件,遗传学研究院(TheInstituteforGenomicResearch),罗克维尔,马里兰州)"构建2D-HC。分析中用完全连锁和皮尔逊相关性作为距离指标。为测定我们的数据中最大方差的方向,我们采用依据log2的主成分分析(PCA)。節織體叙嫉微吝诚..曾有关于蛋白质选择和分类算法的记载(Tabibiazar2005PhysiolGenomics.2005年7月14日;22(2):213-26),纳入作为参考)。简言之,在有监督的分析中,我们用多种分类算法根据基因区分病例和对照的效用对其进行排名。该项分析所用的算法包括支持向量机(SVM)"和递归特征排除(RFE)",RFE是SVM的递归算法,其中,反复进行变量排名并且每次除去固定比例的最低分者16。用SVM-RFE确定能以最低误差率将各实验正确归类的最佳数量的排名基因。通过1000次递归交叉验证计算最佳出错率或分类误差,其中25%的实验用作测试组,其余的用作训练组。作为SVM结果的内部验证,我们还采用了以下监督分类算法分类和回归树(CART)、线性辨别分析(LDA)和对数回归(见本章前述)。CART是一种采用一系列"如果-则(if-then)"二叉逻辑条件的的灵活的层次分类系统,该系统允许对结果的个性化(individualization)程度和分类误差的比例成本(proportionalcost)进行设定。为获得高准确率的分类,我们设定终端节点(terminalnode)仅包含纯粹亚组或不超过5个对象。先验信息(prioriinformation)包括两种类别大小相等且分类误差成本(misclassificationcost)相等。通过多次随机置换10%的对象来交叉验证结果。结果靡離床錄C如图5所示,病例组和对照组在体现已确知为CAD风险因素的诸多重要特征上有差异。病例对象的胰岛素耐受表型更明显,血浆胰岛素浓度更高,BMI略高(虽然不明显),腰围更大和血脂异常比例更高。然而,在两组之间的血液葡萄糖水平和糖尿病比例相仅。患者的血压,不论是收縮压还是舒张压都明显低于对照,尽管有更常见的高血压病史。该事实至少可部分揭示为多用抗高血压药物(96.7%比之43.2%)和次级预防性处方药例如ACE-抑制剂、卩阻断剂、他汀类药物和阿司匹林等所致。而且,虽然CAD患者的一级亲属中冠状动脉疾病比例高于对照,但两组间的糖尿病、血脂异常、高血压和中风的家族史没有明显不同。有意思的是,虽然两组在血管和代谢表型上有明显差异,但CRP浓度没有可检测的差异。疯靜詹麵飾记虽然两组之间的CRP没有差异,但多变量GLM风险显示病例组的其它循环炎性标记高于对照(图6),即使在就临床变量和药物治疗进行调整后亦是如此。比较病例与对照的无监督数据分析鉴于CAD患者中炎性标记的水平升高,我们研究了利用这些信息通过无监督分析将患者准确分类的可行性。两维层次聚类法表明CAD患者和对照患者倾向于形成大型同质集群,虽然有个别病例和对照维持在这些大型集群之外群体外(图7)。对于被测变量,临床参数集中为一组,趋化因子则形成另一组。有意思的是,CRP水平与代谢参数的关联度高于趋化因子水平。主成分分析发现,在对象中观察到差异有60-70%可解释为趋化因子、胰岛素耐受性和部分其它临床变量(例如高血压和高脂血症)所致,其中,炎症标记是主要因素(图8)。^^众茵f獰^"浙游床变量遂/f疯激浙應街汰吝游分类为确定能准确区分病例对象和对照对象的最佳、最小变量组,我们采用了SVM分类算法(Tabibiazar2005PhysiolGenomics.2005年7月14日;22(2):213-26)。SVM鉴定了能高度准确区分不同程度对象的一组15个变量(分类误差率<10%)(图9)。除了已知的CAD风险因素外,检测循环趋化因子明显加强了疾病预测。为验证我们的发现,我们采用了多种其它分类算法,结果,对于预测CAD:LR(80%灵敏度,88%特异性)、LDA(73%,94%)和CART(80%,88%)表现出了相当的高水平灵敏度和特异性。丽蕭标记改夢7T裙嚴/緣體遂疗游分类用ROC曲线进一步评估了单一变量和多个变量区分病例对象和对照对象的分类能力。在趋化因子中,MCP-4看来是最灵敏的,MCP-1是特异性最强的,二者均显示良好的准确率(AUC分别是0.896和0.849)(图10A)。应该注意的是,CRP似乎无助于在流行病学范畴以外鉴定疾病,而血管炎症的特异性标记则更准确。图11显示了三种对数回归分析的结果,其中,趋化因子或者通过分步选择(模型1和2)引入,或着作为组合分值(模型3)引入。在CAD患者中,三种模型中有两种的总准确率超过90%,这支持了这一推测使用多种标记区分ASCVD患者能提供更多信息。LR模型的分类性能与最佳趋化因子,MCP-1和-4(的曲线)的比较是对该假设的进一步证明(图IOB)。显然,采用多标记算法明显能更好地预计是否存在疾病。讨论需要诊断和治疗临床前ASCVD的更好的工具。目前,虽然对动脉粥样硬化的机制和情况的了解越来越多,但我们仍缺少用于鉴定高风险患者并预测预防方案之效果的方法。越来越多证据暗示血管炎症是动脉粥样硬化各阶段中主要的病理生理学过程5,并且,已就炎性标记用于诊断的可能性进行了数项研究17。虽然目前的炎症通用标记被认为可能可用于评定风险级别,它们不足以在普通人群中鉴定CAD18。这些标记缺乏特异性的原因可能在于它们不是血管衍生标记,并且可能是指示各种器官中的炎症的信号。个体对环境风险因素的反应不一致性也可能导致了ASCVD标记浓度的高度不同。在这点上,一种炎性蛋白所携带的生物学信息可能不足以全面表征血管炎性状态,因而可能无法准确鉴定是疾病的存在及程度。相比之下,采用多种炎性标记特征的多维方法可提供动脉粥样硬化相关血管炎症的病征签名。本发明的研究用实验支持了这一假设并提示用多种炎性标记可有效鉴定患冠状动脉心脏病的患者。由于血管炎症是动脉粥样硬化的病理生理学基础,动脉粥样硬化血管中产生的趋化因子是CAD标记的主要候选者。趋化因子是白细胞和内皮细胞被活化时产生的一群可构成网络架构的趋化蛋白质19。它们的主要作用是使白细胞在组织中累积并活化,它们与几种细胞受体的相互作用参与形成炎性渗透的特异性2Q'21。趋化因子常成组存在,各组的组成不同,这种趋化因子组的生物学效应与单个因子的生物学效应可能极其不同,因此,测定细胞因子和趋化因子表达的总体模式比单一蛋白质试验更可能获得有意义的生物学信息。我们的数据清楚地显示临床CAD个体中数种趋化因子血浆浓度的调变不同于健康对照,即使在就己知临床变量进行调整后亦是如此。因此,结合这些标记的多变量模型能准确区分这两组的样品。据假设,采用多种分析物的预测模型远比采用一种炎性蛋白质的模型准确。这些结果得到了多种不同算法多变量统计学分析的验证,不同算法的的结果高度一致。各模型的一致性以及不同试验所得结果的重现性提示趋化因子特征提供了血管疾病的强烈信号。尽管队列的规模较小并且患者正接受所有可能的治疗,但这些结果仍然具有非常显著的意义。在我们的数据中,尽管血管和代谢表型明显不同,但在病例和对照之间未观察到CRP水平有明显不同。这可能是因为样品规模较小,并且,使用降CRP药物(例如他汀类药物和阿司匹林)较多的缘故。然而,虽然经治疗,但有心肌梗塞病史的个体患冠状动脉疾病的风险依旧高于没有CAD病史的人22。而且,CRP的主要临床用途被认为是在经典风险因素不确定时更准确地区分个体,但对该提法依然有争议23。虽然治疗期间CRP水平降低可用作治疗反应指数89,但在我们的横断面研究中,CRP提供的信息不比其它临床变量多。我们的研究存在一些局限性。病例对象的血清样品是在急症之后(7周-20周,中值为3.4个月)采集的。虽然炎性标记通常会在4-8周内回复至基线水平,我们不能排除急症导致炎性标记水平改变的可能性。我们的研究设计也未确认蛋白质组学特征用于区分病例和对照的的预后价值,虽然在我们所鉴定的蛋白质组学特征可能的确具有预测原发(primary)或继发(secondary)事件的预后价值。我们的生物标记组明显不是完全清单。实际上,利用更多分析物的阵列有望提高诊断ASCVD的灵敏度和特异性。然而,本发明的初步研究证明了利用蛋白质微阵列同时监测多种生物标记的可行性。总之,我们己鉴定了循环血清炎性标记组,它们的独特签名能准确区分CAD患者和对照。后文实施例5报道了验证该方法的大规模研究。参考文献1.NHLBImorbidityandmortalitychartbook,2002.贝塞斯达,马里兰州国家心脏、肺和血液研究院,2002年5约;2002.2.NHLBIfactbook,fiscalyear2003.贝塞斯达,马里兰州国家心脏、月巿和血液研究院,2004年2月;2003:35-53.3.KannelWB,SchatzkinA.Suddendeath:lessonsfromsubsetsinpopulationstudies.JAmCollCardiol.1985年1月;5(6增刊):141B-149B.4.KannelWB,McGeeDL.Epidemiologyofsuddendeath:insightsfromtheFraminghamStudy.CardiovascClin.1985;15(3):93-105.5.RossR.Atherosclerosis—aninflammatorydisease.NEnglJMed.1999年1月14日;340(2):115-126.6.GlassCK,WitztumJL.Atherosclerosis,theroadahead.Cell.2001年2月23日;104(4):503-516.7.LibbyP.Inflammationinatherosclerosis.Nature.2002年12月19-26日;420(6917):868陽874.8.RifaiN,RidkerPM.Inflammatorymarkersandcoronaryheartdisease.CurrOpinLipidol.2002年8月;13(4):383-389.9.RidkerPM,CannonCP,MorrowD等,C-reactiveproteinlevelsandoutcomesafterstatintherapy.NEnglJMed.2005年1月6日;352(1):20-28.10.参见生产商的信息(Whatman;S&S公司(Schleicher&Schuell)).11.参见生产商的信息(Whatman;S&S公司).12.ZweigMH,CampbellG.Receiver-operatingcharacteristic(ROC)plots:afundamentalevaluationtoolinclinicalmedicine.ClinChem.1993年4月;39(4):561-577.13.SaeedAI,SharovV,WhiteJ等,TM4:afree,open-sourcesystemformicroarraydatamanagementandanalysis.Biotechniques.2003年2月;34(2):374-378.14.BurgesCJC.Atutorialonsupportvectormachinesforpatternrecognition.DataMiningandKnowledgeDiscovery.1998;2(2):121-167.15.GuyonI,WestonJ,BarnhillS等,Geneselectionforcancerclassificationusingsupportvectormachines.MachineLearning.2002;46(l/3):389.16.RamaswamyS,TamayoP,RifkinR等,Multiclasscancerdiagnosisusingtumorgeneexpressionsignatures.ProcNatlAcadSciUSA.2001年12月18日;98(26):15149-15154.17.RidkerPM,BrownNJ,VaughanDE等,Establishedandemergingplasmabiomarkersinthepredictionoffirstatherothromboticevents.Circulation.2004年1月29日;109(25增刊1):IV6-19.18.PearsonTA,MensahGA,AlexanderRW等,Markersofinflammationandcardiovasculardisease:applicationtoclinicalandpublichealthpractice:AstatementforhealthcareprofessionalsfromtheCentersforDiseaseControlandPreventionandtheAmericanHeartAssociation.Circulation.2003年1月28曰;107(3):499-511.19.CharoIF,TaubmanMB.Chemokinesinthepathogenesisofvasculardisease.CircRes.2004年10月29日;95(9):858扁866.20.SallustoF,MackayCR,LanzavecchiaA.SelectiveexpressionoftheeotaxinreceptorCCR3byhumanThelper2cells.Science.1997年9月26日;277(5334):2005-2007.21.LusterAD.Chemokines—chemotacticcytokinesthatmediateinflammation.NEnglJMed.1998年2月12日;338(7):436-445.22.ThirdReportoftheNationalCholesterolEducationProgram(NCEP)ExpertPanelonDetection,Evaluation,andTreatmentofHighBloodCholesterolinAdults66(AdultTreatmentPanelIII)finalreport.Circulation.2002年12月17日;106(25):3143-3421.23.LevinsonSS.Briefreviewandcriticalexaminationoftheuseofhs隱CRPforcardiacriskassessmentwiththeconclusionthatitisprematuretousethistest.ClinChimActa.2005年1月;356(1-2):1-8.24.TabibiazarR,WagnerRA,AshleyEA,KingJY,FerraraR,SpinJM,SananDA,NarasimhanB,TibshiraniR,TsaoPS,EfronB,QuertermousT.Signaturepatternsofgeneexpressioninmouseatherosclerosisandtheircorrelationtohumancoronarydisease.PhysiolGenomics.2005年7月14日;22(2):213-26。实施例4:用于准确分类冠状动脉疾病的炎性标记的数据分析用购得的施莱歇尔和舒尔人趋化因子芯片进行研究。我们使用该阵列评估了选自雷诺兹中心(ReynoldsCenter)队列的100份样品中的循环趋化因子水平。所检测的趋化因子是MCP-1、MCP-2、MCP-3、MCP-4、嗜酸细胞活化趋化因子、IL-8、RANTES、MIP-la和IP-10,虽然IL8和RANTES值落在线性范围之外。通过对雷诺兹队列中选定SNP的重新测序和基因分型对广泛研究了编码MCP-1、MCP-2、MCP-3、嗜酸细胞活化趋化因子、IL-8和RANTES的遗传基因座。循环样品来自有心肌梗塞病史的50位个体和50位年龄匹配的对照(参见前文队列描述)。虽然对照在其它变量上不匹配,但性别和种族及其它变量的联合分布是相似的。阵列与生产商提供的试剂杂交、清洗,并用艾克松(Axon)扫描仪扫描,用S&S公司专有软件(阵列视TM夸特⑧(ArrayVisionTMQu肌t,进行特征提取。用该阵列所包括的试剂产生标准曲线,测定各份循环样品的浓度。分析采用新方法,但延用以下主张的基础前提条件是临床和基因分型数据的纳入能增加生物标记数据的信息,用于就与疾病状态/活性无关的个体间趋化因子水平差异进行标准化。通过测定具有这些匹配数据的趋化因子丰度、临床数据和各SNP的基因分型信息进行分析。区分病例和对照以及发现能用于区分的那些变量是双类别(two-class)"分类"的基本问题。虽然单个分类符可能也行,但在它们中进行"公投"(vote)通常更好。实际上,在分类符中进行"公投"的方法十分常见,其中两种是"打包法(bagging)"和"补强法(boosting)"。我们在分析之初只用4种分类符,就每一个受试者在它们中进行简单公投。采用交叉验证的标准方法例如5-倍交叉验证来评估预期性能。因此,将数据组随机分成大小几乎相等的5个亚组。依次地,每一次验证在80%的数据上展开(并进行次间公投),取20%的数据计算结果。然后计算五组结果的平均值。也可使用更完备的样品再用方法来评估预期准确率。对99位对象的初步样品进行了所述分析。变量包括嗜酸细胞活化趋化因子、IP-IO、MCP-1、MCP-2、MCP-4、MIPla、性别、年龄、葡萄糖、胰岛素、CRP和脂肪(FAT)。测定变量FAT作为BMI和腰围(WAIST)的首要组分,以线性方式造成后文两预测符91%的差异。共有51例MI和48位对照。我们用经验值(empiricalpriors)来预测双类别问题的贝叶斯分类规则;这样,它们几乎是每类0.5。将分类误差成本取作相等。(当然,对于双类别问题,只有先验概率乘积与分类误差成本的比值才是重要的。在这里,该比值约为1。)年龄为60岁-72岁,其中,下端的权重高于上端。平均值是64.7岁,第25、50和75区间百分位数分别是62、64、67;年龄的标准偏差是3.1。在以下实施例中,LDA指费希尔线性辨别分析。下文描述了称为CART、FlexTree和LART的方法。对于LART技术,首先用简单的拉索法减少预测符的数量。如何进行分类的详见下文。FlexTree和LART中的一个重要细节是回归系数的霍特林丁2分选量,这对于它们的预测能力很重要。由分类移交的权重用于LART加权拉索(方法)。表3.经5倍交叉验证的性能<table>tableseeoriginaldocumentpage68</column></row><table>表4.所述方法鉴定的变量<table>tableseeoriginaldocumentpage68</column></row><table>进一步分析结合了所述预测符,还有前述99位对象的SNP基因型信息。分类误差的5-倍交叉验证百分比降低至10%,而灵敏度提高至85%,特异性提高至92%。在该项分析中,采用简单的拉索法来縮小所包括的SNP数目。并且,用某基因内SNP信息的CART来估算所有缺失的SNP值。总之,这些分析强有力地明显支持了本文所述的发明。尽管只评估了少量分析物和临床变量,但通过多种方法获得了相当好的分类结果。所有方法均对循环趋化因子检测值进行了选择,不同方法之间有重叠,其中,MIPloc、MCP-4和嗜酸细胞活化趋化因子在多种算法中非常突出。这些分析提示基因分型数据可能提供更多的有用信息。目前作为动脉粥样硬化性疾病标准诊断方法的高灵敏度CRP在这些分析中没有用处,这提示多种疾病相关炎性标记的水平可能提供明显优于现有预测符的改进。我们通过聚类法(无监督的学习)总结了多项特征和各参数的联合分布。在我们的层次聚类法方法中(图6),列是个体(变量),行是特征。在该算法中,各列各行逐次类聚,目的是产生"相近"的特征组和样品组。看变量的类聚,非常有意思的是,趋化因子MCP-2、MIPl-a、MCP-1、IP-IO、嗜酸细胞活化趋化因子和MCP-4紧密群集在一起。空腹胰岛素水平、FAT(BMI和腹围的首要成分)和葡萄糖这些代谢变量也群集在一起,这符合考虑到这些变量在葡萄糖代谢和胰岛素耐受中彼此关联所做的预期。未发现性别和年龄接近任一上述集群,二者保持独立。令人感兴趣的是,hsCRP未与趋化因子类聚而与代谢变量类聚,表明hsCRP水平与血管炎症的关联度不及多趋化因子签名。如同期望,样品集群在类别成员上是不一致的。这些分析表明,无监督的学习(聚类)不足以进行有监督的学习(分类)。根据迄今所得结果,如果要进行准确分类,必需有这样的分类分案该分案不仅根据特征而且根据结果(可预示纯以特征为依据对后续观察结果所做的分类)进行组别分类。实施例5:1330位患者的大型临床试验准确预测和诊断动脉粥样硬化性心血管疾病和血管炎症的循环生物标记的签名验证多标记特征的大型临床试验的血清生物标记数据受到前期临床试验结果的鼓舞,我们检验了多标记特征是否能在更大的试验中得到验证以及它们是否可用作人类动脉粥样硬化性疾病的高度灵敏、高特异性标记。为此,我们采用包括400例临床显著ASCVD和930位对照的大型临床流行病学研究。该项研究的目标是检验动脉粥样硬化的风险因素和新的其它决定因素。用蛋白质微阵列将报名时收集的血清样品用于同时检测多种炎性标记。此处采用前期研究所用的精确法(exactmethod)(详见前述实施例)。一亚组分析物的浓度病例中明显较高。用这些标记的血清表达特征,分类算法根据与对照的比较对CAD病例进行了准确的分级。此外,由生物标记形成的签名明显提高了其它已知CAD标记的预测能力。该较大试验不仅验证了我们先前的发现,还为使用多标记方法来准确预测和诊断动脉粥样硬化性心血管疾病及其各种临床后遗症提供了更多实例。预测动脉粥样硬化性疾病选择髙信息含量的标记选择多个高信息含量标记来构建分类模型需要限定性能指标和用户定义的阈值,从而能根据该指标构成具有实用预测能力的模型。后文中,我们将目标量值(targetquantity)定为"曲线下面积"(AUC),预测的灵敏度和/或特异性以及预测模型的总准确率。现在开始描述选择构建预测模型的项数的一种方法。在该实施方式中,我们描述了在没有任何临床变量和/或调节因子存在下选择标记的方法。该方法如下所述我们首先将我们的训练数据随机分成10组,各组包括"健康"或"患病"的对象,各自与它们在全体样品中的数量成正比。各对象用其24种标记的检测值和疾病状态标签(无标签表示"健康",有标签则为"患病")。我们选择9组,就24种标记中的每一种(MCP-1、IGF隱1、TNFa、IL-5、M-CSF、MCP-2、IPIO、MCP隱4、IL-3、IFNy、Ang-2、IL-7、IL-IO、嗜酸细胞活化趋化因子、IL-2、IL-4、ICAM-1、IL-6、IL-12p40、MIPla、IL-5、MCP-3、IL13、ILlb)用给定的算法(例如线性辨别分析、二次方程辨别分析、对数回归等)用9组的所有数据训练模型(即,我们创建了一训练亚组)。然后我们将该模型应用于没有参加训练的第10组,我们对检测误差"e"和或许多上述预测质量指标值(qualitymeasure)进行了估算。我们重复以上过程10次,每次随机取样9组来产生训练样本并用第10组来估算检验误差"e"和预测质量指标值。然后,我们用这10份数据构成的样本估算各质量指标值和/或误差以及我们估算值方差的预期值。已知这些数值后,将能提高模型的平均预测能力的标记选作模型的第一项。我们可改用另一改善指标来替代预测质量指标平均值,例如,我们可改选预期质量指标值与其方差估算值的比值最高的项目。将第一项加入该模型后,我们对在当前选择步骤中未被中选的其余标记重复上述过程。这样,在第二步骤中,我们对其余标记重复上述计算。通过选择最能提高我们的目标预测质量指标值的选项,或用当前模型预期值的某种组合减去新模型的值并就那些指标的误差标准化,来选择第二模型项。图12显示了将该方法应用于一组1300个对象的结果。我们选择AUC>0.75为阈值作为我们的目标预测质量指标,我们用线性辨别分析模型选择项目。使用以下标记MCP-1满足质量阈值。图13显示了用对数回归模型选择项目的结果,其中,诊断样品(discoverysample)和质量阈值不变。与之前的实施例比较发现,两种模型只有头两项相同(MCP-1、IGF-1),第三项不同(TNFa比之M-CSF)。因此,我们可采用多种标记和多种预测模型的组合,这将超越我们的质量阈值。为证实我们能替换标记而仍然满足某预测质量指标的要求,我们从用于选择的可用标记组合中除去标记MCP-1并重复以上方法。图14给出使用LDA模型和前述1300位对象所得的结果。新的一组两种标记包括Ang-2、IGF-1,这两种二标记能提供AUC〉0.75的模型。作为不同选择标准的实例,我们提供了采用AIC标准在对数模型框架内获得的结果。该标准通常用于选择对数回归模型的最佳项数。该标准平衡了因除去某项导致的误差增加与自由度降低(失去了原由该相为模型提供的自由度)。减项过程通常始于完整模型,终止于某项的除去导致AIC值升高之时。图15a示出了减项结果与AIC标准的函数关系(所示减项过程超过了最佳点)。图15b显示了一模型随项数增加的AUC预测情况。按照从完整模型即包含所有24种标记的模型中减项(主要按AIC标准选择项目)相反的顺序在上述模型中加入项。后一方法(减项)利用至少一种标记(MCP-1)产生了一个预计AUC>0.75的对数回归模型。可采用前向选择(本实施例中的第一、第二和第三例)或反向选择(本实施例中的第四例)或前向/反向选择方案完成项目选择。该方案能检验所有在前一步骤中从当前縮减模型中除去的项。相同的选择方法可拓展为同时包括标记和临床变量。后面的两幅图显示了以下情况的结果对数回归模型的候选变量在全部16种标记之外还包括"高脂血症"(DC912)和"索引日(indexday)之前的160天内使用过降脂药物"(图16)或"使用他汀类药物"、"使用ACE阻断剂"(图17)。这些实施例表明,可用组中的临床变量替换获得AUC>0.75所需的至少3标记组中的标记。高脂血症(DC912)和MCP-4组合所获得模型的AUC预期值约为0.85。采用上述方法,我们还能选定了无需使用所有标记来优化模型性的标记数目。确定最佳项数的一种方法是选择能获得具有如下所述平均预测能力(以AUC检测,或相当的灵敏度/特异性指标)的模型的项数,所述平均预测能力与各种组合和各种数量的给定算法所得最高值相差不超过1个标准偏差。再看图17,包括以下标记的对数回归模型满足了这些要求DC512、DC3005、MCP-4、IGF-1、M-CSF、IL-5、MCP-2、IP-IO。实施例6:ACE抑制剂反应预测模型采用实施例5所述的方法,我们用对数回归或线性辨别分析建立了能根据ACE抑制剂实用情况分类样品的模型。按照对象状态(对照或病例)调整这些模型,因为标记的总水平取决于我们的试验对象是否健康。这些模型可用于多种方法,例如筛选化合物来鉴定可用作ACE抑制剂或作用于会聚性途径(convergentpathway)的其它物质以及监测ACE抑制剂的疗效。在第一个实施例中,将所述化合物给予哺乳动物对象,采集所述对象的一份或多份样品,获得一份或多份样品的数据集。这些数据集经ACE抑制剂反应预测模型处理,用所得结果来分类样品。如果样品分类为来自ACE抑制剂用药者,则该化合物可能是推定ACE抑制剂。在第二个实施例中,获得对象的一份或多份样品,由那些样品所得的数据集经ACE抑制剂反应预测模型处理。如果样品分类为来自ACE抑制剂用药者,则治疗可能有效。如果随时间多次取样显示从该模型获得的预测符值有时间依赖性改变,则药物治疗的疗效可能正在改变,预测符值趋近于用药分类指标还是趋近于非用药分类指标指示着疗效改变的方向。示例性模型所用的蛋白质标记连同模型的性能特征见下表5和6。表5.ACE抑制剂预测模型1对数回归所用的变量分类误AUC灵敏度特异性准确率差MCP-1、IGF-1、TNFa、MCP-2、0.3650.6880.6410.6320.635IPIO、IL-5、M-CSF、MCP隱4、MCP國3、IL-3、Ang-2、IL-7、嗜酸细胞活化趋化因子表6.ACE抑制剂预测模型2线性辨别分析所用的变量分类误AUC灵敏度特异性准确率差MCP-l、IGF隱l、TNFa、MCP-2、0.3760.6890.6320.6200.624IPIO、IL-5、M-CSF、MCP-4、MCP國3、IL-3、Ang-2、IL國7、嗜酸细胞活化趋化因子实施例7:ACE抑制剂或他汀类药物使用情况预测模型采用实施例5所述的方法,我们用对数回归或线性辨别分析建立了能根据ACE抑制剂或他汀类药物实用情况分类样品的模型。按照对象状态(对照或病例)调整这些模型,因为标记的总水平取决于我们的试验对象是否健康。这些模型可用于多种方法,例如筛选化合物来鉴定可用作ACE抑制剂或他汀类药物或作用于收縮途径的其它物质以及监测ACE抑制剂或他汀类药物的疗效。在第一个实施例中,将所述化合物给予哺乳动物对象,采集所述对象的一份或多份样品,获得一份或多份样品的数据集。这些数据集经ACE抑制剂或他汀类药物使用情况预测模型处理,利用所得结果来分类样品。如果样品分类为来自ACE抑制剂或他汀类药物用药者,则化合物可能是推定的ACE抑制剂或他汀类药物。在第二个实施例中,获得对象的一份或多份样品,由那些样品所得的数据集经ACE抑制剂或他汀类药物使用情况预测模型处理。如果样品分类为来自ACE抑制剂或他汀类药物用药者,则治疗可能有效。如果随时间多次取样显示从该模型获得的预测符值有时间依赖性改变,则药物治疗的疗效可能正在改变,预测符值趋近于用药分类指标还是趋近于非用药分类指标指示着疗效改变的方向。示例性模型所用的蛋白质标记连同模型的性能特征见下表7和8。药物应用反应的生物标记分布我们的研究表明,标记组可用于监测药物对炎症水平的作用。检查多个标记(IL-2、IL-5、IL-4)的数值分布,我们证明剂量作用是对照接受药物治疗数量的函数(即,无药物治疗比之一种药物治疗或两种药物)。作为该方案的一个实例,我们用3种药物反应性标记作为一组(IL-2、IL-4和IL-5)。为产生单一组合评分(singlecombinedscore),我们建立了线性辨别分析模型,其中,反应变量取以下值"未治疗的"、"ACE或他汀类药物"、"ACE和他汀类药物",并且,我们将第一辨别变量用作组合评分的替代品。图18显示了被认为"健康"("对照")的对象的结果,所示为三个"治疗"组各自的箱线图。各箱线图的灰色部分从各类别的数值分布的第一分位数延伸到第三分位数。为有助于目测观察类别之间中值水平的差异,在中值附近加了"凹口"。弓l线(whisker)的延伸长度为分位数间距(interquantiledistance)的1.5倍。该图中未包括溢出值。组合评分明显随药物数目增加而显示下降趋势。各组的凹口几乎不重叠这一事实表明中值的差异非常显著。生物标记组的表现优于单用一种生物标记。可采用霍特林f方法获得多种标记的单一评分,由此进行相似的分析。此时,我们能根据霍特林公式估算未治疗组数据的协方差矩阵,计算各对象的"距离"。这后一方法不仅可用于建立许多标记的"组合距离(combineddistance)"来监测药物剂量效应,还可用于对剂量效应作推定性检验。(参见纳入本文作为参考的Hotelling,H.(1947).MultivariateQualityControl.刊于C.Eisenhart,M.W.Hastay禾口W.A.WalHs编,rec/zm々weso/Sto"W/ca/v4wa/,/s.纽约麦克劳-希尔公司(McGraw-Hill.))。表7.ACE抑制剂或他汀类药物预测模型1对数回归<table>tableseeoriginaldocumentpage74</column></row><table>表8.ACE抑制剂或他汀类药物预测模型2线性辨别分析<table>tableseeoriginaldocumentpage74</column></row><table>实施例8:冠状动脉钙化度预测模型采用实施例5所述的方法,我们用对数回归或线性辨别分析建立了能根据预测的冠状动脉钙化度分类样品的模型。示例性模型所用的蛋白质标记连同模型的性能特征见下表9和10。表9.冠状动脉钙化度预测模型1对数回归-万用的变量分类误AUC'灵敏度特异性准确率差MCP-l、IGF-l、TNFa、MCP陽2、0.4700.5360.5670.5000.530IPIO、IL-5、M-CSF、MCP-4、MCP-3、IL-3、Ang-2、IL-7、嗜酸细胞活化趋化因子表10.冠状动脉钙化度预测模型2线性辨别分析所用的变量分类误差MCP匿l、IGF-l、TNFa、MCP-2、0.461IPIO、IL-5、M-CSF、MCP-4、MCP-3、IL匿3、Ang隱2、IL-7、嗜酸细胞活化趋化因子实施例9:稳定与不稳定动脉粥样硬化性疾病预测模型采用实施例5所述的方法,我们用对数回归或线性辨别分析建立能将样品分类为稳定(即心绞痛)类或不稳定(即心肌梗塞)类的模型。示例性模型所用的蛋白质标记连同模型的性能特征见下表11和12。表11.稳定与不稳定疾病预测模型1对数回归所用的变量分类误AUC灵敏度特异性准确率差MCP-l、IGF-l、TNFa、MCP匿2、0.4380.5660.5630.5620.562IPIO、IL-5、M-CSF、MCP-4、MCP-3、IL-3、Ang-2、IL-7、嗜酸细胞活化趋化因子AUC灵敏度特异性准确率0.5600.5780.5050.539表12.稳定与不稳定疾病预测模型2线性辨别分析所用的变量分类误AUC灵敏度特异性准确率差MCP曙l、IGF-l、TNFa、MCP-2、0.4440.5770.5830.5290.556IPIO、IL-5、M-CSF、MCP-4、MCP-3、IL-3、Ang-2、IL-7、嗜酸细胞活化趋化因子实施例10:疾病与健康对照预测模型采用实施例5所述的方法,我们用对数回归或线性辨别分析建立能将样品分类为疾病(即心绞痛或心肌梗塞)类或健康对照类的模型。示例性模型所用的蛋白质标记连同模型的性能特征见下表13和14。表13和14还表明模型的性能如何随标记的组合被取代而改变。表13.疾病与对照预测模型1线性辨别分析所用的变量MCP-1、IGF-1、TNFa、MCP-2、IPIO、IL-5、M-CSF、MCP-4、MCP-3、IL-3、Ang-2、IL-7、嗜酸细胞活化趋化因子MCP-1、IGF-1、TNFaMCP-1、IGF-1、M-CSFAng-2、IGF-1、M-CSFMCP-4、IGF-1、M-CSFMCP-1、IGF-1、TNFa、IL-5MCP-1、IGF-1、M-CSF、MCP-2Ang-2、IGF-1、M-CSF、IL-5MCP-1、IGF-1、TNFa、MCP-2MCP-1、IGF-1、TNFa、IL-5、M-CSFMCP-1、IGF-1、IPIO、MCP-2、M-CSFAng-2、IGF-1、TNFa、IL-5、M-CSFMCP-1、IGF-1、TNFa、MCP-2、IP10MCP-4、IGF-1、M-CSF、TNFa、IL-5MCP-4、IGF-1、M-CSF、MCP-2、IL-5分类误差0.1580.2450.2350.2580,2580.2250.2270.2390.2400.2130.1840.2160.2030.2210.246AUC0.9150.8270.8250.7980.7890.8500.8420.8160.8420.8670.8740,8550.8780.8550.807灵敏度0.8470.8040,7860.7180.7210.8170.8010.7540.7920.8370.8070.8070.7840.8120.736特异性0,8400.7330.7560.7530.7500,7570,7600.7640.7460.7650.8210.7740.8020.7650.761准确率0.8420,7550.7650.7420.7420.7750,7730.7610.7600.7870.8160.7840.7970.7790.754表14.疾病与对照预测模型2对数回归分类误所用的变量差AUC灵敏度特异性准确率MCP-1、IGF-1、TNFa、MCP-2、IPIO、IL-5、M-CSF、MCP-4、MCP-3、IL-3、Ang-2、IL-7、嗜酸细胞活化趋化因子0■1530,.9160,.8590.8410.847MCP-1、IGF-1、TNFa0.2370,.8350,.8040■7450.763MCP-1、IGF-1、M-CSF0.2390,.8310,.7890,.7490.761Ang-2、IGF-1、M-CSF0■2570,,7990,■7340.7470.743MCP-4、IGF-1、M-CSF0.2580,■7920,.7330,■7450.742MCP-1、IGF-1、TNFa、IL-50■2210,,8560,.8260,.7590■779MCP-1、IGF-1、M-CSF、MCP-20,.2360,,8450,.7940..7500.764Ang-2、IGF-1、M-CSF、IL-50,■2430.,8130,.7660,.7540,.757MCP-1、IGF-1、TNFa、MCP-20,■2350.,8490,■7840,.7570,.765MCP-1、IGF-1、TNFa、IL-5、M-CSF0,.2120.,8680.,8320,.7690,.788MCP-1、IGF-1、IPIO、MCP-2、M-CSF0,.1870.,8760.■8040,,8160.,813Ang-2、IGF-1、TNFa、IL-5、M-CSF0,.2200.,8550.,謝o:,7710.■780MCP-1、IGF-1、TNFa、MCP-2、IP100,.2020.,8810.,7940.■7990.,798MCP-4、IGF-1、M-CSF、TNFa、IL-50,,2230.,8570.,8070.,7640.,777MCP-4、IGF-1、M-CSF、MCP-2、IL-50.■2580.8100.,7340.,7460.,742实施例lh利用LDA模型的分类我们根据以下标记的数值将患者分为"对照"或"疾病"MCP-1、IGF-1和TNFa。两类取相等的分类误差成本。根据LDA方法,如果方程(l)的左侧大于该方程的右侧,则将上述标记的值为x的新对象分入"疾病"类,方程中a)指数2对应于"疾病"状态b)指数1对应于"对照"状态c)N是训练组的总规模d)Nl、N2是训练组中"对照"和"疾病"对象的数量e)2是用训练组估算的协方差矩阵f)^,2are分别是"对照"和"疾病"样品的均值向量。i:'±1一a",)>!/:2—》卩s、j+,og(:A'丄〃v.)k堪(ava')(i)为构建用于预测的LDA模型,我们使用包括上述3种标记值的训练组,对象包括398位"对照"和398位"疾病"对象。标记值先转换为loglO值,用所得数值估算方程1所需的各项。训练组的协方差矩阵和均值向量等于协方差矩阵MCP-1IGF隱1TNFaMCP-10.1241550.0695870.06659IGF-10.0695871.3219710.664374TNFa0.066590.6643740.565535"对照"和"疾病"状态的均值标记向量:对照1.8915522.8309810.781913疾病1.2239762.3246830.990313方程1所需的协方差矩阵的逆阵是VIV2V318.6075990.13735-1.1748720.137351.848967-2.188283-1.17487-2.188284.477304我们分类具有以下数值(经loglO转换)的对象对象l:MCP隱1IGF隱1TNFa0.7169981.3161010.287882根据这些数值和方程1,方程的左侧等于0.5291794,而方程的右侧等于3.232524。根据左侧小于右侧的事实,该对象分类为"对照"。我们分类具有以下loglO转换后标记数值的第二位对象对象2:MCP國1IGF-1TNFa1.9915091.11130310.536339根据这些数值和利用方程1,方程的左侧等于4.461167,而方程的右侧依旧是3.232524。根据该比较,该对象分类为"疾病"。本实施例和以下实施例参考纳入本文作为参考的"TheelementsofStatisticalLearning.DataMining,InferenceandPrediction",Hastie,T.,Tibshirani,R.,Friedman,J.,SpringerSeriesinStatistics,2001)。实施例12:利用对数回归模型分类我们根据以下标记的数值将患者分为"对照"或"疾病"MCP-l、IGF-1和M-CSF。两类取相等的分类误差成本。根据对数回归方法,如果k类^疾病)与K类(]寸照)的后验概率(posteriorprobability)比值的对数大于0,则将上述标记数值为x的新对象归入疾病类,否则其归为对照(方程2)。log!^^W;=A。丄化i为拟合对数回归模型,我们使用的训练组包括398位"对照"和398位"疾病"对象。各对象的三种标记的数值经先转换为loglO值。对数回归拟合提供了以下系数:b0blb2b3-4.950593.334-1.276751.279328分类了所述三种标记具有以下数值的新对象:MCP-1IGF-1M-CSF对象11.6799313.4937811.169145以下计算式b0+bl*、MCP-r+b2*、IGF-l、+b3求、M-CSF'等于-2.031。如上所述,该对象的线性预测符值小于O,分类为"对照"。根据以下数值分类另一位对象MCP國1IGF-1M-CSF对象22.1082521.71490.539566采用相同的系数和公式,线性预测符等于0.5799186,对象2分类为"疾病"。本说明书引用的各出版物出于所有目的全文纳入本文作为参考。除了在本说明书全文中所列的那些出版物,以下出版物也出于所有目的全文纳入本文作为参考TabibiazarR,WagnerRA,DengA,TsaoPS,QuertermousT.Proteomicprofilesofseruminflammatorymarkersaccuratelypredictatherosclerosisinmice.P/戸'o/2006年4月13日;25(2):194-202。79权利要求1.一种将获自哺乳动物的样品分类的方法,包括获得与所述样品相关的数据集,所述数据集包括至少三种选自下组蛋白质标记的定量数据MCP-1、MCP-2、MCP-3、MCP-4、嗜酸细胞活化趋化因子、IP-10、M-CSF、IL-3、TNFa、Ang-2、IL-5、IL-7和IGF-1;将所述数据输入用所述数据分类所述样品的分析方法,其中所述分类选自动脉粥样硬化性心血管疾病分类、健康分类、用药物接触分类、不用药分类;和根据所述方法的输出值分类所述样品。2.如权利要求l所述的方法,其特征在于,所述分析方法使用预测模型。3.如权利要求l所述的方法,其特征在于,所述分析方法包括比较所述获得的数据集与参比数据集。4.如权利要求3所述的方法,其特征在于,所述参比数据集包括获自一位或多位健康对照的数据,或包括获自一位或多位诊断患有动脉粥样硬化性疾病的对象的数据。5.如权利要求3所述的方法,其特征在于,还包括获得所述获得的数据集与所述参比数据集的相似度的统计学指标。6.如权利要求5所述的方法,其特征在于,所述统计学指标通过将所述获得的数据集的至少三个参数与所述参比数据集的相应参数比较得出。7.如权利要求l所述的方法,其特征在于,所述至少三种蛋白质标记包括选自下组的标记组MCP-1,IGF-1,TNFa;MCP-l,IGF-1,M-CSF;ANG陽2,IGF-1,M-CSF;和MCP-4,IGF-1,M-CSF。8.如权利要求l所述的方法,其特征在于,所述数据集包括至少四种选自下组的蛋白质标记的定量数据MCP-1、MCP-2、MCP-3、MCP-4、嗜酸细胞活化趋化因子、IP-IO、M-CSF、IL-3、TNFa、Ang-2、IL-5、IL-7和IGF-1。9.如权利要求8所述的方法,其特征在于,所述至少四种蛋白质标记包括选自下组的标记组MCP-1,IGF-1,TNFa,IL-5;MCP-1,IGF-1,M-CSF,MCP-2;ANG-2,IGF-1,M-CSF,IL-5;MCP隱1,IGF-1,TNFa,MCP-2;和MCP-4,IGF-1,M國CSF,IL-5。10.如权利要求l所述的方法,其特征在于,所述数据集包括至少五种选自下组的标记的定量数据MCP-1、MCP-2、MCP-3、MCP-4、嗜酸细胞活化趋化因子、IP-IO、M-CSF、IL-3、TNFa、Ang-2、IL-5、IL-7和IGF-1。11.如权利要求IO所述的方法,其特征在于,所述至少五种蛋白质标记选自下组MCP-1、IGF國1、TNFa、IL-5、M-CSF;MCP-1、IGF國1、M-CSF、MCP-2、IP-10;ANG-2、IGF-1、M-CSF、IL-5、TNFa;MCP-1、IGF-1、TNFa、MCP-2、IP-10;MCP-4、IGF-1、M隱CSF、IL-5、TNFa;和MCP-4、IGF-1、M陽CSF、IL-5、MCP-2。12.—种分类获自哺乳动物的样品的方法,包括获得与所述样品相关的数据集,其中所述数据集包括至少3种选自下组的蛋白质标记的定量数据MCP1;MCP2;MCP3;MCP4;嗜酸细胞活化趋化因子;IP10;MCSF;IL3;TNFa;Ang2;IL5;IL7;IGF1;IL10;INFy;VEGF;MIPla;RANTES;IL6;IL8;ICAM;TIMP1;CCL19;TCA4/6kine/CCL21;CSF3;TRANCE;IL2;IL4;IL13;Illb;MCP5;CCL9;CXCL1/GR01;GROa;IL12;和瘦蛋白;将所述数据输入用所述数据分类所述样品的预测模型,其中所述分类选自动脉粥样硬化性心血管疾病分类、健康分类、用药分类、不用药分类,其中所述预测模型的至少一项分类质量指标值为至少0.7;和根据所述预测模型的输出值分类所述样品。13.如权利要求12所述的方法,其特征在于,所述预测模型的分类质量指标值为至少0.8。14.如权利要求13所述的方法,其特征在于,所述预测模型的分类质量指标值为至少0.9。15.如权利要求12所述的方法,其特征在于,所述质量指标选自AUC和准确率。16.如权利要求12所述的方法,其特征在于,调整所述预测模型的限度使得灵敏度或特异性至少其一是至少0.7。17.如权利要求14所述的方法,其特征在于,调整所述预测模型的限度使得灵敏度或特异性至少其一是至少0.7。18.如权利要求l所述的方法,其特征在于,所述动脉粥样硬化性疾病分类选自下组冠状动脉疾病、心肌梗塞和心绞痛。19.如权利要求l所述的方法,其特征在于,还包括使用所述分类进行动脉粥样硬化诊断、确定动脉粥样硬化阶段、动脉粥样硬化预后、血管炎症水平、评估动脉粥样硬化发展程度、监测治疗反应、预测冠状动脉钙化度、或区分动脉粥样硬化性疾病的稳定和不稳定表现。20.如权利要求1所述的方法,其特征在于,所述数据集还包括一种或多种临床指标的数据。21.如权利要求20所述的方法,其特征在于,所述一种或多种临床指征选自下组年龄、性别、LDL浓度、HDL浓度、甘油三酯浓度、血压、体重指数、CRP浓度、冠状动脉钙化度、腰围、吸烟情况、心血管疾病病史、心血管疾病家族史、心率、空腹胰岛素浓度、空腹葡萄糖浓度、糖尿病状态和使用高血压药物的情况。22.如权利要求1所述的方法,其特征在于,所述样品包括血液或血液衍生物。23.如权利要求l所述的方法,其特征在于,所述分析方法包括采用线性辨别分析模型、支持向量机分类算法、递归特征排除模型、微阵列模型预测分析、对数回归模型、CART算法、FlexTree算法、LART算法、随机森林算法、MART算法或机械学习算法。24.如权利要求23所述的方法,其特征在于,所述方法包括利用线性辨别分析模型或对数回归模型,所述模型包括提供高于0.75的质量指标的参数项。25.如权利要求l所述的方法,其特征在于,还包括实现对在多个不同时刻获得的对象的多份样品的多种分类。26.—种将获自哺乳动物的样品分类的方法,包括获得与所述样品相关的数据集,其中所述数据集包括至少3种选自下组的蛋白质标记的定量数据,各标记显示循环蛋白质浓度与动脉粥样硬化性血管组织RNA浓度之间的关联;将所述数据输入用所述数据分类所述样品的分析方法,其中所述分类选自动脉粥样硬化性心血管疾病分类、健康分类、用药分类、不用药分类;和根据所述方法的输出值分类所述样品。27.如权利要求26所述的方法,其特征在于,所述关联的特征在于皮尔逊相关系数至少是0.6。28.如权利要求27所述的方法,其特征在于,所述至少三种蛋白质标记包括一种或多种选自下组的蛋白质标记MCP-1、CCL21、CCL19、CCL112、TNFSF11和CCXll。29.如权利要求26所述的方法,其特征在于,所述哺乳动物是人。30.—种将获自哺乳动物的样品分类的方法,包括获得与所述样品相关的数据集,其中所述数据集包括至少3种选自下组的蛋白质标记的定量数据,各标记显示循环蛋白质浓度与动脉粥样硬化性血管组织RNA浓度之间的关联;将所述数据输入用所述数据分类所述样品的预测模型,其中所述分类选自动脉粥样硬化性心血管疾病分类、健康分类、用药分类、不用药分类,其中所述预测模型的至少一项分类质量指标值为至少0.7;和根据所述预测模型的输出值分类所述样品。31.如权利要求30所述的方法,其特征在于,所述关联的特征在于皮尔逊相关系数至少是0.6。32.如权利要求31所述的方法,其特征在于,所述至少三种蛋白质标记包括一种或多种选自下组的蛋白质标记MCP-1、CCL21、CCL19、CCL112、TNFSF11禾卩CCXll。33.如权利要求30所述的方法,其特征在于,所述哺乳动物是人。全文摘要本发明鉴定了在动脉粥样硬化中差异性表达的循环蛋白。这些蛋白质,特别是作为一组蛋白质的循环水平能将急性心肌梗塞患者与稳定的劳累性心绞痛患者及无动脉粥样硬化性心血管病史者区分开来。这些蛋白水平还可预测心血管事件、测定治疗效力、确定病程阶段等。例如,这些标记蛋白可用作开发血管特异性药物制剂所需的替代临床表征的生物标记。文档编号G01N33/48GK101495862SQ200680030864公开日2009年7月29日申请日期2006年6月26日优先权日2005年6月24日发明者B·K·特尔布尔,E·海托普罗斯,P·S·曹,R·A·奥尔森,R·塔比比亚扎,T·科特莫斯申请人:利兰·斯坦福青年大学托管委员会
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1