专利名称:药物标签的利记博彩app
技术领域:
本发明涉及基因组学、化学和药物开发领域。更具体地说,本发明涉及根据化合物体内活性和基因组学效应进行分组和分类的方法和系统,以及预测化合物的体内活性和副作用的方法和系统。
背景技术:
现在已经获得了好几种生物的基因组序列信息,并且这些数据还在不断的增加。但是,已知功能的基因中只有一小部分对应的开放阅读框架得到测序,大多数的多聚核苷酸序列及许多编码蛋白质的功能还是未知的。现在正采用多聚核苷酸阵列技术来研究这些基因,该技术可以定量检测特定条件下测试细胞(或生物)所产生的mRNA。“化学基因组学注解”是测定一个或多个基因接触某特定化学物质后发生的转录和生物试验反应,并根据与其发生作用的化学物质的类别来定义和解释这些基因的方法。综合性化学基因组学注解库可以使我们可能根据假设的具有某种特征的化合物的转录和生物分子学概廓来设计新的药用先导化合物并优化。另外,人们可利用化学基因组学注解来确定基因之间的关系(例如,作为信号通路或蛋白-蛋白相互作用对的成员),帮助确定副作用发生的原因等。最后,为药物设计研究人员提供大量的化学基因组学注解信息可以产生研究假说以促进下一步的实验设计。
已公开了几种基因组学数据库模型。Sabatini等在美国专利US5,966,712中描述了一种数据库及分拣、比较和分析基因组数据的系统。Maslyn等在US5,953,727中描述了一种分栋将基因组数据的相关数据库。Kohler等在US5,523,208中描述了一种数据库和比较多聚核苷酸序列并预测其编码蛋白质功能的方法。Fujiyama等在US5,706,498中描述了一种鉴定具有相似序列的基因的数据库和拯救系统。
Sabry等在WO00/70528中描述了利用细胞信息数据库分析化合物来发现药物的方法。该系统可画出被操作细胞的图像或使细胞接触测试化合物,将所得到的数据转化到数据库中。Sabry进一步描述了“细胞指纹”数据库的构建方法,细胞指纹包含细胞-化合物相互作用的描述符,其中的描述符是已鉴定的数据/表型改变的集合,其特征是可与已知功能的化合物相互作用,从这些描述符中可以构建出系统发生树,进而可确定每个描述符的统计学意义。将一个新化合物的描述符与系统发生树比较就可以确定其最可能的作用方式。
Winslow等在WO00/65523中描述了由一种数据库组成的系统,该数据库包含的生物学信息可用于产生一种数据结构,该结构至少含有一种相关联标志、一个用户界面、一个可从至少一种分层描述中有效产生至少一种数学方程式的方程式产生引擎、以及一个可有效建立模拟亚细胞和细胞行为动力学的数学方程式的计算引擎。该系统可用于存取和制表包含专利或非专利数据库的基因信息,将这些数据与基因产物的生物化学和生物物理作用相关的功能信息结合,然后根据这个信息公式,解决和分析细胞内基因、生化和生物物理过程的计算模型。
Gould-Rothberg等在WO00/63435中描述了一种鉴定药物是否具有肝毒性的方法,该方法是使测试细胞群接触曲格列酮(一种治疗糖尿病的药物,III期临床试验时发现在某些病人中可导致肝损伤),测试细胞群中含有能表达一种或多种反应性核酸序列的细胞,使测试细胞群与检测药物接触,与参考细胞群中该核酸序列的表达相比较。如果测试细胞群中该核酸序列表达的变化比得上参考细胞群中该基团的表达,表明这个药物有肝毒性。Gould-Rothberg等在WO00/37685中描述了一种鉴定精神兴奋剂是否缺乏活性的方法,该方法是通过鉴定大鼠脑纹状体中基因转录活化情况对氟哌啶醇的反应。不能诱导活化这些基因的化合物被认为不会导致副作用。
Thorp在WO99/06839中描述了一种蛋白质数据库用于筛选组合性化学药品库。该数据库涉及靶蛋白和参考蛋白、化合物和检测方法。蛋白质描述符包括分子量、活性、疏水性等,也包括其与aptamer的结合模式。靶蛋白与参考蛋白的相似度可用于衡量该组合库中化合物与最相似的参考蛋白的结合活性。
Friend等在US6,203,987描述了一种通过将基因分成共调节组(“基因组”)进行阵列图形比较的方法。Friend等描述了一种实施方式,其中将对某药物反应获得的表达图形投射到基因组中,然后与其他基因组比较,来确定该药物作用的生物学路径。在另一实施方式中,将候选药物的投射图形与已知药物的图形相比较来鉴定是否可用其来替代现有的药物。
Tamayo等在EP1037158中描述了一种利用自身组织图(Self Organizing Map)来组织基因组数据将基因表达数据分成相似组的方法。这种方法可用于鉴定药物的靶标,该方法是鉴定细胞接触某给定化合物后,哪个基因从表达组中被消除。
Tryon等在WO01/25473中描述了一种构建对药物反应中基因表达模式的方法。在该方法中,根据诸基因与药物预计的相互作用或检测条件选择一些基因,并测定加入药物时这些基因在细胞培养物中的表达情况。
发明概述本发明的一个方面涉及为许多具有相关活性的化合物建立分组标签(GroupSignatwure)的方法,所述方法包括a)提供多个表达数据组,每个表达数据组包含受检细胞接触某化合物后第一组基因的表达反应,其中所述多个表达数据组包含具有相似或相同生物活性的每群测试化合物所产生的表达数据组和缺乏该测试化合物生物活性的每群对照化合物所产生的表达数据组;b)产生一个区别性衡量标准,根据基因表达情况其有将测试化合物与对照化合物相区别从而获得一个区别性基因组;以及c)从所述的区别性基因组中选择第二组基因,为所述测试化合物提供分组标签。
本发明的另外一个方面涉及为多个具有相关活性的化合物建立分组标签的方法,所述方法包括a)提供多个具有相似或相同生物活性的测试化合物,和多个缺乏该测试化合物生物活性的对照化合物;b)使每个化合物与受检细胞接触;c)检测第一组基因在每个受检细胞内的表达反应,以获得每个化合物的表达数据组;d)通过主要要成分分(Principal Component Aualysis)给这些表达数据组排序以提供多个主要成分;e)鉴定能将测试化合物群与对照化合物群最大程度相区别的主要成分,以提供检测主要成分;f)鉴定能将检测主要成分与对照化合物最大程度相区别的基因,以提供一个区别性基因组;以及g)从所述区别性基因组中选择第二群基,因为所述的测试化合物群提供分组标签。
本发明的另外一个方面涉及建立能将所选择的药物化合物的活性与多个具有相关活性的化合物相区别的药物标签的方法,所述方法包括a)提供多个表达数据组,每个表达数据组包含受检细胞接触某化合物后多个基因的表达反应,其中所述的多个表达数据组包含所述的所选择的药物化合物所产生的表达数据组和每群具有相似或相同生物学活性的测试化合物所产生的表达数据组;b)产生一个别性衡量标准,根据基因表达情况其能将所选择的药物化合物与这群测试化合物相区别从而提供一个区别性基因组;以及c)从所述区别性基因组中选择多个基因,为所述的所选择的药物化合物提供药物标签。
本发明的另外一个方面涉及建立能将所选择的药物化合物的活性与多个具有相关活性的化合物相区别的药物标签的方法,所述方法包括a)提供所述的所选择的药物化合物和多个具有相似或相同主要生物活性的测试化合物;b)使每个化合物与受检细胞接触;c)检测第一群基因在每个要检细胞内表达反应,以获得每个化合物的表达数据组;d)通过主要成分分析给这些表达数据组排序,以提供多个主要成分;e)鉴定能将所选择的药物化合物与所述的这群测试化合物最大程度相区别的主要成分,以提供区别性主要成分;f)鉴定对该区别性主要成分贡献程度最大的基因,从而提供一个区别性基因组;以及g)从所述区别性性基因组中选择第二群基因,为所述的所选择的药物化合物提供药物标签。
本发明的另外一个方面涉及分组标签数据库,该数据库包含多个分组标签记录,其中每个分组标签记录含有至少一种化合物的标记,其中一组内的所有化合物都具有相似或相同的主要生物活性;一组基因的标记,其中所述基因的表达受与之接触的某化合物的调节,该化合物的主要生物学活性与该组记录中所示某的化合物的主要生物学活性相似或相同,以及其中所述基因组可以将所述组与所述的分组标签数据库中的其他所有组相区别。本发明还有一个方面涉及包含应激记录的分组标签数据库,其中每个应激记录包含应激的标记。以及一组基因的标记,其中所述的基因的表达受所述应激的调节,其中所述基因组可以将所述应激与所述分组标签数据库中的其他所有的应激和组相区别。
本发明的另外一个方面涉及药物标签数据库,该数据库包含多个药物标签记录,其中每个药物标签记录含有一种化合物的标记;一组基因的标记,其中所述基因的表达受接触所述化合物的调节,以及其中所述的基因组可以将所述化合物与所述的药物标签数据库中的其他所有化合物相区别。
本发明的另外一个方面涉及测定候选药物活性的方法,所述方法包括a)提供一个分组标签数据库,所述的分组标签数据库含有多个分组标签记录,其中每个分组标签记录含有至少一个化合物的标记,其中一组内的所有化合物都具有相似或相同的主要生物活性;以及一组基因的标记,其中所述基因的表达受接触某化合物的调节,该化合物的主要生物学活性与该分组记录中所示某的化合物的主要生物学活性相似或相同,以及其中所述的基因组能将所述组与所述的分组标签数据库中的其他所有组相区别来;b)为所述的候选药物提供一个候选药物表达数据组,所述候选药物表达数据组包含受检细胞接触所述候选药物后多个基因的表达反应;c)将所述候选药物的表达数据组与每个分组标签进行比较;d)选择与所述候选药物表达数据组最相似的分组标签;e)鉴定该候选药物的活性是否是最相似分组标签内某化合物所显示的主要生物学活性。
本发明的另外一个方面是设计分组标签试剂的方法,该方法包括a)提供一群表达数据组,每个表达数据组包含受检细胞接触某化合物后第一群基因的表达反应,其中所述的这群表达数据组包含每群具有相似或相同生物活性的测试化合物所产生的表达数据组和缺乏该测试化合物生物活性的每群对照化合物所产生的表达数据组;b)产生一个区别性衡量标准,根据基因表达情况其能将这群测试化合物与对照化合物相区别从而提供一个区别性基因组;以及c)从所述区别性基因组中选择第二群基因为所述测试化合物群提供分组标签;以及d)提供一组能与所述分组标记内所述第二组基因的一个或多个序列特异性杂交的多聚核苷酸探针,以提供一分组标签探针组。本发明还包括通过上述方法设计的探针组以及含这种探针组的试剂盒。
本发明的另外一个方面是设计药物标签试剂的方法,该方法包括a)提供多个表达数据组,每个表达数据组包含受检细胞接触某化合物后多个基因的表达反应,其中所述的这群表达数据组包含所述的所选择的药物化合物所产生的表达数据组和每群具有相似或相同生物学活性的测试化合物所产生的表达数据组;b)产生一个区别性衡量标准,根据基因表达情况其能将这群测试化合物与对照化合物相区别,从而获得一个区别性基因组;c)从所述区别性基因组中选择多个基因,为所述的所选择的药物化合物提供药物标签。以及d)提供一组能与所述药物标签内所述基因序列特异性杂交的多聚核苷酸探针,以形成一个药物标签探针组。本发明还包括通过上述方法设计的探针组以及含这种探针组的试剂盒。
本发明的另外一个方面涉及测定候选药物活性的方法,所述方法包括a)提供一个分组标签阵列,所述分组标签阵列含有其上有多个分组标签探针组的固相支持物,其中每个分组标签探针组含有一组能与每个分组标签中的基因序列特异性杂交的多聚核苷酸探针,其中所述分组标签通过如下过程得到i)提供多个表达数据组,每个表达数据组包含受检细胞接触某化合物后多个基因的表达反应,其中所述的多个表达数据组包含具有相似或相同生物活性的各群测试化合物所产生的表达数据组和缺乏该测试化合物生物活性的一群对照化合物所产生的表达数据组;ii)产生一个区别性衡量标准,根据基因表达情况其能将这群测试化合物与对照化合物相区别,从而提供一个区别性基因组;以及iii)从所述区别性基因组中选择多个基因,为所述测试化合物群提供分组标签;iv)对每一分组标签重复进行步骤i)-iii);b)使受检细胞与所述候选药物接触;c)提取所述受检验细胞的mRNA;d)将所述的mRNA逆转录成cDNA;e)使所述分组标签阵列与所述的cDNA接触;以及f)测定是否有任何分组标签探针组显示与cDNA的结合增强。本发明还包括将该方法应用于化合物库并筛选候选药物,其中该分组标签探针组由于受检细胞与所述候选药物接触而显示与cDNA的结合增强。
本发明的另外一个方面涉及检测贝特样物质(fibrate-like)活性的多聚核苷酸探针组,该探针组包含多个能与以下基因特异性杂交的多聚核苷酸,所述基因选自大鼠细胞色素P452、大鼠细胞色素P450、大鼠细胞色素P450-LA-Ω(月桂酸Ω羟化酶)、大鼠磺基转移酶K2、大鼠细胞色素P450-LA-Ω(月桂酸Ω羟化酶)、编码细胞色素P450的大鼠Cyp4a基因座(IVA3)、大鼠细胞色素P450、大鼠线粒体3-2-反式-烯醇基-辅酶A异构酶、大鼠肉毒碱辛酰基转移酶、Wistar大鼠过氧化氢酶体烯醇基水合酶样蛋白(PXEL)、大鼠线粒体三功能蛋白质的长链3-酮酰基-辅酶A硫解酶β亚单位、大鼠肝脂肪酸结合蛋白(FABP)、大鼠丙酮酸脱氢酶激酶的同工酶4(PDK4)、大鼠细胞色素B5的线粒体内异构体、假设的蛋白质Rv3224、大鼠过氧化氢酶体烯醇基-辅酶A水解酶-3-羟酰基-辅酶A双功能酶、大鼠过氧化氢酶体膜蛋白Pmp26p(过氧化物酶体生成蛋白-11)、大鼠酰基辅酶A水解酶、大鼠酰基辅酶A氧化酶、大鼠酰基辅酶A水解酶、大鼠2,4-二烯醇基-辅酶A还原酶前体、大鼠线粒体3-羟基-3-甲基戊二酰基-辅酶A合酶、大鼠过氧化氢酶体烯醇基-辅酶A水解酶-3-羟酰基-辅酶A双功能酶、以及小鼠过氧化氢酶体长链乙酰辅酶A硫酯酶Ib(Ptelb)。
本发明的另一个方面涉及检测吉非贝齐样活性的多聚核苷酸探针组,该探针组包含多个能与以下基因特异性杂交的多聚核苷酸,所述基因选自大鼠脂肪酸合酶、大鼠胆固醇7α羟化酶、小鼠乙酰辅酶A合成酶、小鼠管蛋白-1、大鼠肾特异性蛋白质(KS)、大鼠2,3-氧化角鲨烯羊毛固醇环化酶、大鼠醛脱氢酶、以及大鼠胸腺素β-10。
本发明的另外一个方面涉及筛选具有贝特类物质(fibrate)活性的候选药物的方法,该方法包括a)使受检细胞与候选药物接触;b)提取所述受检细胞的mRNA;c)将所述mRNA逆转录成cDNA;d)使所述cDNA与贝特类物质标签探针组杂交,所述的探针组包含多个能与贝特类物质标签基因特异性杂交的多聚核苷酸,其中所述贝特类物质标签基因选自大鼠细胞色素P452、大鼠细胞色素P450、大鼠细胞色素P450-LA-Ω(月桂酸Ω羟化酶)、大鼠磺基转移酶K2、大鼠细胞色素P450-LA-Ω(月桂酸Ω羟化酶)、编码细胞色素P450的大鼠Cyp4a基因座(IVA3)、大鼠细胞色素P450、大鼠线粒体3-2-反式-烯醇基-辅酶A异构酶、大鼠肉毒碱辛酰基转移酶、Wistar大鼠过氧化氢酶体烯醇基水合酶样蛋白(PXEL)、大鼠线粒体三功能蛋白质的长链3-酮酰基-辅酶A硫解酶β亚单位、大鼠肝脂肪酸结合蛋白(FABP)、大鼠丙酮酸脱氢酶激酶的同工酶4(PDK4)、大鼠细胞色素B5的线粒体内异构体、假设的蛋白质Rv3224、大鼠过氧化氢酶体烯醇基-辅酶A水解酶-3-羟酰基-辅酶A双功能酶、大鼠过氧化氢酶体膜蛋白Pmp26p(过氧化物酶体生成蛋白-11)、大鼠酰基辅酶A水解酶、大鼠酰基辅酶A氧化酶、大鼠酰基辅酶A水解酶、大鼠2,4-二烯醇基-辅酶A还原酶前体、大鼠线粒体3-羟基-3-甲基戊二酰基-辅酶A合酶、大鼠过氧化氢酶体烯醇基-辅酶A水解酶-3-羟酰基-辅酶A双功能酶、和小鼠过氧化氢酶体长链乙酰辅酶A硫酯酶Ib(Ptelb);以及e)测定所述受检细胞是否显示贝特类物质标签基因的表达升高。
本发明的另外一个方面涉及一种数据库产品,其包括计算机可读取介质,所述介质可存储分组标签数据库,所述数据库包含多个分组标签记录,其中每个分组标签记录含有至少一种化合物的标记,其中一组内的所有化合物都显示有相似或相同的主要生物活性;以及一组基因的标记,其中所述的基因的表达受接触某化合物的调节,该化合物的主要生物学活性与该分组记录中所示某化合物的主要生物学活性相似或相同,以及其中所述基因组能将所述组与所述分组标签数据库中的其他所有组相区别。
附图的简要说明
图1是主要成分分析输出的一个投影图,显示贝特类化合物沿着PCA1的分组,沿着PCA1分裂为雄性和雌性受试者,可与沿着PCA3的辛基苯酚相区别。图1A和图1B是同一数据的旋转视图。
图2是说明非诺贝特(力平脂)药物标签特异性的图。此药物标签依据四组非诺贝特实验和四组对照/载体实验结果的比较,然后将其用于其他677个实验的分类。分类是根据相似度评分S=∏xRelRkx。将分类表作成图,给每个非诺贝特实验赋值为1.0,非诺贝特外的每个贝特赋值为0.5,每个非贝特对照赋值为0。此图显示这个最小的非诺贝特药物标签可以正确地将大多数非诺贝特实验分类于此表的顶部,将大多数贝特实验分类于靠近此表的顶部位置(尽管比非诺贝特实验低),将所有的对照实验置于非诺贝特试验之下(以及大多数氯贝特实验之下)。
图3以图表形式提供了七种核受体激动剂的生物试验结果(z轴从前到后分别是雌二醇、双酚丙烷、氯贝特、双(2-乙基-己基)苯二甲酸盐(DEHP)、非诺贝特、吉非贝齐和辛基苯酚)。生物试验选自一套123个试验来检测所选择的任一化合物是否显示活性26个所选择的生物试验(x轴)是乙酰胆碱酯酶(a);腺苷A2A(b);腺苷A3(c);肾上腺素能α1D(d);肾上腺素能α2B(e);肾上腺素能α2C(f);肾上腺素能B3(g);去甲肾上腺素转运子(h);L型钙通道(i);环氧化酶COX-2(j);多巴胺转运子(k);雌激素受体(l);糖皮质激素受体(m);脂氧化酶15-LO(n);毒蕈碱受体M1(o);毒蕈碱受体M2(p);毒蕈碱受体M3(q);S/T激酶p38α(r);Y激酶EGF受体(s);5-羟色胺5-HT2A(t);5-羟色胺5-HT2C(u);5-羟色胺转运子(v);钠通道位点-2(w);速激肽NK2(x);睾丸酮受体(y);血栓素合成酶(z)。活性以1/IC50表示(y轴),把所有值<50%抑制贮存为零。
发明详述定义术语“测试化合物”通常指接触受检细胞的化合物,期望从中收集关于该化合物的数据。典型的测试化合物是小的有机分子,通常是药物和/或预期的药物先导化合物,可包括蛋白质、肽、多聚核苷酸、异源基因(在表达系统内)、质粒、多聚核苷酸类似物、肽类似物、脂质、碳水化合物、病毒、噬菌体、寄生虫等。
术语“对照化合物”指与测试化合物无任何相同的已知生物活性的化合物,在实施本发明产生分组标签和药物标签时用于对比“有活性的”(测试)和“无活性的”(对照)化合物。典型的对照化合物包括但不限于用于治疗与测试化合物适应症不相同的疾病的药物、载体、已知的毒素、已知的惰性化合物等。
本文所用的术语“生物活性”指测试化合物影响生物系统的能力,例如调节酶的作用、阻断受体、刺激受体、改变一个或多个基因的表达等。当测试化合物对生物体体内或对体外细胞或蛋白质具有相似的或相同的作用时称这些化合物具有相似或相同的生物活性。例如,非诺贝特、氯贝特和吉非诺齐具有相似的生物活性是因为它们三者都是治疗高脂血症的处方药。同样,阿司匹林、布洛芬和萘普生具有相似的活性因为它们三者都是已知的非甾体类抗炎化合物。术语“主要生物活性”和“主要生物学活性”指化合物最明显的或最期望的效应。例如,ACE抑制剂的主要生物活性是抑制血管紧张素转换酶(以及伴随的降血压作用),不管它还有什么次级生物活性或副作用。
术语“受检细胞”指能与测试化合物反应的生物细胞或生物系统模型,一般指活的动物、真核细胞或组织样品、或者原核生物。
术语“表达反应”指在对给予的测试化合物或对照化合物(或其他测试或对照条件)反应时某基因表达水平的改变。表达水平可以直接测定,例如利用蛋白质组技术定量检测该基因所编码的蛋白质的量。各种检测蛋白水平的方法都可以采用,包括但不限于Western印染和ELISA。表达水平也可以通过测定mRNA转录的变化或其他任何定量测定基因活性的方法来检测。权衡或评分表达反应需要将数据标准化,可以报告为表达(或转录)水平的绝对增加或降低、相对变化(例如变化百分率)、在阈值水平以上的变化程度等。
本文所用的术语“表达数据组”是指能说明给予测试化合物或对照化合物后受影响基因的身份的数据以及所导致表达改变的数据。表达数据组一般包含一组基因,优选在表达反应中显示最大改变的基因亚组。
术语“区别性衡量”指能对测试化合物反应所产生的表达数据与对对照化合物反应所产生的表达数据相区别的方法或算法。该方法可以是根据PCA输出的基因特征值选择基因(选择主要成分轴将测试化合物与对照化合物区分开),也可以包括数学分析以确定哪个基因或基因组合能最佳地区分测试化合物和对照化合物,例如采用Golub差别标准、Student t-检验等。
术语“PCA”和“主要成分分析”指将许多相关的变量转化为被称为主要成分的许多不相关的(独立的)变量的数学方法。第一主要成分占据了该数据中尽可能多的变化,后续成分占据尽可能多的剩余变化。本文所用的“PCA”还包括主要成分分析的变体,如核心PCA等。
本文所用的术语“分组标签”指包含一分组标识符和一个或多个基因标识符的数据结构。分组标识符指一族具有相似活性的化合物(如贝特类物质),或直接指其活性(如PPARα抑制)。常用它来简单地代表一组的“名称”。分组标识符还可以指已知属于该组的化合物的身份。基因标识符指接触属于该组的基化合物时那个基因的表达速率受到调节(上调或下调),这是该组的特征或其特点,这些基因表达的变化作为标签足以鉴别所给予的化合物是否属于该组(而不是属于其他组,或者完全缺乏已知的活性)。基因标识符可通过序列名称、参考检索编号、参考DNA阵列中的克隆或位置等来鉴定基因。基因标识符从绝对成相对含义上说还可以包括基因表达变化的方向和程度。例如,基因标识符可以包括表达下降至少10%或表达上升100%到500%之间这样的要求,还可以包括时间限制例如,分组标签要求基因“X”在给药后8小时内、或者在不少于4小时但不超过16小时内表达上调至少250%等。尽管分组标签内可以包含任何数目的基因,但是一般都包括50个以上的具有不同程度特异性的基因标识符,其中可以派生出不同特异性的亚组。优选分组标签由不超过50个基因组成,更优选的是不超过25个基因。另外,分组标签优选至少含有3个基因,更优选的至少5个基因、10个基因,最优选的至少15个基因。在某些情况下,分组标签可能含有3个基因或更少。例如,一个组中最特异的标签可含有20个基因标识符这个标签可含有通过删除一个或多个基因标识符而派生的多个具有相似(或较低)特异性的亚标签。分组标签还可以包含生物试验数据,例如,对于一组标准试验观察到的该组内化合物的生物活性。生物试验数据可用于在基因组实验前鉴定一个组内的潜在化合物,特别是当有许多候选药物需要筛选时。生物活性数据在鉴别结构不相关但能诱导相似的基因组表达模式的两个化合物时特别有用。数据结构可以物理储存或电子储存,例如储存在计算机可读介质的数据库内。另外,数据结构可以全部或部分包括在阵列内,例如多聚核苷酸探针阵列,其含有分开的各个分组标签的特异性探针区域。
术语“分组标签数据库”指含有多个分组标签的数据的集合。存在许多格式用于储存数据组,同时与相关的特性相联系,格式包括而不限于图表、相关性和维度。图表格式是最熟悉的,例如表格程序如Microsoft Excelh和Corel Quattro Pro表格程序。在这种格式中,数据点与其相关特征的联系是通过将数据点与其相关特征输入独特行体现的。关系数据库一般支持关系代数学定义的一组运算指令。这种数据库通常包括库内由数据拦和行组成的表。数据库中的每张表都有一个主要钥匙(key),它可以是任何一栏或一组栏,其值可以特异地标识表中的行。关系数据库中的表也可以包括外来的钥匙,可以是一栏或一组栏,其值与另一张表中的主要钥匙值相匹配。一般来说,关系数据库支持一系列运算指令(例如,选择、联合、合并),这些运算指令形成了关系代数学的基础,控制着该数据库内的关系。适宜的关系数据库包括但不限于Oracle(Oracle Inc.,Redwood Shores,CA)和Sybase(SybaseSystems,Emeryville,CA)数据库。
本文所用的术语“药物标签”指与分组标签相似的数据结构,但对某一个化合物(或多个基本上相同的化合物,如同一化合物的盐或酯)是特异性的。所选择的药物标签的基因标识符可将所选择的化合物与具有与其相似活性的其他化合物区分开,药物标签能区分分组标签内的成员,也可以将药物化合物与不相关化合物区分开。
术语“基因表达图形”代表了多个基因在所选择的表达条件下的表达水平(例如,在标准化合物或测试化合物存在的条件下孵育)。基因表达图形可用每个基因转录的mRNA的绝对量、或受检细胞与对照细胞内转录的mRNA的比率来表示。如本文所述,“标准的”基因表达模式指已经存在于基本数据库中的模式(例如,爱检细胞与标准化合物如已知活性的药物一起培育所得到的图形),而“测试”基因表达图形指在试验条件下产生的图形。术语“受调节的”指与预先设定的标准相比,表达水平的改变(诱导或抑制)达到了可测量或可检测程度(例如,在所选择的条件下在特定时期所选择的组织或细胞的表达水平)。
本文所用的术语“相关信息”指与一组结果相关的信息。例如,某图形结果的相关信息包含一系列相似的图形(此图形中多个相同的基因被调节到相似的程度,或者相关的基因被调节到相似的程度)、可产生相似图形的化合物列表、在所述图形中发生改变的基因的列表、有多个相同基因以相同模式改变的疾病的列表等。基于化合物查询的相关信息可包含具有相似物理和化学特性的化合物、具有相似形状的化合物、具有相似生物活性的化合物、能产生相似表达阵列图形的化合物等的列表。基于基因或蛋白质查询的相关信息可包含具有相似序列的基因或蛋白质(在核苷酸或氨基酸水平上)、具有相似的已知功能或活性的基因或蛋白质、受相同化合物调节或控制的基因或蛋白质、属于同一代谢或信号通路的基因或蛋白质等的列表。一般来说,提供相关信息可以帮助用户在不同组数据之间绘出平行线、可以使用户产生关于基因和/或蛋白功能、化合物用途的新假说等。产物的相关信息可以帮助用户定位产物,使用户有检测这种假说以及促使用户购买。
本文所用的“相似的”指两个量之间差异的程度位于预先选定的阈值之内。例如,如果两个基因显示的序列相同性超过给定的阈值,如20%,则可认为这两个基因是“相似的”。许多评价多聚核苷酸序列相似程度的方法和系统都是公众可获得的,例如BLAST、FASTA等。参见上述Maslyn等和Fujimiya等,本文已纳入作为参考。两种图形的相似性可用许多不同的方式确定,例如,以受影响的相似基因的数目、每个基因受影响的程度等来确定。有几种衡量相似性的方法或者给相似性评分的方法用户可得到例如,一种测量相似性的方法要考虑每一个被诱导(或被抑制)超过阈值水平的基因,增加两种图形都显示基因被诱导(或抑制)的每个基因的评分,。我们可以利用相似性评分,该评分考虑了每个基因在该实验图形中相对于该数据组中其他所有实验所达到调节水平。对于一个给定的基因来说,可以将其在该实验图形中的调节水平排在相对于其他图形所处的等级(RkX)。相对等级(RelRkx=Rkx/n,n=图形的数目)是该等级除以图形总数。因此相似性评分可定义为该图形中所有基因这些相对等级的产物,或S=∏xRelRkx。S的值小,反映实验图形在多个基因上与参比图形相匹配,其中每个基因调节的幅度大。测试图形与标签之间的相似性可用各种衡量测定,优选的标准确定为S=∏xRelRkx。相似性评分也称为“特异性评分”因为它衡量了实验与参比图形相匹配的程度数据组中其余部分是多么罕见。其他的统计学方法也可以使用。
本文所用的术语“超级链接”指所展示的图像或文本的特征,相对于现已展示的,例如通过点击超级链接而活化时产生的信息来说提供了额外附加的和/或相关的信息。HTML HREF是在本发明范围内超级链接的一个例子。例如,当用户查询本发明的数据库时得到了一输出的基因列表,这些基因大多数爱到所选择的化合物诱导或抑制,可将输出表中所列出的一个或多个基因可与相关信息超级链接。例如,相关信息可以是有关该基因的额外信息,如以同样方式诱导该基因的化合物列表、具有已知相关功能的基因列表、测定该基因产物活性的生物试验列表、关于该相关信息的产物信息等。
本文所用的术语“多聚核苷酸”、“寡核苷酸”、“核酸”和“核酸分子”包括任何长度核苷酸的多聚形式,可以是核糖核苷酸,也可以是脱氧核糖核苷酸。此术语仅指分子的一级结构。因此,该术语包括三链、双链和单链DNA以及三链、双链和单链RNA。也包括各种修饰的,如甲基化和/或加帽以及未修饰形式的多聚核苷酸。更具体说,术语“多聚核苷酸”、“寡核苷酸”、“核酸”和“核酸分子”包括多聚脱氧核糖核苷酸(含2-脱氧-D-核糖)、多聚核糖核苷酸(含D-核糖)、含有嘌呤或嘧啶碱基的N-糖苷或C-糖苷的任何类型的多聚核苷酸,以及其他含非核苷酸骨架的多聚物如聚酰胺(即肽核酸(PNAs))、Polymorpholino(可从Anti-Virals,Inc.,Corvallis,Oregon购买,商品名为Neugene)多聚物、以及其他合成的序列特异性的核酸多聚物,只要该多聚物的结构中含有能使碱基配对和碱基堆积的核酸碱基,如在DNA和RNA中所见到的。
本文所用的术语“探针”或“寡核苷酸探针”指由上述多聚核苷酸组成的结构,其含有能与靶核酸分析物中的核酸序列杂交的核酸序列。探针的多聚核苷酸区可以由DNA、和/或RNA、和/或合成的核苷酸类似物组成。利用寡核苷酸合成仪可以人工合成数十到数百个碱基长度的探针,探针也可衍生自各种类型的DNA克隆。探针可以是单链也可以是双链。探针可用于特定基因序列或片段的检测、鉴定和分离。考虑本发明的探针可用报告分子标记,这样便于用检测系统如ELISA、EMIT、酶组化试验、荧光、放射活性、化学发光、自旋标记等检测。关键点在于探针必须含有与待检测靶序列至少部分互补的核酸链,以及探针必须被标记,这样才能显示其存在。
术语“杂交”指核苷酸序列之间复合物的形成,这些序列足够互补能通过Watson-Crick碱基配对形成复合物。应知道杂交序列不需要完全互补就能形成稳定的杂合子。而且,两个寡核苷酸之间杂交的能力依赖于实验条件。例如,温度和/或盐浓度会影响杂交双链体保持完整所需要的互补碱基对匹配的百分率。有利于杂交的条件其“严谨性”要比需要更高程度序列互补性才能维持稳定双链体的条件要低。在许多情况下,当不到10%的碱基错配不论4个或多个核苷酸组成的环时将形成稳定的杂交体。相应的,本文所用的术语“能杂交”指寡核苷酸在适当的试验条件下,一般具有约90%或更高同源性时,能与其“互补链”形成稳定的双链。
术语“阵列”、“多聚核苷酸阵列”、“微阵列”和“探针阵列”都是指附着或沉淀于某表面的能与某给定序列多聚核苷酸特异性结合的分子。一般来说,该分子是具有与待检测多聚核苷酸序列互补并能与之杂交的多聚核苷酸。
通用方法本发明的方法利用于化学基因组表达数据和生物试验数据以特征鉴定和预测化合物的生物学活性。本发明方法提供了一种意义深远的将表达数据分类归并,从基因组表达实验得到的数据海中提取相关信息的方法。
本发明的基础是利用实验条件下所收集的,优选与化合物或生物活性物质接触时收集的化学基因组表达数据。适合的化合物包括已知的药物、已知或怀疑的毒素和污染物、蛋白质、染料和香料、营养素、草药制品、环境样品等。其他要检验的有用实验条件包括感染因子如病毒、细菌、真菌、寄生虫等,环境应激如饥饿、缺氧、温度等。本发明优选同时分析多种化合物和/或实验条件,尤其是多种化合物和/或与活性或治疗作用相关的条件。可将这些实验条件用于含基因组的细胞,优选哺乳动物细胞。可在体内或体外检测真核细胞。适合的真核细胞包括但不限于人、大鼠、小鼠、牛、绵羊、犬、猫、鸡、猪、山羊等的细胞。本发明优选检测的哺乳动物细胞来源于不同组织类型,如肝、肾、骨髓、脾等。优选使受检细胞接触多种实验条件,如某化合物的多种不同浓度并在多个时间点检测。
化学基因组反应可通过各种现有方法得到,例如,通过采用一组报告细胞,每组细胞含有与不同所的所选调节区操作性相连的一个报告基因。或者,可采用不含报告基因的原代组织分离物、细胞或细胞系,可直接测定多个基因的表达情况。
直接检测方法包括mRNA与寡核苷酸或更长的DNA片段如cDNA或克隆的基因组DNA片段(溶于溶液中或结合于固相支持物上)直接杂交、反转录然后检测所得到的cDNA、作Northern印迹分析等。
本文用于测定表达水平的引物和探针衍生自基因序列,不难用标准方法合成,如通过磷酰胺化学试剂作固相合成,见美国专利4,458,066和4,415,732的描述,本文已纳入作为参考;Beaucage等,(1992)Tetrahedron 482223-2311;以及AppliedBiosystems User Bulletin 13(1 April 1987)。其他的化学合成方法包括Narang等,Meth.Enzymol.(1979)6890描述的磷酸三酯法和Brown等,Meth.Enzymol.(1979)68109描述的磷酸二酯法。利用同样的这些方法可将poly(A)或poly(C)或其他非互补的核苷酸延伸物掺入到探针中。六乙烯氧化延伸物也可用本领域熟知的方法结合到探针上。Cload等,(1991)J.Am.Chem.Soc.1136324-6326;Levenson等的美国专利4,914,210;Durand等,(1990)Nucleic Acids Res.186353-6359以及Horn等,(1986)Tet.Lett.274705-4708。
虽然引物和探针的长度可以不同,但所选择的探针序列应具有比引物序列低的解链温度。因此,引物序列一般要比探针序列长。一般来说,引物序列的长度范围在10-75个核苷酸之间,更常用在20-45个核苷酸之间。典型的探针长度范围在10-50个核苷酸之间,例如15-40、18-30以及此范围内的任意长度。
如果采用固相支持物,可用各种方式使寡核苷酸探针结合于该固相支持物上。例如,探针可以通过其3’或5’末端核苷酸结合于固相支持物上。更优选探针通过一接头结合于固相支持物上,此接头可以使探针离开固相支持物。接头一般至少长15-30个原子,更优选至少长15-50个原子。所需接头的长度取决于所用的具体固相支持物,例如,当采用高度交联的聚苯乙烯作为固相支持物时一般6个原子的接头就足够了。
本领域已知有多种接头可用于将寡核苷酸探针连接到固相支持物上。接头可以由任何会不显著干扰靶序列与固相支持物上结合的探针杂交的化合物组成。接头可以由寡核苷酸同聚物组成,同聚寡核苷酸不难通过自动化合成添加到接头上。另外,多聚物如功能化的聚乙二醇也可用作接头。这种多聚物要优于寡核苷酸同聚物,因为它们不会明显干扰探针与靶核苷酸的杂交。聚乙二醇是特别优选的。
固相支持物、接头和探针之间的连接键在高温碱性条件下去除碱基保护基团时最好不会被裂解。优选的接头例子包括氨基甲酰和酰胺连接键。固定寡核苷酸探针的优选类型固相支持物包括可控孔径玻璃、玻片、聚苯乙烯、亲和素包被的聚苯乙烯小珠、纤维素、尼龙、丙烯酰胺凝胶和活化的葡聚糖。
另外,探针也可以与标记物连接以便于检测。本文所用的术语“标记物”和“可检测的标记物”指能被检测的分子,包括但不限于放射性同位素、荧光物质、化学发光物质、生色团、酶、酶的底物、酶的辅助因子、酶的抑制剂、生色团、染料、金属离子、金属盐、配基(如生物素、亲和素、链霉亲和素或半抗原)等。术语“荧光物质”指能发出可检测范围内的荧光的物质或其一部分。已知有几种方法可用于制备具有活化功能基团的寡核苷酸以允许添加标记物。例如,已有几种方法可将探针生物素化,这样就可以通过亲和素将放射性、荧光、化学发光、酶催化性的或电子致密的标记物连接到探针上。见Broken等,Nucl.Acids Res.(1978)5363-384,其中描述了利用铁蛋白-亲和素-生物素标记物的方法;以及Chollet等,Nucl.AcidsRes.(1985)131529-1541,其中描述了通过氨基烷基磷酰胺连接臂将寡核苷酸的5’末端生物素化的方法。还有几种方法可用于合成氨基化的寡核苷酸,这种寡核苷酸很容易用荧光物质或其他类型的氨基反应性基团衍生的化合物如异硫氰酸盐、N-羟基琥珀酰亚胺等标记。见Connolly(1987)Nucl.Acids Res.153131-3139,Gibson等,(1987)Nucl.Acids Res.156455-6467和Miyoshi等的美国专利4,605,735。还有一些方法可以合成巯基衍生的寡核苷酸,这种寡核苷酸可与巯醇特异性标记物反应,见Fung等的美国专利4,757,141,Connolly等,(1985)Nucl.Acids Res.134485-4502和Spoat等,(1987)Nucl.Acids Res.154837-4848。标记DNA片段方法学的全面综述见Matthews等,Anal.Biochem.(1988)1691-25。
探针可以通过将一个荧光分子连接到该探针的非连接末端而进行荧光标记。选择合适的荧光标记物的方法见Smith等,Meth.Enzymol.(1987)155260-301;Karger等,Nucl.Acids Res.(1991)194955-4962;Haugland(1989)Handbook ofFluorescent Probes and Research Chemicals(Molecular Probes,Inc.,Eugene,OR)的描述。优选的荧光标记物包括荧光素及其衍生物,如美国专利4,318,846和Lee等,Cytometry(1989)10151-164,所描述的,以及6-FAM、JOE、TAMRA、ROX、HEX-1、HEX-2、ZOE、TET-1或NAN-2等。
另外,探针也可以利用下面所描述的技术用吖啶酯(AE)来标记。现有的技术允许将AE标记物置于探针内的任何位置。见Nelson等,(1995)“非同位素探针标记、杂交及测序时通过化学发光检测吖啶酯”(″Detection of Acridinium Esters byChemiluminescence″in Nonisotopic Probing,Blotting and Sequencing,)KrickaL.J.(ed)Academic Press,San Diego,CA;Nelson等,(1994),“多聚酶链式反应中杂交保护试验在PCR中的应用”(″Application of the HybridizationProtection Assay(HPA)to PCR″in The Polymerase Chain Reaction),Mullis等(编)Birkhauser,Boston,MA;Weeks等,Clin.Chem.(1983)291474-1479;Berry等,Clin.Chem.(1988)342087-2090。AE分子可用非核苷酸接头臂直接连接到探针上,可将标记物置于探针内的任何位置。见美国专利5,585,481和5,185,439。
目前优选的检测基因组反应的方法是利用核苷酸阵列,例如GeneChip探针阵列(Affymetrix Inc.,Santa Clara,CA),CodeLinkTMBioarray(Motorola Life SciencesNorthbrook,IL)等。检测组织或细胞样品的多聚核苷酸探针的长度最好足以只和适当的互补基因或转录物特异性杂交。
一般来说,本方法所用的多聚核苷酸探针的长度至少10、12、14、16、18、20或25个核苷酸。在某些情况下,至少含有30、40或50个核苷酸的更长的探针是较好的。利用阵列所检测的基因可以包含生物中所有存在的基因,或者具有足够长度的亚组以将化合物所导致的表达变化区分到可所希望的分辨和/或程度。本发明的方法还可用于测定此目的所需要的充分大小的基因亚群。
可采用靶扩增方法(例如采用Tagman聚合酶进行PCR扩增cDNA,以及其他酶促方法)和/或信号扩增方法(例如采用高标记探针、生色酶等)测定多个基因的表达情况。转录介导的扩增(TMA)方法在美国专利5,399,491中有详细描述,其说明书已完整纳入本文作为参考。在典型试验的一个实施例中,将分离的核酸样品与含缓冲液、盐、镁、核苷三磷酸、引物、二硫苏糖醇和亚精胺的缓冲浓缩液混和。反应物任选在约100℃培育大约2分钟使所有的二级结构变性。冷却到室温后加入逆转录酶、RNA聚合酶和RNA酶H,37℃培育2到4小时。反应产物通过下列过程分析产物变性、加入探针溶液、60℃培育20分钟、加入溶液以选择性水解未杂交的探针,60℃孵育6分钟,然后用发光计测量剩余的化学发光度。
TMA提供了一种鉴定生物样品中微量靶核酸序列的方法。这种序列用直接检测方法很难或不可能检测到。具体说TMA是一种恒温的自动催化的核酸靶扩增系统,该系统可以获得靶序列的10亿个RNA拷贝。该试验可以定性地精确检测生物样品中是否存在靶序列。该试验还可以在几个数量级的浓度范围内定量地测定靶序列的量。TMA提供了一种无需重复操纵反应条件如温度、离子强度和pH等就可以自动催化合成靶核酸序列多个拷贝的方法。
一般来说,TMA包括如下步骤(a)分离感兴趣生物样品中的核酸包括RNA;以及(b)配制反应混合物,加入(i)分离的核酸,(ii)第一和第二寡核苷酸引物,第一引物具有与RNA靶序列3’端部分足够互补的复杂序列,如果存在(例如(+)链)则可与之形成复合物,第二引物具有与RNA靶序列互补链(如(-)链)3’端部分足够互补的复杂序列,并可与之形成复合物,其中第一寡核苷酸还含有5’到含启动子复合序列的一个序列,(iii)逆转录酶或RNA和DNA依赖的DNA聚合酶,(iv)可选择性降解RNA-DNA复合物中RNA链的酶(如RNA酶H)以及(v)可识别此启动子的RNA聚合酶。
此反应混合物中的组分可以逐步加入,也可以一次加入。将此反应混合物在寡核苷酸/靶序列可形成杂交的条件下孵育,包括DNA启动和核酸合成条件(包括核糖核酸三磷酸和脱氧核糖核酸三磷酸)以及足够的时间以提供靶序列的多个拷贝。此反应最好在适于保持反应组分如酶组分稳定的条件下进行,并且在扩增反应过程中不需要改变或操纵反应条件。因此,此反应可在基本恒温并且离子强度和pH基本恒定的条件下进行。此反应最好不要用变性步骤来分离第一DNA延伸反应所产生的RNA-DNA复合物。
适宜的DNA聚合酶包括逆转录酶,如禽髓母细胞白血病病毒(AMV)逆转录酶(可从Seikagaku America,Inc.购买)和Moloney鼠白血病病毒(MMLV)逆转录酶(可从Bethesda Research Laboratories购买)。
适于插入到引物中的启动子或启动子序列是可被RNA聚合酶特异性识别的核酸序列(天然的、合成产生的或限制性消化产物),所述RNA聚合酶能识别和结合该序列并启动转录过程从而产生RNA转录物。此序列可任选地包含延伸到RNA聚合酶实际识别位点之外的核苷酸碱基,这些碱基可以增加对降解过程的的稳定性或敏感性,或增加转录效率。有用的启动子的例子包括可被某些噬菌体聚合酶识别的启动子,如噬菌体T3、T7或SP6的启动子或大肠杆菌的启动子。这些RNA聚合酶可以很容易地买到,如New England Biolabs和Epicentre。
可用于本文方法的某些逆转录酶具有RNA酶H活性,如AMV逆转录酶。但是最好是加入外源性RNA酶H,如大肠杆菌RNA酶H,即使已经使用了AMV逆转录酶。RNA酶H可从Bethesda Research Laboratories获得。
这些方法制备的RNA转录物可作为模板通过上述机制制备更多的靶序列拷贝。该系统是自动催化的,扩增可自动催化发生无需重复改变反应条件如温度、pH、离子强度等。
如上面所提到的,上述引物和探针可用于聚合酶链式反应(PCR)为基础的技术以测定的基因的表达水平。PCR是一种扩增核酸分子或分子混合物中含有的所需靶核酸序列的技术。在PCR中,用过量的一对引物与靶核酸序列的互补链杂交。聚合酶以靶核酸为模板延伸每个引物。延伸产物与最初靶链解离后本身又成为了靶序列。然后新的引物与之杂交并被聚合酶延伸,重复此循环,靶序列分子数目呈几何级数增加。扩增样品中靶核酸序列的PCR方法是本领域所熟知的,在下列文献中有描述Innis等编辑,《PCR Protocols》(Academic Press,NY 1990);Taylor(1991),聚合酶链式反应基本原理和自动化,见《Practical Approach》,McPherson等编辑,IRL Press,Oxford;Saiki等,(1986)Nature 324163;以及美国专利4,683,195;4,683,202和4,889,818,都已完整纳入本文作为参考。
PCR尤其适用相对较短的寡核苷酸引物,该引物应侧接待扩增的靶核苷酸序列其3’端取向彼此相对,每个引物朝向另一个引物延伸。提取多聚核苷酸样品并变性,宜通过热变性,然后与克分子浓度的过量第一和第二引物杂交。在四种脱氧核糖核苷三磷酸(dNTPs?dATP,dGTP,dCTP,dTTP)存在下利用引物依赖的和模板依赖的多聚核苷酸聚合试剂(如任何能产生引物延伸产物的酶)催化聚合反应,能产生引物延伸产物的酶如大肠杆菌DNA聚合酶I、DNA聚合酶I的Klenow片段、T4 DNA聚合酶、从栖热水生菌(Taq)分离得到的热稳定性的DNA聚合酶,可从各种来源(如PerkinElmer)、Thermus thermophilus(United States Biochemicals)、Bacillusstereothermophilus(Bio-Rad)或Thermococcus litoralis(″Vent″聚合酶,NewEngland Biolabs)获得。反应的结果是得到两个“长产物”,该产物包含5’端共价连接于起始链的新合成互补链的各自引物。然后将反应混合物返回到聚合条件,例如通过降低温度、灭活变性试剂、或者加入更多的聚合酶开始第二个循环。第二个循环得到两个起始链、第一循环中产生的两个长产物、从该起始链复制的两个新的长产物和从长产物复制出的两个“短产物”。短产物含有在每个末端带一个引物的靶序列。每增加一个循环就会产生两个更长的产物,与上一循环结束时残留的长短产物数目相同的短产物。因此,含有靶序列的短产物的数目在每个循环中都以指数增加。PCR反应优选在商用的热循环仪如Perkin Elmer上进行。
可以通过将mRNA逆转录成cDNA,然后再进行上述的PCR(RT-PCR)来扩RNA。或者如美国专利5,322,770所述可用一个酶来进行两个步骤。也可将mRNA逆转录成eDNA,然后再进行不对称空隙连接酶链式反应(RT-AGLCR),如Marshall等,(1994)PCR Meth.App.480-84所述。
另外一种方法,产生荧光的5’核酸酶试验,即称为TaqManTM的试验(Perkin-Elmer)是一种检测核酸靶标的有效且通用的以PCR为基础的检测系统。因此引物和探针也可用于TaqManTM分析。通过监测产生的荧光信号结合热循环进行此分析。此试验系统不需要凝胶电泳分析,能够产生定量的数据来测定靶序列的拷贝数。
采用AmpliTaq GoldTMDNA聚合酶可以很方便地进行产生荧光的5’核酸酶试验,此聚合酶具有内源性5’核酸酶活性,可以消化标记有荧光报告染料和淬灭剂的内部寡核苷酸探针(见Holland等,Proc.Natl.Acad.Sci.USA(1991)887276-7280和Lee等,Nucl.Acids Res.(1993)213761-3766)。试验结果可通过检测扩增循环中所产生的荧光变化来测定,扩增循环中荧光探针被消化,染料和淬灭剂标记解离,导致荧光信号按照扩增的靶DNA成比例地增强。TaqManTM试验、所用的试剂和条件见Holland等,Proc.Natl.Acad.Sci,U.S.A.(1991)887276-7280;美国专利5,538,848;5,723,591和5,876,930中的详细描述,本文将其完整纳入作为参考。
扩增产物可在溶液中检测,也可用固相支持物检测。在此方法中,TaqManTM探针被设计成可与所需PCR产物中的靶序列杂交。TaqManTM探针的5’末端含有荧光报告染料。探针的3’末端被封闭以避免探针延伸并含有一个可淬灭5’荧光基团荧光的染料。在随后的扩增过程中,如果反应物中存在的聚合酶具有5’外切核酸酶活性,则5’荧光标记被切除。5’荧光基因被切下导致可检测的荧光增加。具体说当构建的寡核苷酸探针未杂交时,其至少以一个单链构型存在,这时淬灭剂分子与报告分子的距离足够靠近可以淬灭报告分子的荧光。当寡核苷酸探针与靶核苷酸杂交使淬灭分子所处的位置与报告分子不够近而无法淬灭报告分子的荧光时,寡核苷酸探针也可以以至少一种构型存在。采取这些杂交或未杂交的构型,当探针杂交和未杂交时探针上的报告分子和淬灭分子表现出不同的荧光信号强度。因此根据报告分子、淬灭分子或二者荧光强度的变化可以确定探针是否发生了杂交。另外,由于探针的设计是在其未杂交时淬灭分子无淬灭报告分子,因此除非探针发生杂交或被消化,可将探针设计成报告分子所发出的荧光是有限的。
连接酶链式反应(LCR)是另外一种扩增核酸并检测表达水平的方法。在LCR中,所用的探针对包括两个初级探针(第一和第二探针)和两个次级探针(第三和第四探针),所有的探针采用的克分子浓度都超过靶序列的浓度。第一探针与靶核酸链的第一区段杂交,第二探针与靶核酸链的第二区段杂交,此第一区段和第二区段是相邻的,因此初级探针以5’磷酸-3’羟基的关系彼此相邻。这样,连接酶就可以将两个探针共价融合或连接成一个融合产物。另外,第三探针(次级探针)可与第一探针的一部分杂交,第四探针(次级探针)可以同样的相邻方式与第二探针的一部分杂交。如果靶序列最初是双链,在第一种情况下次级探针也可与靶序列的互补链杂交。一旦初级探针的连接链与靶序列链分开,它会与第三和第四探针杂交,后二者连接在一起形成一个互补的次级连接产物。杂交和连接循环重复进行就可以实现靶序列的扩增。该技术详述见1989年6月16日出版的欧洲专利320,308和1991年7月31日出版的欧洲专利439,182。一种优选的检测基因表达水平的方法是利用靶序列特异性的寡核苷酸探针。该探针可用于杂交保护试验(HPA)。此实施方式中,探针很容易用吖啶酯(AE),一种强化学发光分子标记。一个AE分子可以通过一个非核苷酸的连接臂直接连接于探针上,此连接臂可将标记物置于探针内的任何位置。通过与碱性的过氧化氢反应可激发化学发光,产生一个活泼的N-甲基吖啶酮,后者随即崩解到基态发射一个光子。另外,AE可以引起酯水解产生不发光的甲基吖啶羧酸。
当AE分子共价连接于核酸探针时,可在温和的碱性条件下快速水解。当AE标记的探针与靶核酸精确互补时AE水解的速度大大降低。因此杂交和未杂交的AE标记探针可直接在溶液中检测到而不需要作物理分离。
HPA通常包括如下步骤(a)使AE标记探针与靶核酸在溶液中杂交约15到30分钟。然后加入温和的碱溶液使AE连接的未杂交探针水解。反应大约需要5到10分钟。检测残留的与杂交物相连的AE,作为靶序列存在量的一种衡量。此步骤大约需要2到5秒。该差异性水解步骤最好在与杂交步骤温度相同的温度下,一般在50-70℃进行。另外,第二次差异性水解步骤可在室温下进行。这时可采用提高的pH,如10-11,以使杂交和未杂交AE标记探针之间水解速度差异更大。HPA详述见美国专利6,004,745;5,948,899和5,283,174,其说明书已完整纳入本文作为参考。
以核酸序列为基础的扩增(NASBA)也可用于本发明来测定多个基因的表达。该方法是一种启动子指导的酶催化过程,在体外可诱导特异性核酸的持续性同质恒温扩增,以提供该核酸的RNA拷贝。NASNA所用的试剂包括5’尾部含启动子的第一DNA引物、第二DNA引物、逆转录酶、RNA酶H、T7 RNA聚合酶、NTP’S和dNTPs。利用NASBA可从单链RNA、单链DNA或双链DNA产生出大量的单链RNA。当需要扩增RNA时,以ssRNA为模板通过延伸含RNA聚合酶识别位点的第一引物合成第一DNA链。然后再以此DNA链为模板通过延伸第二引物合成互补的第二DNA链,得到双链活性的RNA聚合酶启动子位点,在RNA聚合酶的帮助下以第二DNA链为模板合成大量的第一模板ssRNA。NASBA技术是本领域熟知的,见Guatelli等,(1990)Proc.Natl.Acad.Sci.USA871874-1878;Compton,J.Nature 35091-92;欧洲专利329,822;国际专利申请WO91/02814,和美国专利6,063,603;5,554,517和5,409,818中的描述,本文将它们完整纳入作为参考。
其他可利用的已知扩增和检测方法包括但不限于Ω-β扩增;链置换扩增(Walker等,Clin.Chem.429-13和欧洲专利申请684,315);以及靶序列介导的扩增(国际专利申请WO93/22461)。
上述方法的大多数都依赖于探针或引物与靶核酸之间的互补性。当ssDNA形成杂交时两条链的碱基序列互补性不需要那么高了。匹配差的杂交物(即每条链上只有一些核苷酸杂交与其互补碱基形成氢键)可在较低的温度下形成,但当温度升高时(或盐浓度降低时)杂交物内的互补碱基配对区域解离,因为整个双链体分子内没有足够的氢键形成以使两条链在新的环境条件下维持在一起。可不断改变温度和/或盐浓度以创造条件使互补碱基对区域百分比增加来保持杂交双链体的完整,最终,达到了一系列条件只有完美的杂交物可成为双链体。超过此严谨性水平即使完全匹配的双链也会解离。对于DNA混合物中dsDNA每一特定片段所需要的严谨条件取决于特定的碱基对组成。碱基对互补性一定的条件下维持杂合双链所需要的杂交条件的程度称之为“杂交的严谨性”。低严谨条件是能具有一定程度错配碱基的分子形成双链体的条件。高严谨条件是只有近乎完全相匹配的碱基对才能形成双链体的条件。条件性条件的操纵是优化序列特异性试验的关键。本方法优选不需要极佳碱基对匹配的双链。
在上述以扩增为基础的方法中更特别的是一旦引物或探针充分延伸和/或连接时可以通过将反应混合物加热到“解链温度”使之与靶序列相分离,解链温度可使互补核酸链解离。因此形成与靶序列互补的序列。然后进行新一轮的扩增以进一步增加靶序列的数量,通过分离双链序列、使引物或探针与各自的靶序列杂交、延伸和/或连接杂交的引物或探针并再次分离。扩增循环所产生的互补序列可以用作引物延伸的模板,或填补两个探针之间的空隙以进一步扩增靶序列的数量。反应混合物通常进行20到30个循环,更常为25到50个循环。以此方式,可产生靶序列及其互补序列的多个拷贝。因此,当引物置于扩增条件下时可启动靶序列的扩增。
双链DNA的“解链温度”或“Tm”定义为通过加热或者通过酸或碱处理等使碱基对之间的氢键解离而导致DNA的螺旋结构丢失一半时的温度。DNA分子的Tm取决于其长度及碱基组成。富含GC碱基对的DNA分子的Tm比富含AT碱基对的DNA分子的Tm高。当温度低于Tm时分离的两条DNA互补链自动地重新聚集或退火形成双链体DNA。核酸杂交的最高速率发生在Tm以下大约25℃。Tm可用下列关系式估计Tm=69.3+0.41(GC)%(Marmur等,(1962)J.Mol.Biol.5109-118)。
本发明的另外一个方面进行了上述的两个或多个试验。例如,如果第一个试验采用转录介导的扩增(TMA)来扩增核酸进行检测,则用本文所述的PCR扩增、RT-PCR等进行另一个核酸检测(NAT)试验。不难明白本文所述试验的设计可以作出大量改变,许多方式都是本领域所熟知的。上述的说明仅仅作为指南,本领域技术人员采用本领域所熟知的技术可以很容易地修改上述的方法。
扩增或非扩增检测都可以用各种异源或同源的检测方式进行。异源检测方式的例子见Snitman等,美国专利5,273,882;Urdea等,美国专利5,124,246;Ullman等,美国专利5,185,243;以及Kourilsky等,美国专利4,581,333中的描述,所有这些都已完整纳入本文作为参考。同源检测方式的例子见Caskey等,美国专利5,582,989和Gelfand等,美国专利5,210,015,二者都已完整纳入本文作为参考。采用多个探针进行杂交试验以提高敏感性和放大靶信号也值得考虑并且在本发明的范围内。见Caskey等,美国专利5,582,989和Gelfand等,美国专利5,210,015,二者都已完整纳入本文作为参考。
已开发了快速评价一特定系统中的多个候选化合物和/或在多个系统中一种候选化合物的方法。这种评价候选化合物的方法称为高通量筛选法(HTS)。在一个典型方法中,HTS包括将候选化合物分散到多孔培养板如96孔板或更多孔的培养板一384孔、864孔或1536孔培养板的孔中。评价该化合物对该检测其系统中作用。该技术的“通量”,即可被筛选的候选化合物的数目与筛选候选化合物所用系统的数目的联合,受多种因素限制,包括但不限于每孔只能进行一种试验;如果用常规染料分子监测候选化合物的作用,如采用多种染料分子则需要多个刺激源;当孔的尺寸变小(如1536孔板可接受大约5μl总试验容量),使孔内各组分均匀分散是很困难的,每种试验所产生的信号量会与试验的溶量成比例显著下降。
1536孔仅仅是将十六种试验物理分隔到一个96孔板格式中。最好是在96孔板的一个孔内进行经16种试验。这将导致更容易将试剂分散到孔内并且每个孔的信号输出提高。另外,在一个孔内进行多个试验可以同时测定候选化合物影响多个靶系统的潜力。采用HTS策略,可以在一种试验中筛选一个候选化合物的活性,如蛋白酶抑制剂、炎症抑制剂、抗哮喘剂等活性。
在本发明的另外一个实施方式中,提供了一种利用发射标记物作为复合检测试剂的HTS试验。在各种浓度的候选化合物存在时进行HTS试验。监测发射光作为候选化合物对该试验系统影响的指标。例如,利用标记的配基或受体发出的荧光读数来分别监测与小珠结合的受体或配基,可以作为检测与小珠相关发射光的灵活方法。与小珠相关的发射光的检测数据可以是候选化合物浓度的函数,因此是该候选化合物对该系统作用的函数。另外,多色闪烁试剂可用于分别检测放射性标记配基或受体与标记受体或配基的结合。闪烁降低可能是候选化合物抑制配基-受体对结合的一种结果。这样可用HTS技术评价大量的基因以构建表达数据组。
不论是由于阵列实验还是其他实验不论基因的表达是明显上调或下调所得到的数据一般表示为基因表达量或表达程度。可对所得到的数据进行一种或多种处理,例如标准化阵列实验所得到的数据(比较物理阵列不同区域诸点所得到的数据以校正系统误差)。数据通常以比例形式提供,例如实验表达水平与对照水平的比例,其中对照水平是同一基因的未处理时的表达水平、历史上未处理时的水平、许多基因的低表达水平等。每个数据点都与某个化合物(或对照化合物)、与被检测mRNA相对应的其基因或多聚核苷酸序列以及表达水平相关,并且还可以包括其他实验条件如时间、温度、受检动物种类、性别、年龄、对受检动物进行的其他处理(如禁食、应激、先前给的或同时给的其他化合物、处死的时间和方式等)、数据来源的组织或细胞系、阵列的类型和序号、实验日期、进行实验的研究者或当事人等。
当所检验的数据组来自几百甚至更多的基因,那么最好选择在实验过程中表达水平变化最大的基因。我们发现对于大多数化合物来说只有几个基因能达到较高的反应程度(例如表达水平以5或更高的系数升高),大约100到500个基因的反应较弱但仍有实质性反应。大多数基因无实质性反应,因此可以不进行其余的分析而不会丢失信息。所观察到的表达水平变化可在每个基因的已知“动力学范围”作调整例如,如果基因a所显示的最大表达水平变化系数只有2,而基因b显示的最大表达水平变化系数为30,那么可预计在2时基因A所显示的反应比在4时基因b显示的相对更强。相应的,可根据它们所观察到的变化(例如,标准差)与它们可能的变化(例如历史上所有实验所观察到的最大程度的变化)的比例,来选择基因。基因的排序最好以其变化程度来确定,选择200个变化最大的基因进行余下的分析。
一般来说基因组表达实验的数据以二维表或矩阵的形式提供,其中每个基因都占一行,每栏对应于一个实验或一种实验条件。相反,本发明的方法给每个化合物分配一行作为行变量,给每个基因分配一栏。然后将化合物的数据记录分成组,因此根据相似的基因表达变化将所有的化合物分组(或任选按实验条件分组)。这样使我们能直接鉴定哪个基因受所用化合物的影响最大。
本发明优选多种相关化合物(“实验组”)和几种与实验组不相关的化合物(对照组)在各种实验条件下,例如在给药后的不同时间点进行检测和分析。实验组所包括的化合物宜在作用机制相似上(或认为通过同样的通路发生作用)相关。为了开发分组标签,本发明的实验组宜在多种不同实验条件下(例如在几个不同时间点检测每个化合物)至少选择两个化合物。实验组中可包括的化合物的最大数目通常受相关化合物可利用数目的限制,但是任何情况下最好不超过200。计数组中包括的化合物数目优选至少2个,更优选至少10个、不超过200、少于100,最优选少于50个。计数组所含的一组相关化合物最好不超过实验组中相关化合物的数目。
检测化合物,所得到的数据如上所述处理,最好用主要成分分析(PCA)方法进行分析以确定多个处理(或实验)组从而形成可分辨数据组。一旦确定何种处理可形成可分辨数据组就可确定最为担负该化合物所见作用的基因或基因组。达到此目的的方法有如下几种。如果实验组中所选择的化合物是活性相关的,他们的数据点在PCA分析中将形成区别性组,可与属于计数组的数据点区分开来(根据所选择的化合物,可能或还可能形成一个或多个数据组)。实验组一般占据一个PCA轴,计数组的大多数或全部数据点位于该轴上较低数值处。然后可检验组成相应PCA轴的基因特征值,以确定哪个基因受实验组影响的变化程度最大这组基因提供了一个库,可从中确定分组标签。分组标签含有一组基因,能将该组活性(化合物在实验组中所显示的共同生物活性)与其他活性区分开。例如,下面实施例1中所得到贝特类物质的分组标签能将具有贝特类物质活性(如氯贝特、非诺贝特、吉非贝齐等)的化合物与具有其他活性的化合物(如雌激素类化合物、酚等)相区别。如果以特征值(换言之,以它们对主要成分的贡献大小)将实验组活性相应的PCA轴上包括的基因进行分类和分等级,那么该列表顶端的基因将组成该分组标签。分组标签不需要包括排在顶部的所有基因,但是至少应该包括前三位的基因,优选至少包含前10位中的5个,更优选至少包含前20位中的10个。
另外,分组标签的确定可通过进行分辨率计算以确定哪些基因能最佳地区分实验组和计数组。例如,可用T.R.Golub等,Science(1999)286(5439)531-37所设定的区别标准,其中区分标准用如下公式计算mean1-mean2/(stdev1+stdev2)其中mean1和stdev1指基因“1”的表达水平的平均值和标准差。这种计算方法一般会产生构成分组标签的非常相似(尽管不需要相同)的一组基因。本发明优选利用Golub标准的修改形式,其中区分标准用如下公式计算
mean1-mean2/(stdev1+stdev2+0.01)以免当分母中的标准差(stdev)为0或接近于0时出现误差。这种情况在用少量实验确定分组时偶尔会发生。这个问题在数据经质量控制标准过滤和比例设定为1(对数比例为0)时会更严重。将0.01这样一个小的值加到分母中可以修饰线性比例(本发明优选对数比例)。
如果需要,分组标签可通过比较分布在PCA轴相对两端的两个或多个化合物的表达模式进一步精细化,例如选择一个已知具有较高生物活性的化合物和一个具有相同生物活性但较低的化合物。如果比较这些基因(已经选择作为分组标签的一部分)受这两个所选化合物影响而发生的变化,就可鉴定出与该组化合物生物活性最密切相关的基因。
有时用PCA检验原始数据有助于确定是否存在任何系统性误差,例如,如果根据实验数据确定数据组,实验室技术人员等进一步分析这些数据。注意到所发生的系统偏差可将所有的处理分成亚组(例如沿着PCA轴)是有益的,这样就不需要预先排除其它真实作用的检测和观察。PCA的这种以三维方式对实验分组进而观察包括系统偏差在内的多种同时作用的能力,比其他方法如二维分级分组法(用一维给实验分组,用另一维给基因分组)明显优越。
实验处理与标签之间的相似度可用各种方法定量测定。例如,在由基因A、B和C的组成的标签中,如果在一个实验中基因A的诱导水平达到(或超过)1%倍,基因B的表达水平达到(或超过)3%倍,基因C的表达水平达到(或超过)12%倍,那么计算的特异性为0.01×0.03×0.12=0.000036。如果基因A、B和C所显示的表达水平更高,分别为4%、6%和15%,那么最终的评分将较低(0.04×0.05×0.15=0.0003),因为基因表达水平的区别性或特征性较低。归纳任一长度标签的计算公式我们得到S=∏xRelRkx,其中RelRkx是上面所定义的相对等级。此评分还可以通过权衡每个基因的贡献来进一步精细化标签中等级较低的基因比等级高的基因的重要性低、区别性低。因此,可以将每个基因概率评分除以其在标签中的等级、或者多个或更高的等级来计算出一个权衡特异性。例如,对于由上调表达的基因X、Y和Z组成的标签,当基因X的诱导水平达到该实验的1%,基因Y的诱导水平达到该实验的3%,基因Z的诱导水平达到该实验的12%,那么一个简单叠加的特异性应为0.010+0.030+0.120=0.160。在每个项目除以基因等级的权衡特异性中,此特异性的计算方法为(0.010/1)+(0.030/2)+(0.120/3)=0.065。标签中第一基因的断定性低(较高概率)将具有较高的评分(表明特异性差)例如,如果基因X、Y和Z的概率相反,那么同样的特异性计算将为(0.120/1)+(0.030/2)+(0.010/3)=0.138。通过增加其对基因等级的依赖性,可能会更加重特异性评分,例如采用基因等级的平方或立方作为分母时。这样采用等级的平方XYZ 标签计算为(0.010/1)+(0.030/4)+(0.120/9)=0.0308,或采用等级的立方XYZ标签计算为(0.010/1)+(0.030/8)+(0.120/27)=0.0182。另外,将此结果与用反转概率所得到的特异性评分(分别为0.1286和0.1241)相比较,可以看到评分差区别随加权的增加而增加XYZ和反转XYZ之间特异性评分的差别在用等级加权时为0.0723,在用等级平方加权时候0.0978,在用等级立方加权时为0.1059。另外,可采用其他的加权因子,如提高到非整数倍数的基因等级(如2.1、2.5、4.2等)、等级的对数、一组任意选择的常数(例如前5个基因以1、2、4、8和10作为分母,其他的每个基因用15作为分母)等。可采用小于1的幂数,如平方根(=1/2)这具有降低等级的权重作用。这将影响较长的标签的权重。
分组标签可用于鉴定受实验组化合物影响最大的,受该化合物影响最大基因的扩展范围和/或该化合物诱导的生物学效应影响最大的基因调节通路,特别是当与该化合物对各种已知的酶和结合蛋白作用的生物试验信息相结合时。
分组标签也可用于根据某新的化合物的基因组表达模式将其分类或特征鉴定,并预测其潜在的治疗活性。比较几千个基因对某化合物反应的表达模式和对大量其他化合物反应的表达模式是一项需要大量计算的工作。但是可以编辑一个分组标签数据库,其中每一类治疗化合物都有一个或几个标签(例如贝特类物质标签、ACE抑制剂标签、caspase抑制剂标签等),每个标签只需要包含10到20个基因表达模式。所得到的分组标签数据库要比基因组表达模式的完整数据库小得多,可快速检索。那些没被选包含数据库中任何分组标签的基因根本就不需要检验。
另外,分组标签可以直接“体现”在探针组(在多聚核苷酸阵列中或液相中)或其他检测试剂中。例如,基底可提供多个分组区域,每个所含分组区的多聚核苷酸序列能与某特异性分组标签中的结合序列特异性结合。因此,分组标签芯片可以具有包含贝特类物质分组标签特异性的探针的第一区,包含苯醋酸(如阿司匹林、萘普生、布洛酚)分组标签特异性的探针的第二区等等。每个分组标签的探针最好都要经过挑选,使它们不重叠或重叠程度最小。另外,如果两个或多个分组标签包含一组共同的基因,该芯片的阵列中可包含该共同组的探针置于两个标签的交界处,这样标签1包含区域1加上共同区域X,标签2包含区域2加上共同区域X。芯片上的分组标签包括治疗药物的标签和特异性毒性模式的标签,因此可将从接触过某测试化合物的受检细胞获得的mRNA或cDNA,标记后直接加到该分组标签芯片上然后通过测定哪个分组标签发生了结合来直接检鉴定测试化合物的活性和毒性(如果存在)。
上述试验的试剂,包括引物、探针、结合探针的固相支持物以及其他检测试剂,可以组装成试剂盒,加上合适的说明书和其他必须的试剂以进行上述的试验。试剂盒一般用不同的容器装引物和探针(或者已经结合于固相基质物上、或者与使其结合于基质上试剂分开装的混合物)、对照试剂(阳性和/或阴性)、标记试剂,如果标记物不能直接产生信号还需要信号产生试剂(如酶底物)。进行该试验的说明书(如手写的、打印的、VCR、CD-ROM等)一般也包括在试剂盒内。根据所采用的具体试验,试剂盒还可包括其他包装试剂和材料(如洗涤缓冲液等)。如上面所描述,可用这些试剂盒进行标准试验。
可检测各个化合物以提供能区别同一组不同成员的特异性药物标签(受检细胞在一定程度上可显示成员之间的不同反应)。从分组标签产生的基因分类列表中选择能将所选择的化合物与该组中的其他化合物相区别的基因,可以获得能显示受检细胞如何对所选择的化合物产生不同反应的药物标签。该药物标签可用于鉴定所选化合物所特有的毒性和副作用,以及可能的协同作用即该药物标签可用于解释或确定一种化合物为什么会有更高或更低的活性,和/或为什么一种化合物对某具体病人是较好的治疗选择(基于病人的状况)。
非诺贝特、氯贝特和吉非贝齐是fibric acid衍生物,通常被作为治疗高脂蛋白血症的处方药。
非诺贝特 氯贝特 吉非贝齐我们已经为贝特类物质组建立了一个分组标签,包含一表达图表,该表达图表内有下述基因组合的表达被强烈上调贝特类物质分组标签
贝特类物质分组标签至少包含以上列表中的3个基因,优选列表中前5个基因中的至少3个,更优选列表中前10个基因中的至少5个、至少15个基因,包括上述列表中前10个基因中的至少7个或其等价物。分组标签优选含有不超过25个基因,更优选20到25个基因。如果需要,该分组标签可通过加入时间和剂量变量来进一步精细化例如,某给定剂量的贝特类化合物可刺激一个基因产生最大表达的时间是12小时,刺激不同基因产生最高表达的时间是48小时。得到的精细设计可用于产生更精确的分组标签。
贝特类物质分组标签可用于鉴定与贝特类物质具有相似或相同生物活性,即显示PPARα拮抗活性的其他化合物。例如,可给予大鼠肝组织分离物不同浓度的一系列实验化合物。在给药后不同的时间点检测肝细胞以确定哪个基因的表达上调例如,将总mRNA逆转录成cDNA,然后彼此cDNA与一组固定在固相表面上的多聚核苷酸探针杂交。所选的这组探针含有与贝特类物质分组标签相对应的多聚核苷酸序列因此,任何能产生强信号(即信号能与所选择的贝特类物质分组标签严格匹配)的测试化合物可鉴定为具有PPARα拮抗活性。
贝特类物质分组标签还可用于设计检测贝特类药物和筛选具有潜在PPARα活性的探针组和试剂。贝特类物质分组标签探针可作为检测多种相似或不同活性的一群分组标签的一部分。例如,可提供一种含20个多聚核苷酸探针的试剂盒,这些探针只选自贝特类物质分组标签,或者提供一个含一组探针再加上一组或多组选自其他分组标签的探针组的试剂盒。此探针组还可以含有作为对照和/或用于检测其他条件如监测毒性的额外探针。
产生吉非贝齐的区别性药物标签,它可以将吉非贝齐与其他贝特类化合物相区分。这个标签来源于吉非贝齐所上调的前10位独特性基因
吉非贝齐药物标签
通过筛选能区别吉非贝齐与其他贝特类化合物的基因,我们基本上已从该标签中减去了“贝特类物质活性”。剩余的标签显示有其他活性,发生这种情况下与已知的副作用有关已知吉诺非齐可诱导高甘油三酯血症病人的LDL(低密度脂蛋白)水平升高。
各种计算机系统,一般包括一个或多个微处理器,可用于存储、检索和分析本发明方法获得的信息。计算机系统可以象具有一个数据存储器的单台计算机(即一个计算机可读取介质,如软盘、硬盘驱动器、可移动磁盘存储器如ZIP驱动器、光学介质如CD-ROM和DVD、磁带、固态内存、磁泡内存等)那样简单。
另外,计算机系统可以包含一个由两台或多台通过网络服务器连接在一起的计算机组成的网络。此网络可包括内联网、网络互联、或者二者。在本发明的一个实施方式中,单台计算机系统以含有分组标签数据库的计算机可读取介质提供,所述分组标签数据库包含一个或多个分组标签记录。此计算机系统最好还包含一个处理器和软件,使该系统能比较实验组的基因表达数据和/或生物试验数据与该分组标签数据库的内容。在本发明的另外一个实施方式中,计算机包括含分组标签数据库的计算机可读取介质和可连接其他计算机(用户系统)的网络互联。用户系统最好包含处理器和软件以接收和储存一个或多个实验的基因表达和/或生物试验数据,以及系统阐述网络传递和在数据库服务器或用户系统上执行数据库检索。此计算机系统还可以与其他的数据库如Genbank和DrugMatrix(Iconix Pharmaceuticals,Inc.,Mountain View,CA)相连接。
实施例下面的实施例可以作为本领域普通技术人员实践的指南。实施例并不是打算限制本发明的权利要求。除非只有特别说明,所有试剂都是按厂家说明书的要求使用。
实施例1(贝特类药物标签)(A)数据收集给4-6周龄的Sprague-Dawley CrlCD(SD)BR品系(VAF plus)大鼠饲喂标准的啮齿类动物饲料,随意饮水。动物操作在Sequani Ltd.(Ledbury,Herefordshire,England)进行。
以不同的剂量和时间给予每组两只雄性大鼠和两只雌性大鼠所有的化合物。雌二醇苯甲酸酯、双酚丙烷(BPA)和辛基苯(OP)溶于arrachis oil中皮下注射;氯贝特、非诺贝特、吉非贝齐和双(2-乙基-己基)苯二甲酸盐(DEHP)溶于1%的NaCMC中口服给药。所用的剂量是各化合物的最大耐受剂量(MTD)、70%MTD、50%MTD和10%MTD。所有的MTD根据文献或经验确定。所使用的MTD分别为雌二醇苯甲酸酯=2mg/kg;BPA=150mg/kg;OP=450mg/kg;氯贝特=250mg/kg;非诺贝特=1,000mg/kg吉诺贝齐=300mg/kg;DEHP=1,000mg/kg。在初次剂量后3、24或72小时收集组织。对于3小时和24小时时间点,动物在0小时给药,分别于3小时和24小时处死。对于72小时时间点,动物在0小时、24小时和48小时时给药,72小时处死。收集组织并用干冰冷冻,然后储存于-80℃。
肝组织匀浆、mRNA提取和探针标记按Yue等,Nuc Acids Res(2001)29(8)E41-1描述的方法进行,本文已纳入作为参考。每个样品都与二双份的Rat ToxicologyLifeArrays(Incyte Genomics,Palo Alto,CA)杂交,如J.L.DeRisi等,Science(1997)278(5338)680-86所描述,本文已纳入作为参考。对照mRNA得自年龄及品系相匹配的未治疗动物(40只雄性和40只雌性)的肝脏混合物。利用GEM Tools将两通道的平均总信号强度标准化后同时分析所有680个微阵列。基因的调节表示为标准化比例的log2。丢失值用log2比例=0代替。
显示最大变化的200个基因通过一个克隆与所有680个实验的比例的标准差确定(列在下面的表1中)。利用SpotfireTMDecisionSiteTM6.3出作为主要成分分析(PCA)变量的这些基因。最重要的基因通过检索每维PCA的特征值来进行鉴定。
表1对贝特类物质具有最高变化的基因
将微透镜薄片的衬垫取出,使嵌入式透镜的前表面暴露在上表给出的颜色的光中。
实施例1中所述的光学系统也在本实施例中用来给样品成像。在本实施例中,非球体的焦点位于微透镜薄片上方1厘米处。调整激光器的输出,使其在微透镜薄片表面上的能量密度为5mJ/cm2。调整多层叠片在照射区域的光学特性。在多层叠片上形成球体样品的轮廓图像的方式类似于实施例1中所述的方式。
在环境光照下,在微透镜薄片的背景颜色的对照下,照射区域呈现明亮的黄色到橙色。所有的合成图像看起来都悬浮在薄片上方,且随着观察者的移动而移动。
实施例6本实施例采用第二种类型的多层调谐叠片作为辐射敏感层,用来形成彩色的合成图像。在以微透镜为底基的薄片上制备的光学叠片含有嵌入式透镜薄片。采用真空蒸发法将薄膜层沉积在以微透镜为底基的薄片的一个表面上,以得到依次由铬/冰晶石/铝(Cr/Na3AlF6/Al)、铬/二氧化硅/铝(Cr/SiO2/Al)或铬/氟化镁/铝(Cr/MgF2/Al)组成的多层结构,如下面的表2所示。调节介电材料SiO2、Na3AlF6和MgF2的厚度,以获得在可见光谱中的不同颜色。表2提供了在不同样品中制备的各材料的具体厚度。
表2多层结构
然后将以有敷层的微透镜为底基的薄片叠压到一背衬上,使多层与叠压材
对所有的化合物都进行选自MDS-Pharma Services目录中的130个不同的分子药理学试验。所选的这组试验包括药物作用及药物毒性的重要位点。在初步双份试验中浓度为30μM时显示出大于50%抑制活性的那些化合物用8-点三份浓度滴定法作进一步研究以确定其IC50值,从30μM开始间隔为1/2-log。
(B)分析图3显示了生物试验的结果。结果小于50%抑制的化合物测定值认为是0。吉非贝齐、氯贝特和DEHP在123个试验中证明没有活性。而在所进行的123个试验中16个有OP相互作用。非诺贝特与雌激素受体和位点-2钠通道有微弱的相互作用,与5HT2a和5HT2c有强相互作用,Kds约600nM。这一发现提示贝特类物质还有其他新的作用机制或用途值得进一步研究。
选择在实验组和对照组之间表达水平最大差异的200个基因进行主要成分分析(PCA)。化合物(而不是基因)用PCA检索细分组并展示在图1的三维图形中。结果说明表达模式可分为几种不同的组。贝特类物质和其他过氧化氢酶体增殖剂化合物如DEHP分为一组,而雌二醇苯甲酸酯和BPA(都是纯化的雌二醇受体激动剂)以及载体对照分为第二组。OP是一种弱的雌激素受体(ER)激动剂,也对PXR具有活性,与其他化合物分开处于一个独特的位置。各组中的每个化合物按照测试动物的性别进一步分组。
然后检测3个PCA成分以确定每个化合物对应哪些基因。结果列在下表4中,该表列出了对第一主要成分贡献最大的基因,以及它们对每个主要成分的贡献。第一PCA成分受到过氧化氢酶体增殖剂PPARα激动剂(贝特类物质和DEHP)作用的支配,并主要与脂肪酸β氧化作用的基因表达有关。性别对某些基因的表达,特别是对4-12性染色体特异性转录物和某些性类固醇代谢基因表达的影响支配类第二主要成分。第三成分受OP(PXR/ER混合激动剂)作用所支配,并与可作为应激反应指示剂的细胞外和血液蛋白基因相关。ER选择性激动剂(雌二醇苯甲酸盐和BPA)和载体未能分辨。
表4通过PC(1)特征值分类主要成分分布的基因(显示表上部的X基团)
分离一个成分中的PPARα激动剂、分离另一个成分中的雌二醇和BPA以及第三个成分中的OP,与这些化合物对肝脏表达的几种受体的活性相关的。DEHP和贝特类物质能强力刺激PPARα,它们在肝脏中的毒性需要PPARα的存在(J.C.Corton等,Ann.Rev.Pharmacol.Toxicol.(2000)40491-518;J.M.Ward等,Toxicol.Pathol.(1998)26(2)240-46;S.A.Kliewer等,Science(1999)284(5415)757-60)。这些活性与PCA中PPARα激动剂的分组相关。雌二醇刺激雌激素受体,ED50接近10-11M(H.Masuyama等,Mol.Endocrinol.(2000)14 3421-28),而BPA、DEHP和nonylphenol任烷基酚聚乙二醇(OP类似物)刺激ER,EC50约为1μM。DEHP和nonylphenol刺激PXR受体,EC50约为0.5μM,而雌二醇和BPA对PXR完全没有活性(H.Masuyama等,见上)。ER活性化合物(雌二醇和BPA)与载体对照处于同一组可能是因为肝脏显示了弱的雌二醇反应。因为对PXR有活性的DEHP并不能诱导与OP相同的基因,此区别可能产生于对一个或几个其他受体的活性。OP对其他受体的潜在活性得到上述分子药理学试验中的混乱结果的支持(也见H.Masuyama等同上)为了更好地了解是哪些基因造成了ER和ER/PXR化合物(“non”)的PPARα激动剂活性(PP)的差异,也可采用T.R.Golub等,Science(1999)286(5439)531-37开发的辨别标准分析此数据。这些计算鉴定出了许多可以独特地区分PP组和Non组的基因,在PP的前100个最具区别意义的性基因中,有35个可以很容易地鉴定为属于脂肪酸β氧化(FABO)通路,25个是新基因。我们提出这些新基因中的某些或全部也是FABO通路的成员,是以前所没有认识到的。通过比较非诺贝特和载体(在雄性动物中)、氯贝特和载体(在雄性动物中)、以及非贝特类物质辛基苯酚和载体,下面的表5列出了鉴定为具有贝特类物质区别能力的前25位基因的区别性值。此表中,负值表明上调,正值表明下调。从表中可以清楚地看到非诺贝特和氯贝特是紧密相关的,其区别主要在于上调程度的不同,但是二者与辛基苯酚都不相关。这证明本发明的方法能根据基因表达模式区别不同的生物活性,并能鉴定相关的基因。而且也证明本发明的方法能够发现具有以前未知活性的基因(例如,“未命名的蛋白产物”),并能将其分到已知活性基因的组中。
表5TABLE5区别性能
PCA和区别性能计算鉴定出高度重叠的一组基因PCA鉴定出的前15个基因中有14个也位于前100个最具区别意义的基因中。两种方法得出的PPARα激动剂与其他药物的区别是对此结果的交叉验证,提示FABO通路是PPAR激动剂药物的明确作用通路。
通过鉴定最能区分PPARα化合物与非PPARα化合物的前20个基因产生分组标签,并从这个组中选择对PPARα激动剂组中的所有化合物反应最一致的基因。对于贝特类物质标签(通过比较非诺贝特和载体而确定)来说,前10位基因为上调基因,与前20位基因一样。因此从该分组标签中只选择几个基因就足以区分PPARα化合物的共同活性与其他化合物的活性。加入从该分组标签中选出的其他基因可增加可信度。例如,以区人4个非诺贝特实验和4个载体/对照实验为基础的标签能基本区分所有的非诺贝特实验与非贝特类化合物和对照,还能将大多数贝特类化合物准确分类。
每种PPARα化合物的各药物标签,是通过制备能区分所有各药物相关治疗与其他所有治疗的标签而获得的。因此,各药物标签突出了同一类治疗化合物不同成员之间的活性差异,并且能鉴定出潜在的副作用和/或可能的协同效应。例如,吉非贝齐给药诱导了13个其他PPARα激动剂不能诱导的基因13个基因中的8个参与胆固醇和脂肪酸的生物合成。这与已知的临床禁忌症有关。贝特类物质可用于治疗高载脂蛋白血症,主要是通过提高肝脏内脂肪氧化作用的速率,这一机制得到被上述FABO通路基因表达上调的证实。在许多病人中,尤其是高甘油三酯血症病人中,吉非贝齐(而不是其他贝特类物质)可诱导其LDL水平升高。升高的脂肪酸产物可增加VLDL和ILDL的水平从而增加LDL的水平。观察到吉诺非齐增加脂肪酸/胆固醇生物合成基因表达可从分子角度解释了反常的临床效果。
构建非诺贝特药物标签以检测药物标签选择各个化合物和实验的能力。药物标签可通过比较4个非诺贝特实验和4个对照/载体实验来计算,然后用于其他677个实验的分类(其中化合物、剂量和时间点的每种组合构成一个实验)。将分类表绘成图(图3),每个非诺贝特实验赋予1.0的值,非诺贝特以外的其他贝特类化合物赋值0.5,每个非贝特类物质对照化合物赋值0。与图表明最小的药物标签就可以正确地将大多数非诺贝特实验分类到该列表的顶部,大多数贝特类物质实验接近此列表的顶部(虽然比非诺贝特实验低),所有的对照实验都在非诺贝特实验之下(并低于大多数贝特类物质实验)。
权利要求
1.一种为多个具有相关活性的化合物建主分组标签的方法,其特征在于,该方法包括a)提供多个表达数据组,每个表达数据组包含受检细胞接触基化合物后第一组基因的表达反应,其中所述的多个表达数据组包含具有相似或相同生物活性的每群测试化合物所产生的表达数据组,和缺乏该测试化合物生物活性的每群对照化合物所产生的表达数据组;b)产生一区别性衡量标准,根据基因表达情况其能将测试化合物与对照化合物相区别从而获得一个区别性基因组;以及c)从所述的区别性基因组中选择第二群基因,为所述测试化合物群提供分组标签。
2.如权利要求1所述的方法,其中步骤b)包括i)通过主要成分分析给这些表达数据组排序以提供多个主要成分;ii)鉴定能将测试化合物群与对照化合物群最大程度相区别的主要成分,以提供检测主要成分;以及iii)鉴定能将检测主要成分与对照化合物最大程度相区别的基因以提供一个区别性基因组。
3.如权利要求2所述的方法,其中所述的区别性基因组是通过鉴定检测主要成分中具有最大特征值的基因而选出的。
4.如权利要求1所述的方法,其中所述的区别性衡量标准包括用Golub区别标准选择一组基因。
5.如权利要求1所述的方法,其中所述的多个基因至少含有1000个基因。
6.如权利要求5所述的方法,其中所述的多个基因至少含有4000个基因。
7.如权利要求6所述的方法,其中所述的多个基因至少含有10000个基因。
8.如权利要求1所述的方法,其中对照化合物的数量少于测试化合物的数量。
9.如权利要求1所述的方法,其中所述的区别性基因组只包含表达上调的基因。
10.如权利要求2所述的方法,其中所述的区别性基因组是通过鉴定检测主要成分中具有最大特征值的上调基因而选出的。
11.如权利要求1所述的方法,该方法还包括d)将所述的表达数据组储存在一个数据库中;以及e)用不同组的测试化合物重复步骤a)-d)。
12.如权利要求1所述的方法,该方法还包括d)使表达多个蛋白质的受检细胞与每个测方式化合物接触;以及e)测定由于所述的接触而产生的每种蛋白质量的变化,以提供每个化合物的蛋白质反应数据组。
13.如权利要求12所述的方法,该方法还包括f)将所述的表达数据组和所述的蛋白反应数据组储存在一个数据库中;以及g)用不同组的测试化合物重复步骤a)-f)。
14.如权利要求1所述的方法,其中所述的分组标签含有1到50个基因。
15.如权利要求14所述的方法,其中所述的分组标签含有1到25个基因。
16.如权利要求15所述的方法,其中所述的分组标签含有的基因不超过3个。
17.如权利要求16所述的方法,其中所述的分组标签至少含有3个基因。
18.如权利要求17所述的方法,其中所述的分组标签至少含有5个基因。
19.如权利要求18所述的方法,其中所述的分组标签至少含有10个基因。
20.如权利要求19所述的方法,其中所述的分组标签至少含有15个基因。
21.一种为多个具有相关活性的化合物建立分组标签的方法,其特征在于,该方法包括a)提供多个具有相似或相同生物活性的测试化合物和多个缺乏该测试化合物生物活性的对照化合物;b)使每个化合物与受检细胞相接触;c)检测第一群基因在每个受检细胞内的表达反应以获得每个化合物的表达数据组;d)通过主要成分分析给这些表达数据组排序以提供多个主要成分;e)鉴定能将测试化合物群与对照化合物群最大程度相区别的主要成分以提供检测主要成分;f)鉴定能将检测主要成分与对照化合物最大程度相区别的基因以提供一个区别性基因组;以及g)从所述的区别性基因组中选择第二群基因,为所述的检测化合物群提供分组标签。
22.如权利要求21的所述方法,其中所述的化合物与体内的细胞接触。
23.一种建立能将所选择的药物化合物的活性与多个具有相关活性的化合物相区别的药物标签的方法,其特征在于,该方法包括a)提供多个表达数据组,每个表达数据组包含受检细胞接触某化合物后多个基因的表达反应,其中所述多个表达数据组包含所述的所选择的药物化合物所产生的表达数据组和每一群具有相似或相同生物学活性的检测化合物所产生的表达数据组;b)产生一个区别性衡量标准,根据基因表达情况其能将所选择的药物化合物与这群测试化合物相区别从而提供一个区别性基因组;以及c)从所述的区别性基因组中选择多个基因,为所述的所选择的药物化合物提供药物标签。
24.如权利要求23所述的方法,其中步骤b)包括i)通过主要成分分析给这些表达数据组排序以提供多个主要成分;ii)鉴定能将测试化合物群与对照化合物群最大程度相区别的主要成分以提供到检测主要成分;以及iii)鉴定能将检测主要成分与对照化合物最大程度相区别的基因以提供一个区别性基因组。
25.如权利要求24所述的方法,其中所述的区别性基因组是通过鉴定检测主要成分中具有最大特征值的基因而选出的。
26.如权利要求23所述的方法,其中所述的区别性衡量标准包括用Golub区别标准选择一组基因。
27.如权利要求23所述的方法,其中所述的药物标签至少含有3个基因。
28.如权利要求27所述的方法,其中所述的药物标签至少含有5个基因。
29.如权利要求28所述的方法,其中所述的药物标签至少含有10个基因。
30.如权利要求23所述的方法,其中所述的药物标签至少含有50个基因。
31.如权利要求30所述的方法,其中所述的药物标签含有1到25个基因。
32.如权利要求31所述的方法,其中所述的药物标签含有1到3个基因。
33.如权利要求23所述的方法,其中所述的药物标签只含有表达上调的基因。
34.一种建立能将所选择的药物化合物的活性与多个具有相关活性的化合物相区别的药物标签的方法,其特征在于,该方法包括a)提供所述的所选择的药物化合物和多个具有相似或相同主要生物活性的测试化合物;b)使每个化合物与受检细胞相接触;c)检测第一群基因在每个受检细胞内的表达反应以获得每个化合物的表达数据组;d)通过主要成分分析给这些表达数据组排序以提供多个主要成分;e)鉴定能将所选择的药物化合物与所述的这群测试化合物最大程度相区别的主要成分以提供区别性主要成分;f)鉴定对区别性主要成分贡献程度最大的基因,从而提供一个区别性性基因组;以及g)从所述的区别性基因组中选择第二群基,因为所述的所选择的药物化合物提供药物标签。
35.如权利要求34所述的方法,其中所述的化合物与体内的细胞接触。
36.一种分组标签数据库,其特征在于,该数据库包含多个分组标签记录,其中每个分组标签记录含有至少一种化合物的标记,其中一组内的所有化合物都显示相似或相同的主要生物活性;一组基因的标记,其中所述基因的表达受与之接触的某化合物的调节,该化合物的主要生物学活性与该组记录中所示的某化合物的主要生物学活性相似或相同,以及其中所述的基因组可将所述的组与所述的分组标签数据库中的其他所有组相区别。
37.如权利要求36所述的分组标签数据库,其中所述的多个分组标签记录至少含有10个分组标签记录。
38.如权利要求37所述的分组标签数据库,其中所述的多个分组标签记录至少含有25个分组标签记录。
39.如权利要求36所述的分组标签数据库,其中每个分组标签记录的所述基因组至少含有5个基因。
40.如权利要求39所述的分组标签数据库,其中每个分组标签记录的所述基因组至少含有10个基因。
41.如权利要求36所述的分组标签数据库,其中每个分组标签记录的所述基因组含有1到50个基因。
42.如权利要求41所述的分组标签数据库,其中每个分组标签记录的所述基因组含有1到25个基因。
43.如权利要求36所述的分组标签数据库,其中所述的数据库还包括应激记录,其中每个应激记录包含应激的标记;以及一组基因的标记,其中所述基因的表达受所述应激的调节,其中所述基因组可以将所述的应激与所述分组标签数据库中的其他所有应激和组相区别。
44.如权利要求43所述的分组标签数据库,其中所述的应激选自以下升高的温度、降低的温度、升高的氧分压、降低的氧分压、升高的CO2分压、降低的CO2分压、饥饿、脱水、过度拥挤、剥夺睡眠、疼痛、感染、接触毒素以及黑暗。
45.一种药物标签数据库,其特征在于,该数据库包括多个药物标签记录,其中每个药物标签记录含有一种化合物的标记;一组基因的标记,其中所述基因的表达受接触所述化合物的调节,以及其中所述的基因组能将所述化合物与所述药物标签数据库中的其他所有化合物相区别。
46.如权利要求45所述的分组标签数据库,其中所述的多个药物标签记录至少含有10个记录。
47.如权利要求46所述的分组标签数据库,其中所述的这群药物标签记录至少含有50个记录。
48.如权利要求45所述的分组标签数据库,其中每个药物标签记录的所述基因组至少含有5个基因。
49.如权利要求48所述的分组标签数据库,其中每个药物标签记录的所述基因组至少含有10个基因。
50.如权利要求45所述的分组标签数据库,其中每个药物标签记录的所述基因组含有1到50个基因。
51.如权利要求50所述的分组标签数据库,其中每个药物标签记录的所述的基因组含有1到25个基因。
52.一种测定候选药物活性的方法,其特征在于,该方法包括a)提供一个分组标签数据库,所述的分组标签数据库含有多个分组标签记录,其中每个分组标签记录含有至少一个化合物的标记,其中一组内的所有化合物都具有相似或相同的主要生物活性;以及一组基因的标记,其中所述的基因的表达受接触某化合物的调节,该化合物的主要生物学活性与该分组记录中所示某化合物的主要生物学活性相似或相同,以及其中所述的基因组能将所述组与所述的分组标签数据库中的其他所有组相区别;b)为所述的候选药物提供一个候选药物表达数据组,所述候选药物表达数据组包含受检细胞接触所述候选药物后多个基因的表达反应;c)将所述候选药物表达数据组与每个分组标签进行比较;d)选择与所述候选药物表达数据组最相似的分组标签;e)鉴定候选药物的活性是否是最相似分组标签内某化合物所显示的主要生物学活性。
53.如权利要求52所述的方法,其中候选药物表达数据组与每个分组标签的相似度用S=∏XRelRkX相似性评分来计算。
54.如权利要求52所述的方法,其中所述的候选药物表达数据组含有1到200个基因。
55.如权利要求54所述的方法,其中所述的分组标签数据库还包括每个化合物的生物试验数据,以及所述的候选药物表达数据组还包括所述候选药物的生物试验数据。
56.一种设计分组标签试剂的方法,其特征在于,该方法包括a)提供多个表达数据组,每个表达数据组包含受检细胞接触某化合物后第一群基因的表达反应,其中所述的这群表达数据组包含每群具有相似或相同生物活性的测试化合物所产生的表达数据组和缺乏该测试化合物生物活性的每群对照化合物所产生的表达数据组;b)产生一个区别性衡量标准,根据基因表达情况其能将这群测试化合物与对照化合物相区别从而获得一个区别性基因组;c)从所述的区别性基因组中选择第二群基因,为所述的测试化合物群提供分组标签;以及d)提供一组能与所述分组标记内所述第二群基因的一个或多个序列特异性杂交的多聚核苷酸探针,以提供一个分组标签探针组。
57.如权利要求56所述的方法,其中步骤b)包括j)通过主要成分分析给该表达数据组排序以提供多个主要成分;ii)鉴定能将测试化合物群与对照化合物群最大程度相区别的主要成分以提供检测主要成分;以及iii)鉴定能将检测主要成分与对照化合物最大程度相区别的基因,以提供一个区别性基因组。
58.如权利要求57所述的方法,其中所述的区别性基因组是通过鉴定检测主要成分中具有最大特征值的基因而选出的。
59.如权利要求56所述的方法,其中所述的区别性衡量标准包括用Golub区别标准选择一组基因。
60.如权利要求56所述的方法,该方法还包括e)重复步骤a)-d)以产生不相关化合物的多个不同的分组标签。
61.如权利要求60所述的方法,该方法还包括f)使所述分组标签探针组连接于固相支持物中指定位置以形成分组标签阵列。
62.如权利要求61所述的方法,其中所述的分组标签阵列至少含有100个分组标签探针的组。
63.如权利要求62所述的方法,其中所述的分组标签阵列至少含有500个分组标签探针组。
64.如权利要求63所述的方法,其中所述的分组标签阵列至少含有1000个分组标签探针组。
65.一种根据权利要求61所述方法制备的分组标签阵列。
66.一种试剂盒,该试剂盒包括合适的包装容器、权利要求65所述的分组标签阵列和所述试剂盒使用说明书。
67.一种设计药物标签试剂的方法,其特征在于,该方法包括a)提供多个表达数据组,每个表达数据组包含受检细胞接触某化合物后多个基因的表达反应,其中所述的这群表达数据组包含所述的所选择的药物化合物所产生的表达数据组和每群具有相似或相同生物学活性的测试化合物所产生的表达数据组;b)产生一个区别性衡量标准,根据基因表达情况其能将这群测试化合物与对照化合物相区别从而获得一个区别性基因组;c)从所述的区别性基因组中选择多个基因,为所述的所选择的药物化合物提供药物标签。以及d)提供一组能与所述药物标签内所述基因序列特异性杂交的多聚核苷酸探针以形成一个药物标签探针组。
68.如权利要求67所述的方法,其中步骤b)包括i)通过主要成分分析给该表达数据组排序以提供多个主要成分;ii)鉴定能将测试化合物群与对照化合物群最大程度相区别的主要成分以提供检测主要成分;以及iii)鉴定能将检测主要成分与对照化合物最大程度相区别的基因,以提供一个区别性基因组。
69.如权利要求68所述的方法,其中所述的区别性基因组是通过鉴定检测主要成分中具有最大特征值的基因而选出的。
70.如权利要求67所述的方法,其中所述的区别性衡量标准包括用Golub区别标准选择一组基因。
71.如权利要求67所述的方法,该方法还包括e)重复步骤a)-d)以产生不相关化合物的多个不同的药物标签。
72.如权利要求67所述的方法,该方法还包括e)使所述的药物标签探针组连接于固相支持物的指定位置以形成药物标签阵列。
73.如权利要求67所述的方法,其中所述的药物标签阵列至少含有100个药物标签探针组。
74.权利要求73所述的方法,其中所述的药物标签阵列至少含有500个药物标签探针组。
75.权利要求74所述的方法,其中所述的药物标签阵列至少含有1,000个药物标签探针组。
76.权利要求75所述的方法,其中所述的药物标签阵列至少含有10,000个药物标签探针组。
77.一种根据权利要求72所述的方法制备的药物标签阵列。
78.一种试剂盒,该试剂盒包括合适的包装容器、权利要求77所述的药物标签阵列和所述试剂盒使用说明书。
79.一种测定候选药物活性的方法,其特征在于,该方法包括a)提供一个分组标签阵列,所述的分组标签阵列含有其上固定有多个分组标签探针组的固相支持物,其中每个分组标签探针组含有一组能与每个分组标签中的基因序列特异性杂交的多聚核苷酸探针,其中所述分组标签通过如下过程得到i)提供多个表达数据组,每个表达数据组包含受检细胞接触某化合物后多个基因的表达反应,其中所述的多个表达数据组包含具有相似或相同生物活性的各群测试化合物所产生的表达数据组和缺乏该测试化合物生物活性的一群对照化合物所产生的表达数据组;ii)产生一个区别性衡量标准,根据基因表达情况其能将这群测试化合物与对照化合物相区别从而提供一个区别性基因组;iii)从所述区别性基因组中选择多个基因,为所述测试化合物群提供分组标签;以及iv)对每一分组标签重复进行步骤i)-iii);b)使受检细胞与所述的候选药物接触;c)提取所述受检细胞的mRNA;d)将所述的mRNA逆转录成cDNA;e)使所述分组标签阵列与所述的cDNA接触;以及f)测定是否有任何分组标签探针组显示与cDNA的结合增强。
80.一种筛选化合物文库的方法,其特征在于,所述文库包括多个候选药物,该方法包括a)根据权利要求79所述的方法测定每个候选药物的活性;以及b)选择候选药物,其中由于受检细胞与所述候选化合物接触因而分组标签探针组显示与cDNA的结合提高。
81.一种检测贝特样物质活性的多聚核苷酸探针组,其特征在于,该探针包含多个能与以下基因特异性杂交的多聚核苷酸,所述基因选自大鼠细胞色素P452、大鼠细胞色素P450、大鼠细胞色素P450-LA-Ω(月桂酸Ω羟化酶)、大鼠磺基转移酶K2、大鼠细胞色素P450-LA-Ω(月桂酸Ω羟化酶)、编码细胞色素P450的大鼠Cyp4a基团座(IVA3)、大鼠细胞色素P450、大鼠线粒体3-2-反式-烯醇基-辅酶A异构酶、大鼠肉毒碱辛酰基转移酶、Wistar大鼠过氧化氢酶体烯醇基水合酶样蛋白(PXEL)、大鼠线粒体三功能蛋白的长链3-酮酰基-辅酶A硫解酶β亚单位、大鼠肝脂肪酸结合蛋白(FABP)、大鼠丙酮酸脱氢酶激酶的同工酶4(PDK4)、大鼠细胞色素B5的线粒体内的异构体、假设的蛋白质Rv3224、大鼠过氧化氢酶体烯醇基-辅酶A水解-3-羟酰基-辅酶A双功能酶、大鼠过氧化氢酶体膜蛋白Pmp26p(过氧化物酶体生成蛋白-11)、大鼠酰基辅酶A水解酶、大鼠酰基辅酶A氧化酶、大鼠酰基辅酶A水解酶、大鼠2,4-二烯醇基-辅酶A还原酶前体、大鼠线粒体3-羟基-3-甲基戊二酰基-辅酶A合酶、大鼠过氧化氢酶体烯醇基-辅酶A水解-3-羟酰基-辅酶A双功能酶、以及小鼠过氧化氢酶体长链乙酰辅酶A硫酯酶Ib(Ptelb)。
82.如权利要求81所述的多聚核苷酸探针组,其中所述的多个多聚核苷酸至少能与3个基因特异性杂交。
83.如权利要求82所述的多聚核苷酸探针组,其中所述的多个多聚核苷酸至少能与5个基因特异性杂交。
84.如权利要求83所述的多聚核苷酸探针组,其中所述的多个多聚核苷酸至少能与10个基因特异性杂交。
85.一种试剂盒,该试剂盒包括合适的包装容器、权利要求81所述的多聚核苷酸探针组和所述试剂盒使用说明书。
86.一种检测吉非贝齐样活性的多聚核苷酸探针组,该探针组包含多个能与以下基因特异性杂交的多聚核苷酸,所述基因选自大鼠脂肪酸合酶、大鼠胆固醇7α羟化酶、小鼠乙酰辅酶A合成酶、小鼠管蛋白-1、大鼠肾特异性蛋白质(KS)、大鼠2,3-氧化角鲨烯羊毛固醇环化酶、大鼠醛脱氢酶、以及大鼠胸腺素β-10。
87.如权利要求86所述的多聚核苷酸探针组,其中所述的多个多聚核苷酸至少能与3个基因特异性杂交。
88.如权利要求87所述的多聚核苷酸探针组,其中所述的多个多聚核苷酸至少能与5个基因特异性杂交。
89.如权利要求88所述的多聚核苷酸探针组,其中所述的多个多聚核苷酸至少能与10个基因特异性杂交。
90.一种试剂盒,该试剂盒包括合适的包装容器、权利要求81所述的多聚核苷酸探针组和所述试剂盒使用说明书。
91.一种筛选具有贝特类物质活性的候选药物的方法,其特征在于,该方法包括a)使受检细胞与候选药物接触;b)撮所述受检细胞的mRNA;c)将所述的mRNA逆转录成cDNA;d)使所述cDNA与贝特类物质标签探针组杂交,所述探针组包含多个能与贝特类物质标记基因特异性杂交的多聚核苷酸,其中所述的贝特类物质标签基因选自大鼠细胞色素P452、大鼠细胞色素P450、大鼠细胞色素P450-LA-Ω(月桂酸Ω羟化酶)、大鼠磺基转移酶K2、大鼠细胞色素P450-LA-Ω(月桂酸Ω羟化酶)、编码细胞色素P450的大鼠Cyp4a基因座(IVA3)、大鼠细胞色素P450、大鼠线粒体3-2-反式-烯醇基-辅酶A异构酶、大鼠肉毒碱辛酰基转移酶、Wistar大鼠过氧化氢酶体烯醇基水合酶样蛋白(PXEL)、大鼠线粒体三功能蛋白的长链3-酮酰基-辅酶A硫解酶β亚单位、大鼠肝脂肪酸结合蛋白(FABP)、大鼠丙酮酸脱氢酶激酶的同工酶4(PDK4)、大鼠细胞色素B5的线粒体内异构体、假设的蛋白质Rv3224、大鼠过氧化氢酶体烯醇基-辅酶A水解酶-3-羟酰基-辅酶A双功能酶、大鼠过氧化氢酶体膜蛋白Pmp26p(过氧化物酶体生成蛋白-11)、大鼠酰基辅酶A水解酶、大鼠酰基辅酶A氧化酶、大鼠酰基辅酶A水解酶、大鼠2,4-二烯醇基-辅酶A还原酶前体、大鼠线粒体3-羟基-3-甲基戊二酰基-辅酶A合酶、大鼠过氧化氢酶体烯醇基-辅酶A水解酶-3-羟酰基-辅酶A双功能酶、以及小鼠过氧化氢酶体长链乙酰辅酶A硫酯酶Ib(Ptelb);以及e)测定所述受检细胞是否显示贝特类物质标签基因表达升高。
92.一种数据库产品,其特征在于,该数据库产品包括计算机可读取介质,所述的介质可存储分组标签数据库,所述数据库包含多个分组标签记录,其中每个分组标签记录含有至少一种化合物的标记,其中一组内的所有化合物都显示有相似或相同的主要生物活性;以及一组基因的标记,其中所述的基因的表达受接触某化合物的调节,该化合物的主要生物学活性与该分组记录中所示某化合物的主要生物学活性相似或相同,以及其中所述的基因组能将所述组与所述分组标签数据库中的其他所有组相区别。
全文摘要
本发明提供了产生和使用分组标签和药物标签的方法,其中分组标签包含多个基因,这些基因的表达受一组相关药物化合物的调节是特征性的和特异性的,其中的药物标签包含多个基因,这些基因的表达受各个药物化合物的调节是特征性的和特异性的。
文档编号G06F19/00GK1650253SQ03809247
公开日2005年8月3日 申请日期2003年2月28日 优先权日2002年2月28日
发明者G·纳特索里斯 申请人:艾科尼克斯药业股份有限公司