专利名称:检测或定量测定核酸种类的方法和组合物的利记博彩app
技术领域:
本发明一般涉及核酸分析的方法和仪器,并且,特别地,涉及核酸分析的方法和仪器。
背景测定核酸样品中四个核苷酸的速率是分子生物学,医药,和生物技术进一步发展的主要技术障碍。从1978年开始就使用了包括在凝胶中分离核酸分子的核酸测序方法。其它己证实的测定核酸序列的方法是通过杂交测序(SBH)。
测定核苷酸序列(即样品中A,G,C和T核苷酸的顺序)的传统方法是,在特异核苷酸处降解核酸片段,或者通过复制链的双脱氧链终止来制备随机终止的、差别标志的混合物。得到的1-500bp范围内的核酸片段然后在凝胶上分离,产生梯带,其中相邻样品长度差别在于一个核苷酸。
以阵列为基础的SBH研究在分离,降解,合成或成象核酸分子中不需要单个碱基的拆分。使用k个碱基长度的短的寡核苷酸的失配鉴别杂交,可以就靶核酸确定一系列组成k聚体寡核苷酸。靶核酸的序列可以通过独一无二地与重叠评价(scored)的寡核苷酸来装配。
有几种途径能实现通过杂交测序。在称之为SBH版本1的方法中,核酸样品排成阵列,标记探针与样品杂交。带有相同系列核酸样品的影印膜可以用来平行评价几种探针和/或探针可以是多重结合(multiplexing的。核酸样品可以排成阵列并且在尼龙膜或者其它合适的支持体上杂交。每个膜阵列可以重复使用多次。版本1对于大量样品成批处理特别有效。
在SBH版本2中,探针在位于相应于它们各自序列的基质上排成阵列,标记的核酸样品片段与这些排成阵列的探针杂交。在这种情况下,可以在与所有排列的探针同时杂交反应测定关于片段的序列信息。关于对其它核酸片段的测序,可以重复使用相同的寡核苷酸阵列。阵列可以通过点斑或者原位合成探针而制备。
在版本3 SBH中,使用两套探针。在一个实施方案中,一套可以是已知位置探针阵列形式,另一套,标记的一套,可以贮存在多孔平板中。在这种情况下,靶核酸不需要标记。靶核酸和一种或多种标记探针加入到排列的探针系列中。如果接触的探针和一个标记探针两者在靶核酸上会合杂交,它们共价连接,产生与连接的探针的长度的总和相等的被检测的序列。该方法用于测序长核酸片段,例如没有小片段核酸亚克隆的完整细菌基因组。
在本发明中,SBH被用来有效鉴定和测序一种或多种核酸样品。该方法在核酸诊断,法医学和基因制图中有诸多应用。其也可以用来鉴定遗传病和其它性状成因突变,评价生物多样性和产生多种类型以核酸序列为基础的数据。
发明概述本发明提供检测靶核酸种类的方法,包括下面的步骤提供附着在基质上的探针和多个标记探针的阵列,其中选择的每个标记探针具有与靶核酸的第一部分互补的第一核酸序列,并且其中至少一个与基质附着的探针的核酸序列与靶物的核酸序列的第二部分互补,该第二部分与第一部分邻接;在探针序列与互补序列杂交的合适的条件下将靶核酸加样于阵列;将标记探针加到阵列中;与基质附着的探针和靶核酸杂交;标记探针与靶核酸杂交;标记探针与阵列中邻接杂交的探针附着;和检测与阵列中的探针附着的标记探针。根据本发明的优选的方法附着基质的探针的阵列包括一套通用探针。
根据本发明又一个优选方面,至少两个附着基质的探针限定靶核酸序列的重叠序列,并且更优选至少两个标记探针限定靶核酸序列的重叠序列。
还有,根据本发明的另一方面是提供一种方法,其用于对已知序列的靶核酸的检测,包括下面的步骤在杂交条件下,核酸样品与一套附着固体基质的固定化寡核苷酸探针接触,其中固定化探针能特异性与所述靶核酸序列的不同部分杂交;在杂交条件下在溶液中,靶核酸与一套标记的寡核苷酸探针接触,其中标记探针能特异性与同所述固定化探针邻接的靶核酸序列的不同部分杂交;固定化探针与标记探针共价连接,所述标记探针与固定化探针(例如用连接酶)在靶序列上紧邻;去除所有没有连接的标记探针;通过测定所述附着于固定化探针的标记探针的存在来测定靶核酸的存在。本发明还提供了测定多套部分或完全测序的基因在细胞种类,组织或组织混合物中表达的方法,包括下面的步骤确定对测序基因特异的固定和标记探针对;将未标记的核酸样品和相应的标记探针与固定探针的一个或多个阵列杂交;相邻的杂交的标记的和固定探针之间形成共价键;去除未连接的探针;和通过测定与阵列中预先特定的位置结合的标记探针来确定测序基因的存在。
在本发明该方面的优选实施方案中,靶核酸将鉴定感染性因子的存在。
此外,本发明提供寡核苷酸探针的阵列,其包括尼龙膜;尼龙膜上有多个寡核苷酸探针亚阵,亚阵包括多个分立的点斑,其中每一个点斑由多个相同序列的寡核苷酸探针组成;和位于尼龙膜上亚阵之间多个疏水性隔栅,通过这些多个疏水性隔栅防止相邻亚阵之间交叉污染。
进一步,本发明提供测序在靶核酸中具有第一末端和第二末端的重复序列的方法,包括下面步骤(a)提供多个不同长度的间隔寡核苷酸,其中间隔寡核苷酸包括重复序列;(b)提供已知与重复序列的第一末端邻接的第一寡核苷酸;(c)提供多个第二寡核苷酸,其中一个与重复序列的第二末端相邻,其中多个第二寡核苷酸是标记的;(d)使第一寡核苷酸和多个第二寡核苷酸,和多个间隔寡核苷酸之一与靶核酸杂交;(e)连接杂交的寡核苷酸;(f)从未连接的寡核苷酸分离上连接的寡核苷酸;和(g)检测连接的寡核苷酸中的标记。
进一步,本发明提供测序在靶核酸中具有第一末端和第二末端的分支点序列的方法,包括下面步骤(a)提供与分支点序列的第一部分互补的第一寡核苷酸,其中第一寡核苷酸从分支点序列的第一末端伸展至少一个核苷酸;(b)提供多个标记的,并且与分支点序列的第二部分互补的第二寡核苷酸,其中多个第二寡核苷酸从分支点序列的第二末端伸展至少一个核苷酸,并且其中从分支点序列的第二末端伸展的第二寡核苷酸部分包括与多个由分支点序列产生的序列互补的序列;(c)使第一寡核苷酸,和多个第二寡核苷酸中的一个与靶DNA杂交;(d)连接杂交的寡核苷酸;(e)从未连接的寡核苷酸分离连接的寡核苷酸;和(f)检测连接的寡核苷酸中的标记。
此外,本发明提供通过使用探针证明序列的方法,所述探针预计对于靶核酸是阴性的。然后通过使靶核酸与“阴性”探针杂交来证明这些探针与靶核酸不形成完全的配对来证实靶物序列。
此外,本发明提供使用与不同的标记相配合使得探针在杂交反应中可以是多重结合而没有损失序列信息的寡核苷酸探针分析核酸的方法(即不同的探针具有不同的标记,使得可以区分不同探针与靶物的杂交)。在优选的实施方案中,标记是放射性同位素,或者荧光分子,或者酶,或者电子团物质(electrophore mass)标记。在更优选的实施方案中,在版本III SBH中使用不同标记的寡核苷酸探针,并且一起连接多个探针(多于两个,其中一个探针是固定化探针)。
此外,本发明提供当与样品中同源核酸相比靶物以非常少的量存在时检测具有已知序列的靶核酸的存在的方法。在优选的实施方案中,靶核酸是以非常低的频率在样品中存在的等位基因,而样品具有来自很多来源的核酸。在另一个优选的实施方案中,靶核酸具有突变序列,并且以非常低的频率存在于核酸样品中。
此外,本发明提供通过使用单道凝胶(single pass gel)测序证明靶核酸序列的方法。用于单道凝胶测序的引物是由通过SBH获得的序列衍生的,这些引物在标准桑格测序反应中使用,提供靶核酸的凝胶序列信息。通过单道凝胶测序获得的序列然后与SBH衍生的序列相比较,来证实序列。
此外,本发明提供通过使用单道凝胶测序来解释分支点的方法。用于单道凝胶测序反应的引物是从第一轮SBH测序后获得的Sfs的末端鉴定的,并且这些引物在标准桑格测序反应中使用,提供通过Sfs的分支点的凝胶测序信息。然后通过比较从分支点至Sfs的桑格测序结果比较Sfs来鉴定毗邻的Sfs。
此外,本发明提供通过PCR制备包含靶核酸样品的方法,在SBH反应之前不用纯化PCR产物。在版本I SBH中,粗PCR产物不用事先纯化即可施加于基质,并且该基质可以在加入标记探针之前洗涤。
此外,本发明提供分析靶核酸的方法和仪器。仪器包括在期望的时间一起混合的两个阵列的核酸。在优选的实施方案中,其中一个阵列中的核酸是标记的。在更优选的实施方案中,一种材料置于两个阵列之间,这种材料防止阵列中核酸的混合。当取出材料或者使可透过时,两个阵列中的核酸混合在一起。在另一个优选的实施方案中,一个阵列中的核酸是靶核酸而另一个阵列中的核酸是寡核苷酸探针。在另一个优选的实施方案中,两个阵列中的核酸是寡核苷酸探针。在另一个优选的实施方案中,一个阵列中的核酸是寡核苷酸探针和靶核酸,而另一个阵列中的核酸是寡核苷酸探针。在另一个优选的实施方案中,两个阵列中的核酸是寡核苷酸探针和靶核酸。
使用上述仪器的本发明的一个方法包括下面的步骤提供与基质固定的核酸阵列,提供核酸的第二阵列,提供使第二阵列中的核酸与固定的阵列的核酸接触的条件,其中核酸阵列中的一个是靶核酸而另一个阵列是寡核苷酸探针,和分析杂交结果。在优选的实施方案中,固定的阵列是靶核酸而第二阵列是标记的寡核苷酸探针。在更优选的实施方案中,一种材料置于两个阵列之间,防止阵列中核酸的混合,直到材料被取出或者使之可透过核酸。
在使用上述仪器的本发明的第二个方法中包括下面步骤提供两个核酸阵列,提供使两个阵列的探针相互之间接触和与靶核酸接触的条件,连接在靶核酸上邻接的探针,和分析结果。在优选的实施方案中,一个阵列中的探针是固定的,另一个阵列中的探针是标记的。在更优选的实施方案中,一种材料置于两个阵列之间,防止探针的混合,直到材料被取出或者使之可透过探针。
优选实施方案的详细描述版本I SBH适用于同时分析一大套样品。在大的阵列上平行评价上千种样品可以使用一小片膜在上千个独立的杂交反应中进行。对于每个样品,每个反应的DNA鉴定可能涉及1-20个探针,而在某些情况下突变的鉴定涉及具体选择或设计的1000个以上探针。为了鉴定突变DNA片段的性质,对于在杂交第一轮中检测到的各突变可以合成或选择特异性探针。
可以在可以被适当的间隔区分开的小阵列中制备DNA样品,它可以用选自可以在多孔平板中排成阵列的一套寡核苷酸中探针同时检测。小的阵列可以由一个或多个样品组成。每个小的阵列中的样品可以包括一个序列的突变体或者各样品。连续的小阵列可以组成更大的阵列。这样的更大的阵列可以包括相同小阵列的重复或者可以包括不同DNA片段样品的阵列。一套通用的探针包括以预先指定的精确性分析DNA的足够的探针,例如,就每个碱基对(“bp”)读出的丰余性来说。这些系列可以包括比一个具体的片段所需要的更多的探针,但是可以包括比试验上千个不同序列的DNA样品所需要的更少的探针。
DNA或等位基因鉴定和诊断测序方法可以包括下面的步骤1)从提供的代表性的或通用的与多个小阵列的每一个杂交的探针中,选择一亚套探针;2)将第一探针加到要平行分析的各阵列上的各亚阵列中;3)进行杂交并且评价杂交结果;4)去除事先使用的探针;5)对留下要评价的探针重复杂交、评价和去除步骤;6)处理得到的结果,获得最终分析结果或者确定要杂交的另外的探针;7)对于某些亚阵列进行另外的杂交;和8)处理完全成套的数据并且获得最终分析结果。
该项研究提供了一种类型(例如DNA,RNA)少量核酸样品的快速鉴定方法和测序方法,也提供了通过使用一套预先合成的可操纵大小的探针平行分析亚阵列形式的很多样品类型的方法。两项研究结合,产生用于鉴定DNA同一性,用于DNA诊断学,和用于鉴定突变的有效而通用的方法。
对于鉴定已知的序列,可以用一小套较短的探针代替较长的独特的探针。在该项研究中,尽管要评价更多的探针,但是可以合成一套通用的探针来覆盖所有类型序列。例如,6-聚体一整套只包括4096个探针,7-聚体完全一套只包括16384个探针。
DNA片段的完全测序可以用两种水平的杂交作用进行。一种水平是至少覆盖每一个碱基一次的充足一套探针的杂交作用。为此目的,对于标准样品可以合成特定一套探针。与这样一套探针杂交的结果表明非标准样品中是否和何处存在突变(不同)。此外该套探针可以包括证实“阳性”(positive)探针的杂交结果的“阴性”(negative)探针。为了确定改变的同一性,另外的特异性探针可以与样品杂交。这另外一套探针将具有“阳性”(突变序列)和“阴性”探针,序列变化可以通过阳性探针鉴定和通过阴性探针证实。
在另一个实施方案中,可以评价来自一套通用探针的所有探针。一套通用探针使得对于每个样品在两步过程中评价相对少量的探针而不需要浪费时间。杂交过程包括连续探测,第一步骤中计算要首先杂交的最佳探针亚套,然后以获得的结果为基础,第二步从通用一套中确定待评价的另外的探针。两套探针都具有“阴性”探针,证实该套中的阳性探针。此外,获得的序列然后可以通过使样品与一套从SBH结果鉴定的“阴性”探针杂交而在分开的步骤中证实。
在SBH序列装配中,可以特殊考虑由于机率或生物原因而在分析的DNA片段中重复发生的K-1寡核苷酸。如果没有另外的信息,就可以尽每一个碱基对读出次数完全装配相对小的DNA片段。
在相对较长片段的装配中,由于K-1序列(即比探针长度短的序列)在一套阳性-评价探针中重复出现可能会产生两可解释。如果要测定突变的或类似的序列(即K-1序列不是同样重复),则不存在这个问题。一个已知的序列可以用作模板,通过就未知序列排列阳性探针,使之在模板上最佳吻合,来正确装配一个已知是类似的序列(例如通过其在数据库中的存在)。
使用样品阵列避免单个样品上或者一小套样品上很多寡核苷酸的连续评价。该方法使得通过只操作一个自然目标平行评价多个探针。长度为1000bp的DNA样品的亚阵可以以相对短的时间测序。如果在阵列中用样品点斑50个亚阵,并且阵列重复探测10次,则可能评价500个探针。在筛选突变发生时,使用足够的探针以覆盖每一个碱基三次。如果存在突变,几个覆盖探针将受到影响。用关于阴性探针的同一性的信息可以以两个碱基的精度对突变作图。为了解释以该方法制图的单个碱基突变,可以使用另外15个探针。这些探针覆盖两个有问题的位置的所有的碱基组合(假设不包括缺失和插入)。这些探针可以在包含给定样品的50个亚阵上在一次循环中评价。在多标记着色方案的实现中(即多重结合的(multiplexing)),各自带有不同的标记例如不同的荧光染料的两个至六个探针可以用作一个集合体,则可以减少杂交循环的次数并且缩短测序过程。
在更复杂的情况下,可能是两个很近的突变或插入。其要用更多的探针操作。例如,三个碱基插入可以用64个探针解决。最复杂的情况可以通过几步杂交来进行,并且在先前杂交的结果的基础上选择新的一套探针。
如果要分析的亚阵包括一种类型的几十个或几百个样品,则可能发现它们中的几个包含一个或多个变化(突变,插入或缺失)。对于发生突变的各片段,可以评价一套特异的探针。要对于一个样品类型评价的探针的总数可以是几百个。平行地对完全一样的阵列评价有利于以相对少次循环评价上百个探针。另外,可以集中相容性探针。对于选择来检测特殊DNA片段的探针可以指派阳性杂交,因为这些片段通常其构成碱基的75%不同。
通过使用更大一套更长的探针,可以分析更长的靶物。这些靶物可以代表片段的集合体例如外显子克隆的集合体。
特异杂交评价方法可以用来确定要从二倍体染色体测序的基因组片段中突变型的存在。两个变异是i)来自一条染色体的序列代表已知的等位基因,而来自另一条染色体的序列代表新的突变型;或者,ii)两条染色体包含新的但是不同的突变型。在两种情况下,设计扫描步骤对变化作图,给出突变型位置处两倍的最大信号差别。此外,该方法可以用来鉴定基因的哪一个等位基因被个体携带,和该个体对于该基因是纯合的还是杂合的。
在第一种情况下需要的评价两倍信号差别可以通过将相应的信号与纯合的和杂合的对照物相比较而有效实现。该方法能对于给定样品中每一个具体的探针测定杂交信号的相对减少。这是明显的,因为对于具体探针与具有相同完全配对靶物的不同核酸片段的杂交,杂交效率的变化可以大于两倍。另外,根据寡核苷酸探针的数目,不同突变位点可以影响一个以上探针。两个至四个连续探针的信号的减弱产生更明显的突变位点的指示。可以通过用小套选择的探针检测来检查结果,其中选择给出完全配对信号的一个或几个探针,其平均比来自包含失配的双链体的信号强八倍。
分隔膜使非常灵活地组织试验成为可能,以适应代表给定序列类型的相对较大数目的样品,或者用相对少数目的样品代表的样品的很多不同类型。4-256个样品范围的处理特别有效。可以设计该点斑数目范围内的亚阵来配对用来贮存和标记寡核苷酸的标准多孔平板的构型和大小。可以调节亚阵的大小以适于不同数目的样品,或者可以使用少量标准亚阵大小。如果一种类型的所有样品不适合固定在一个亚阵中,则可以使用另外的亚阵或膜并且用相同的探针进行。另外,通过调节每一个亚阵的复制品的数目,可以改变完成鉴定或测序方法的时间。
如这里所使用的,“中间体片段”意指长度在5和1000个碱基之间,优选长度在10和40bp之间的寡核苷酸。
在版本3中,第一套已知序列的寡核苷酸探针在允许与具有各自互补序列的核酸杂交的条件下固定在支持体上。标记的第二套寡核苷酸探针在溶液中提供。在这些套中和在这些套之间,探针可以是相同长度或不同长度的。要测序的核酸或其中间体片段可以双链形式(尤其是那里存在recA蛋白质,允许非变性条件下杂交),或者单链形式和在允许不同互补程度杂交的条件下(例如在使完全配对和一个碱基对失配杂交体之间区别的条件下)加样于第一套探针。要测序的核酸或其中间体片段可以在第二套探针加样之前,之后或同时加样第一套探针。与靶物上邻接位点结合的探针键合在一起(例如,通过堆积作用或者通过连接酶或者在邻接的探针之间引起化学键形成的其它方法)。允许邻接探针键合之后,没有通过化学键合固定到第一套探针的成员的表面的片段和探针被洗掉,例如,使用融化杂交体的高温(最高达100℃)洗液。然后可以使用适合使用的标记物(例如,可以是化学发光物,荧光,放射性,酶,光密度或者电子团物质标记)的方法检测从第二套中键合的探针。
其中,如果在特定的条件下通过氢键形成稳定的双链体,则核酸碱基“配对”或是“互补的”。例如,在通常在杂交试验中使用的条件下,腺嘌呤(“A”)配对胸腺嘧啶(“T”),但是不配对鸟嘌呤(“G”)或胞嘧啶(“C”)。类似地,G配对C,但是不配对A或T。其它的碱基以基本上不特定的方式氢键键合,例如肌苷或通用碱基(Universal Base)(“M”碱基,Nichols等,1994),或者其它修饰的碱基,例如甲基化碱基,例如,是与其在特定条件下形成稳定的双链体的那些碱基互补的。如果探针中的每一个碱基与要测序的核酸通过氢键根据Watson和Crick碱基配对规则形成双链体,则一个探针被说成是“完全互补”或者说成是“完全配对”(即不存在任何周边序列的影响,形成的双链体对于特殊探针具有最大结合能)。“完全互补”和“完全配对”也意味着包括具有类似物或修饰过的核苷酸的探针。对于类似物或修饰核苷酸“完全配对”根据选择类似物或修饰过的核苷酸的“完美匹配规则”(例如对于特殊类似物或修饰核苷酸具有最大结合能的结合对)判断。探针中不根据“规则”形成结合对的每一个碱基说成是在特定的杂交条件下“失配”。
可以装配一列探针,其中每一个探针与要测序的核酸完全配对。然后可以分析这列中的探针,将它们以最大重叠方式排序。这样的排序可以通过比较第一探针和列中的其它探针的每一个来确定哪一个具有3’末端的探针具有与第二探针的5’末端处的碱基的序列相同的最长的碱基序列。第一和第二探针可能是重叠的,可以通过比较第二探针的5’末端和其余所有的探针的3’末端和通过比较第一探针的3’末端和其余所有的探针的5’末端来重复该过程。继续该过程直到列中没有与其它探针重叠的探针。或者,可以从阳性探针列中选择一个以上探针,和可以平行产生一套以上重叠的探针(“序列核”)。用于序列该过程任一过程的一列探针之集合可是与要测序的核酸完全互补的所有探针列或者可以是其任何亚套。
探针的5’和3’末端可以重叠产生更长一段序列。继续装配探针的该过程直到由于分支点(探针在该片段中重复),比探针更长的重复序列,或者未克隆的片段而产生歧义。任何两个歧义之间的一段序列被认为是亚克隆序列片段(Sfs)。在由于与探针有可替换的重叠的可能性而产生歧义情况下,可以使用跨越可替换重叠位点的更长探针的杂交,竞争杂交,跨越歧义位点的探针的可变末端与末端对的连接和单道凝胶分析(通过Sfs的清楚的顺序)。
通过使用上述方法,人们可以从重叠或非重叠的探针的杂交(与可以用作鉴定核酸样品的特征的核酸样品的认定相关)方式获得任何期望水平的序列,通过装配Sfs,直至装配出中间体片段的完全序列或者完全源DNA分子(例如染色体)。
测序一般可以包括下面的步骤(a)在有效使片段与具有互补序列的固定化探针形成第一复合体的条件下,使固定化寡核苷酸探针阵列与核酸片段接触;(b)在有效使第一复合体与标记探针杂交的条件下,在溶液中,使第一复合体与一套标记的寡核苷酸探针接触,从而形成第二复合体,其中该片段与固定化探针和标记探针两者杂交;(c)从第二复合体中去除没有杂交邻接于固定化探针的所有的标记探针;
(d)通过检测标记的存在来检测邻接的标记的和未标记探针的存在;和(e)通过连接固定化和标记探针的已知序列来确定片段的核苷酸序列。
可以选择杂交和洗涤条件来大量检测完全配对杂交体(例如其中片段和探针在七分之六位置杂交的那些),可以选择杂交和洗涤条件来使分辨完全配对和一个碱基失配,或者可以选择杂交和洗涤条件来允许只检测完全配对杂交体。
合适的杂交条件可以通过优化程序或中试研究常规确定。这样的方法和研究由本领域技术人员常规进行来建立实验室中使用的方案。参见,例如Ausubel等,分子生物学通用方法(Current Protocols inMolecular Biology),Vol.1-2,John Wiley & Sons(1989);Sambrook等,分子克隆实验室手册(Molecular Cloning A Laboratory Manual),第二版,Vols.1-3,冷泉港出版社(1989);和Maniatis等,分子克隆实验室手册(Molecular CloningA Laboratory Manual),冷泉港冷泉港实验室,纽约(1982),其全部在这里引作参考。例如,条件,例如温度,成分浓度,杂交和洗涤次数,缓冲液组成和它们的pH和离子强度可以变化。
在其中标记的和固定化探针不是自然或化学连接的实施方案中,检测仅仅依赖于控制严格性的洗涤步骤。在这样的条件下,邻接的探针由于邻接的探针之间堆集作用而提高了结合亲和性。可以如上所述改变条件来优化该方法。
在其中固定化和标记探针是连接的实施方案中,连接作用可以通过化学连接试剂(例如水溶性碳化二亚胺或溴化氰)起作用,或者可以使用连接酶,例如商售T4DNA连接酶。可以选择洗涤条件来区分邻接的和非邻接的标记的和固定化探针,利用邻接探针对非邻接探针之间的稳定性的差别。
寡核苷酸探针可以用荧光染料,化学发光体系,放射性标记(例如35S,3H,32P或33P)或者用质谱可检测的同位素来标记。
其中未知序列的核酸分子比大约45或50bp更长的情况下,分子可以分成片段并且测定片段的序列。通过限制性酶,剪切或NaOH可以完成片段化。可以通过大小分离片段(例如通过凝胶电泳)获得大约10-40bp的优选的片段长度。
寡核苷酸可以通过本领域公知的多种方法固定化。例如通过磷酸根基团使用试剂例如亚磷酰胺核苷(Nucleoside phosphoramidite)或磷酸氢核苷。可以使用玻璃,尼龙,硅和碳氟化合物支持体。
可以将寡核苷酸组成阵列,这些阵列可以包括给定长度所有探针的全套或亚套,或者选择长度的探针套。可以使用疏水分配来分离探针或探针亚阵列。可以对于各种各样的应用设计阵列(例如作图,部分测序,为诊断目的的目标区的测序,mRNA测序和大规模测序)。通过选择基质上探针的组合和排列可以设计具体的芯片来用于特殊的应用。
例如,可以构建所有寡核苷酸探针长度为5个碱基的1024固定化探针阵列(每个阵列含有1024个截然不同的探针)。该例子中的探针从信息意义上说是5-聚体(它们实际上可能是更长的探针)。第二套10245-聚体探针可以被标记,并且各标记的的探针的一个可以和要测序的片段一起加样于固定化探针的阵列。在该例子中,1024阵列可以结合成一个大的超阵列,或“超芯片”。在其中固定化探针和标记探针中的一个沿核酸片段尾-尾杂交的那些情况下,两个探针例如通过连接而结合,去除未结合标记后,通过将加样于已知序列的标记探针与阵列上已知序列的固定化探针的一点处标记的存在相联系,来检测与样品片段互补的10-聚体。样品片段的序列就是与标记探针的序列连续的固定化探针序列。以这种方法,,通过只使用5-聚体的和因此涉及上千次寡核苷酸合成的努力的组合方法可以测试所有一百万可能的10-聚体。
要测序的核酸样品可以片段化或者另外处理(例如通过使用recA)来避免在样品中妨碍杂交的次级结构。样品可以通过例如用限制性内切酶例如Cvi JI消化,物理剪切(例如通过超声),或者通过氢氧化钠处理而片段化。得到的片段可以通过凝胶电泳分离,而且适合长度的片段,例如大约10bp和大约40bp之间的片段可以从凝胶中提取。
可再用的版本3 SBH阵列可以通过在固定的和标记探针之间引入可裂解键,然后在完成一轮版本3分析后裂解该键而产生。标记探针可以是核糖核苷酸或者核糖核苷酸可以用作标记探针中的连接碱基,这样该探针可以接着例如通过RNA酶或者鸟嘧啶-DNA糖苷化处理,或者氢氧化钠处理而去除。另外,通过化学连接而产生的键可以被选择性裂解。
其它变化包括使用修饰的寡核苷酸以提高特异性或有效性,循环杂交以提高杂交信号,例如通过在对第一套标记探针优化选择的条件下(例如温度)进行杂交循环,接着在对第二套标记探针优化选择的条件下杂交。读框的位移可以通过使用末端是4个核苷酸碱基A,T,C和G的一个的探针的混合物(优选等摩尔量的混合物)来测定。
分支点对于片段序列的排列产生歧义。尽管序列信息是通过SBH获得的,但是或者(i)长的阅读长度,以完全凝胶测序所用的一部分的单道凝胶测序;或者(ii)与相关的序列比较,可以被用来使发生这样的歧义(“分支点”)的杂交数据排列有序。用于通过分支点的单道凝胶测序的引物从SBH序列信息鉴定或者从已知的载体序列例如载体插入位点的侧翼序列鉴定,并且在样品核酸上进行标准的桑格-测序反应。从单道凝胶测序获得的序列与读进和读出分支点的Sfs相比较来鉴定Sfs的顺序。或者,通过比较Sfs的序列和相关的序列和将Sfs排序产生与相关的序列最相近的序列来确定Sfs顺序。
另外可以通过单道凝胶测序来测定靶片段中串联重复核酸片段的数目。因为串联重复很少发生在编码蛋白质的基因部分,所以只是当这些非编码区中的一个鉴定为是特别令人感兴趣的时才进行凝胶测序步骤(例如如果其是重要的调控区)。
获得对一套只有大约200个寡核苷酸探针所表现出的杂交的程度的信息(完全测序所需要的努力的大约5%的努力)定义各基因的独特特征,并且用来从文库中分选cDNA来测定文库是否含有多个相同基因的拷贝。通过这样的特征,可以将相同的,类似的和不同的cDNA加以区别和编入目录。
分离,克隆和测序核酸的核酸和方法是本领域技术人员公知的。参见,例如Ausubel等,分子生物学通用方法(Current Protocols inMolecular Biology),Vol.1-2,John Wiley & Sons(1989);和Sambrook等,分子克隆实验室手册(Molecular Cloning A Laboratory Manual),第二版,Vols.1-3,冷泉港出版社(1989),两篇文献在此引作参考。
SBH是可以通过本领域技术人员公知的多种方法实施的研究得很充分的一项技术。具体地说,与通过杂交测序相关的技术,在这里将下面的文献引作参考Drmanac等,美国专利5202231(这里引作参考)-1993年4月13日公开;Drmanac等,Genomics,4,114-128(1989);Drmanac等,Proceedings of the First Int’l.Conf.ElectrophoresisSupercomputing Human Genome,Cantor等编著,World ScientificPub.Co.Singapore,47-59(1991);Drmanac等,科学,260,1649-1652(1993);Lehrach等,基因组分析基因和自然制图(GenomeAnalysisGenetic and Physical Mapping),1,39-81(1990),冷泉港实验室出版;Drmanac等,核酸研究(Nucl.Acids Res.),4691(1986);Stevanovic等,基因,79,139(1989);Panusku等,Mol.Biol.Evol.,1,607(1990);Nizetic等,核酸研究(Nucl.AcidsRes.),19,182(1991);Drmanac等,J.Biomol.Struct.Dyn.,5,1085(1991);Hoheisel等,Mol.Gen.,4,125-132(1991);Strezoska等,美国国家科学院院刊,88,10089(1991);Drmanac等,核酸研究(Nucl.Acids Res.),19,5839(1991);和Drmanac等,Int.J.GenomeRes.,1,59-79(1992)。
在下面的实施例中详细说明本发明。考虑到本发明的公开,本领域技术人员会理解在本发明范围内可以进行很多其它的实施方案和变化。因此意指本发明更宽的方面不局限于下面实施例的公开。
实施例1探针系列的制备可以制备两种类型通用系列探针。第一套是相对短的探针的整套(或者至少非互补亚套),例如所有4096(或者大约2000非互补的)6-聚体,或者所有16384(或者大约8000非互补的)7-聚体。由于包括了32000或更多探针,完全非互补8-聚体和更长探针亚套更不方便。
选择第二类型探针系列为仍然足以至少用一个探针在任何序列中读出每一个bp的探针小的亚套。例如16个中的12个二聚体是足够的。用来测序双链DNA的7-聚体,8-聚体和9-聚体的小的亚套可以分别是大约3000,10000和30000个探针。
也可以选择探针系列来鉴定已知序列的靶核酸,和/或鉴定已知序列靶核酸的等位基因或突变型。这样的一套探针包含足够的探针,使得靶核酸的每一个核苷酸位点都读到至少一次。等位基因或突变型通过缺少结合“阳性”探针中的一个而鉴定。然后通过用包含在这些探针位点处各种可能的核苷酸变化和变化的组合的探针系列询问靶核酸来测定这些等位基因或突变型的具体序列。
可以用标准化学方法用末端处一至三个非特异的(混合的A,T,C和G)或者通用(例如M碱基或肌苷)碱基来制备探针。如果使用放射性标记,探针可以在5’末端具有一个OH基团,用于激酶标记放射性标记的亚磷基团。或者也可以使用用任何可配伍的系统例如荧光染料来标记探针。也可以使用其它类型探针,例如PNA(蛋白质核酸)或包含改变双链体稳定性的修饰的碱基的探针。
探针可以保存在用条带规则的多孔平板中。对于少量探针,可以使用96-孔平板;对于10000或更多探针,优选保存在384-或864-孔平板中。5-50个平板的集合足以贮存所有的探针。大约5pg的一个探针可能足以与一个DNA样品杂交。因此,对于每一个探针少量合成大约50mg,则可以分析千万个样品。如果每一个探针对于每第三个样品使用,而且如果每一个样品长1000bp,则通过一套5000个探针可以测序超过300亿个碱基(10人基因组)。
实施例2具有修饰的寡核苷酸的探针修饰的寡核苷酸可以引入杂交探针中并且在对其适合的条件下使用。例如在C5-位置带有卤素的嘧啶可以通过影响碱基堆积而用来提高双链体稳定性。2,6-二氨基嘌呤可以用来提供带有胸腺嘧啶的碱基对中第三个氢键,从而使DNA双链体热稳定化。使用2,6-二氨基嘌呤可以提高双链体稳定性,允许淬火的更严格的条件,从而提高双链体形成的特异性,抑制背景问题和允许使用更短的寡聚物。
Hoheisel & Lehrach(1990)公开了这些修饰的核苷酸的三磷酸变体的合成。
根据Nichols等的设计,人们也可以使用非判别碱基类似物或者通用碱基。合成该新的类似物,1-(2-脱氧-D-核糖呋喃糖基)-3-硝基吡咯(指定为M),用于寡核苷酸探针和引物中,用来解决作为遗传密码的简并性结果,或者当只有片段化肽序列数据可得到时而出现的设计问题。该类似物具有最大堆积而氢键相互作用最小而且空间上不干扰DNA双链。
设计M核苷酸类似物使堆积相互作用最大化,使用与杂芳香环连接的质子惰性极性取代基,提高链内-和链外堆积相互作用来减小碱基配对特异性中的氢键的作用。Nichols等(1994)偏好3-硝基吡咯2-脱氧核糖核苷由于其与对-硝基苯胺的结构和电子的类似性,其衍生物是双链DNA的最小的已知的嵌入剂(intercaltors)中的一些。
二甲氧基三苯甲游基保护的核苷M的亚磷酰胺(phosphoramidite)也适合插入到用作测序和聚合酶链反应(PCR)的引物的核苷酸中。Nichols等(1994)证明大量的核苷酸可以被M置换而不损失引物特异性。
M独特的性质是其能置换连续长列核苷而且仍然得到功能测序引物。带有3,6和9个M取代的序列已经报道给出可读测序梯,用三个不同的包含M的引物的PCR都产生正确产物的扩增作用(Nichols等(1994))。
含有3-硝基吡咯的寡核苷酸作为引物起作用的能力强有力地提示一定是与互补链形成了双链结构。据报道,对于寡核苷酸对d(5-C2-T5XT5G2-3)和d(5-C2-A5YA5G2-3)(其中X和Y可以是A,C,G,T或M)获得的光热曲线与对于DNA双链-向单链转换所发现的正常S形带型相吻合。含有XM碱基对(其中X可以是A,C,G,T或M,和Y是M)的寡核苷酸的Tm值据报道完全落在3℃范围内(Nichols等(1994))。
实施例3探针的选择和标记当制备亚阵的阵列时,确定要在每一个亚阵上的每一次杂交循环中待杂交的探针套。例如可以从通用系列中选择一套384个探针,并且在4个循环的每一个中进行96次探测。选择在一个循环中杂交的探针优选具有类似的G+C含量。
对于每一个循环选择的探针转移到96-孔平板,然后如果还没有标记,则在贮存前通过酶激或者通过其它标记方法标记(例如用稳定的荧光染料)。
以第一轮杂交为基础,对于用于另外循环的每一个亚阵可以定义新的一套探针。阵列中的一些可能不能在一些循环中使用。例如,如果64位患者样品中只有8个样品表现出突变,而且对于每个突变首先评价8个探针,则在一个循环中可以评价所有64个探针,而32个亚阵没有使用。这些没有使用的亚阵然后可以用杂交缓冲液处理以防止滤膜的干燥。
探针可以通过任何常规方法从贮存平板回收,例如单道吸移装置,或者机器人站,例如贝克曼Biomek1000(BeckmanInstruments,Fullerton,California)或Mega Two机器人(Megamation,Lawrenceville,New Jersey)。机器人站可以与数据分析程序和探针管理程序结合。这些程序的输出可能是一个或多个机器人站的输入。
可以一个接一个地回收探针并且加入到通过杂交缓冲液回收的亚阵中。优选回收的探针可以放在新的平板中,标记,或者与杂交缓冲液混合。优选的回收方法是一个接一个进入贮存的平板并且用吸移管吸移(或者通过金属针转移)从每一个平板中移取足够量的每一种选择的探针到居间的平板中特定的孔中。分别可寻址(individuallyaddressable)的吸移管或针的阵列可以用来加快回收过程。
实施例4标记探针的制备寡核苷酸探针可以通过自动合成来制备,这对于本领域技术人员是常规的,例如,使用Applied Biosystems system。或者,探针可以使用Genosys Biotechnologies Inc.Methods,使用多孔特氟隆片板的堆积(stach)来制备。
寡核苷酸探针可以用例如放射性标记(35S,32P,33P,优选地33P),对于阵列用100-200um或100-400um点斑;非放射性同位素(Jacobsen等,1990);或者荧光团(Brumbaugh等,1988)进行标记。所有这样的标记方法是本领域常规的。例示于Sambrook等(1989)的相关部分,和进一步参考例如Schubert等(1990),Murakami等(1991)和Cate等(1991),所有文章在此具体引作参考。
关于放射性标记,普通的方法是T4多核苷酸激酶末端标记或者是使用克列诺或7个T7聚合酶的高比活标记。这些在下文描述。
合成合成的寡核苷酸,没有在其5末端处的磷酸基团,因此容易通过使用酶噬菌体T4多核苷酸激酶从[-32P]ATP或[-33P]ATP转移-32P或-33P而标记。如果反应充分进行,则这样的探针的比活可以象[-32P]ATP或[-33P]ATP本身比活一样高。设计下面描述的反应来标记10pmol寡核苷酸至高比活。通过提高或减小反应程度,保持所有组成内含物的浓度,可以容易实现不同量寡核苷酸的标记。
使用1.0ul寡核苷酸(10pmol/ul);2.0ul 10×噬菌体T4多核苷酸激酶缓冲液;5.0ul[-32P]ATP或[-33P]ATP(sp.Act.5000Ci/mmole;10mCi/ml,水溶液)(10pmole);和11.4ul水产生反应混合物。向反应混合物中进入8(8)单位(-1ul)噬菌体T4多核苷酸激酶,并且在37℃保温45分钟。反应在68℃加热10分钟以灭活噬菌体T4多核苷酸激酶。
然后测定32P或33P转移到寡核苷酸的效率及其比活。如果探针的比活是可接受的,则其被纯化。如果比活太低,则加入另外8单位酶并且在37℃再保温30分钟,然后反应在68℃加热10分钟以灭活酶。
标记的寡核苷酸可以通过例如用乙醇沉淀;用十六烷基吡啶鎓溴化物沉淀;通过经过生物-凝胶P-60的色谱;或者通过在Sep-Pak C18柱的色谱,或者通过聚丙烯酰胺凝胶电泳实现纯化。
较高比活的探针可以使用用来合成与合成的寡核苷酸互补的DNA链的大肠杆菌DNA聚合酶I的克列诺片段获得。短探针与寡核苷酸模板杂交,模板的序列是期望的放射性标记探针的互补序列。然后使用大肠杆菌DNA聚合酶I的克列诺片段扩大引物,以模板指向方式插入[-32P]dNTPs或[-33P]dNTPs。反应后,通过变性后通过在变性条件下的聚丙烯酰胺凝胶电泳分离模板和产物。用该方法,可能产生每分子寡核苷酸含有几个放射性原子的寡核苷酸探针。
为了使用该方法,人们将在微避试管(microfuge tube)中混合实现期望的比活和足以使所有模板链完全合成所需要的计算量的[a-32P]dNTPs或[a-33P]dNTPs。然后向试管中加入合适量的引物和模板DNAs,引物比模板过量3-10倍摩尔。
然后加入0.1体积10×克列诺缓冲液并充分混合。然后对于每5ul反应体积加入2-4单位大肠杆菌DNA聚合酶I的克列诺片段,混合,并且在4℃温育2-3小时。如果需要,可以通过取出小等份(0.1ul)并且测定放射性比例来监测反应过程,放射性用10%三氯乙酸(TCA)可以变得可沉淀。
反应可以用等体积凝胶-装载缓冲液稀释,加热到80℃放置3分钟,然后全部样品载到变性聚丙烯酰胺凝胶上。电泳后,凝胶放射自显影,使探针定位并且从凝胶中取出。用于荧光探针标记的各种方法也是可利用的,例如Brumbaugh等(1988)描述了荧光标记引物的合成。合成了在C-5连接12个原子的伯胺“连接臂”的脱氧尿苷类似物。类似物的合成包括通过有机金属中间体将2-脱氧尿苷衍生物化得到5(甲基丙烯酰基)-2-脱氧尿苷。与二甲氧基三苯甲游基-氯的反应产生相应的5-二甲氧基三苯甲游基加成产物。甲酯被水解,活化,并与合适的一酰基化烷基二胺反应。纯化后,得到的连接臂核苷转化为适合于化学寡核苷酸合成的核苷类似物。
然后通过使用修饰的phosphoridite化合物制备包括一个或两个连接臂碱基的寡核苷酸。向25ul 500mM碳酸氢钠(pH9.4)中50nmol连接臂寡核苷酸的溶液中加入20ul 300mM FITC的二甲亚砜溶液。混合物在室温下搅拌6小时。通过用20mM乙酸铵(pH6)从1×30cm SephadexG-25柱上洗脱而从游离的FITC分离寡核苷酸,合并第一UV-吸收峰中的级分。
一般情况下,在5’-末端的寡核苷酸的荧光标记最初包括两步。第一,在自动核酸合成期间N-保护的氨基烷基亚磷酰胺衍生物加到寡核苷酸的5’-末端。去除所有保护基团后,合适的荧光染料的NHS酯与5’-氨基偶联过夜,接着使用反相HPLC或PAGE从过量的染料中纯化标记的寡核苷酸。
Schubert等(1990)描述了使在自动DNA合成期间产生用荧光素标记寡核苷酸的亚磷酰胺的合成。
Murakami等也描述了荧光素标记的寡核苷酸的制备。
Cate等(1991)描述了使用寡核苷酸探针直接接合与直接化学发光基质结合的碱性磷酸酶(AMPPD)来检测探针。
除了合成,标记探针容易从多种商售来源购得,包括GENSET。
其它标记包括可以作为标记的抗体的特异性结合成员的配体,化学发光物,酶,可以作为标记的配体的特异结合对成员的抗体和类似物。各种各样的标记已经用在可以容易使用的免疫测定中。其它标记包括抗原,具有特异反应性的基团,和电化学可检测部分。
例如,在Xu等,色谱杂志(J.Chromatography)76495-102(1997)中-般性描述了用电子团物质标记物(“EML”)标记核酸。电子团是可以通过电子捕获质谱(EC-MS)以高敏感性检测的化合物。用本领域公知的可逆修饰核苷酸的化合物使EMLs接触探针(例如公知的核苷酸合成化学教导了分子接触作为保护基团的核苷酸的各种各样的方法)。用多种公知的电子捕获质谱装置(例如Finnigan Corporation出售的装置)检测EMLs。此外,可以在检测EMLs中使用的技术包括,例如,快原子轰击质谱(参见,例如Koster等,Biomedical Environ.Mass Spec.14111-116(1987));等离子解析质谱;电子喷射质谱/离子喷射质谱(参见.例如Fenn等,自然化学杂志(J.Phys.Chem.)884451-59(1984),PCT申请No.WO 90/14148,Smith等Anal.Chem.62882-89(1990));和基质促进激光解析/离子化作用(Hillenkamp等,“基质促进UV-激光解析/离子化作用大生物分子质谱的最新研究”,生物学质谱(Biological MassSpectrometry)(Burlingame和McCloskey编著),Elsevier SciencePublishers,Amsterdam,pp.49-60,1990);Huth-Fehre等,“寡脱氧胸苷酸的基质促进激光解析质谱”,质谱快报(Rapid Communications inMass Spectrometry),6209-13(1992))。
在优选的实施方案中,EMLs通过弱敏感性的共价键连接探针。EML在与靶核酸杂交后通过发出期望光波长的激光或其它光源从探针上释放。然后EML进入GC-MS(气相色谱-质谱仪)或者其它合适的仪器,通过其质量鉴定。
实施例5测序芯片和阵列的制备基础样品是使用附着50微米表面,给出3×3mm大小的芯片的6-聚体,其可以组合给出20×20cm阵列。另一个样品是使用附着10×10微米表面,给出9-聚体芯片,大小是5×5mm的9-聚体寡核苷酸。可以使用4000个这样的芯片,产生30×30cm阵列。在阵列中,4000-16000个寡芯片被排列成方阵列。平板,或试管的集合,如所描述的,可以用阵列包装成测序盒的部分。
阵列可以用物理方法相互分离或者通过疏水性表面分离。使用疏水性条块分隔(hydrophobic strip separation)一种可能的方法是使用这样的技术,例如QA Laboratories,Toronto,Canada生产的Iso-Grid Microbiology System。
疏水性隔栅膜过滤膜(HGMF)已经在分析食品微生物学中使用大约十年,其表现出大量菌落和自动评价的独特的吸引力。商业上可得的隔栅是购自QA Laboratories Ltd.(Toronto,Canada)的ISO-GRIDTM,其由聚砜聚合物(Gelman Tuffryn HT-450,0.45μ孔径大小)的方块(60×60cm)组成,在其上面,印有由1600(40×40)方池组成的黑色疏水性墨隔栅。HGMF事先已经用细菌悬浮液通过真空过滤接种,并且在选择的分开的或选择性介质上孵育。
因为微生物生长受膜上已知位置和大小的隔栅池的限制,HGMF功能比常规平板或膜过滤膜更象MPN仪器。Peterkin等(1987)报道,这些HGMFs当与HGMF复制因子使用时可以用来增殖和贮存基因组文库。一种这样的仪器复制来自ISO-GRID的1600个小池的每一个的生长,并且使主HGMF的很多拷贝得以制备(Peterkin等(1987))。
Sharpe等(1989)也使用了购自QA Laboratories的ISO-GRID HGMF和自动HGMF评价器(MI-100Interpreter)和RP-100 Replicator。他们报道了保持和筛选很多微生物培养物的技术。
Peterkin及其同事后来描述了使用疏水性隔栅膜过滤膜筛选DNA探针的方法(Peterkin等(1989))。这些作者报道了直接在HGMFs上有效进行菌落杂交的方法。先前,由于其上印有HGMFs的环氧砜聚合物的低DNA结合能力而获得不好的结果。但是,Sharpe等(1989)报道在与DNA接触之前,DNA与膜的表面的结合通过用聚乙烯亚胺(一种聚阳离子)处理复制的和温育的HGMF而提高。尽管该早期工作使用了细胞DNA附着,并且具有与本发明不同的目的,描述的方法学可以容易适用于版本3 SBH。
为了快速鉴定有用的序列,Peterkin等(1989)使用了来自各种各样克隆的放射性标记质粒DNA,并且试验其对制备的HGMFs上DNA的特异性。在该方法中,通过对HGMF复制品上100个生物体的菌落杂交快速筛选来自重组质粒的DNA,HGMF复制品可以容易地且可再现地制备。
用小的(2-3mm)芯片操作,并且平行实施上千个反应。本发明溶液保持相应的阵列中的芯片和探针。在一个实施方案中,在8×12版式(96芯片)中排列含有合成到硅片上的250,000个9聚体的芯片的8-8mM平板(15uM/寡核苷酸,Pease等,1994),之间有1mM沟槽。或者通过多道吸移管或者针排列加入探针,一个芯片上一个探针。为了评价所有4000个6-聚体,要使用42个芯片阵列,或者使用不同的,或者通过再次使用一套芯片阵列几次。
在上述情况下,使用该申请早期命名法,F=9;P=6;和F+P=15。芯片可以具有式BxNn的探针,其中x是特异碱基B的数目;n是非特异碱基的数目,这样x=4-10和n=1-4。为了实现更有效的杂交,和为了避免任何载体寡核苷酸的潜在的影响,特异的碱基周围是非特异性碱基,例如,用(N)nBx(N)m式子代表(图4)
实施例6制备支持体结合的寡核苷酸通过例如用化学方法直接合成寡核苷酸,实践中通常用自动寡核苷酸合成仪可以很容易地合成寡核苷酸,即小核酸片段。
用任何适宜的支持体,例如玻璃、聚苯乙烯或特富龙(teflon),本领域专业人员用任何已知的方法可以很容易地制备支持体结合的寡核苷酸。一种策略是把用标准合成仪合成的寡核苷酸精确地置于一点。用被动吸附(Inouye & Hondo,1990);用紫外光(Nagata et al.,1985’;Dahlen et al.,1987’;Morriey & Collins 1989)或通过共价健合碱基修饰的DNA(Keller et al.,1988;1989)可以达到固定目的,所有文献均引入本文作为参考。
可以使用的另一策略是用强生物素-链霉抗生物素蛋白间的相互作用作为连接物。例如Broude等人(1994)描述了生物素化探针的使用,尽管这些是双螺旋探针,但还是将其固定在链霉抗生物素蛋白包被的磁珠上。链霉抗生物素蛋白包被的磁珠可以从Dynal,Oslo处购买。这种相同的连接化学也适用于用链霉抗生物素蛋白包被任何表面。生物素化的探针可以从各种来源购买,例如,Operon Technologies(Alameda,CA)。
Nunc实验室(Naperville IL)也出售可以使用的适宜的材料。Nunc实验室已研制了一种方法,用这种方法可以将DNA共价健合到称为CovaLink NH的微孔表面上。CovaLink NH是用仲氨基(>NH)接枝的聚苯乙烯表面,所述的仲氨基作为进一步共价健合的键桥的头。可以从Nunc实验室购买CovaLink Modules。通过磷酰胺键DNA分子可以仅仅在5’-末端与CovaLink结合,固定1pmol以上的DNA(Rasmussenet al.,1991)。
已描述了利用CovaLink NH条带在5’-末端共价健合DNA分子(Rasmussen等,1991)。在所述技术中,使用了磷酰胺键(Chu等,1983)。由于仅仅使用一个共价键,因而是优选的。磷酰胺键将DNA与CovaLink NH仲氨基相连接,所述的氨基位于通过一个2nm长的间隔臂共价连于聚苯乙烯表面的间隔的一端。为了通过磷酰胺键将寡核苷酸与CovaLink NH相连,所述寡核苷酸末端必须有一个5’-末端磷酸基。那么甚至可能将生物素与CovaLink NH共价健合,然后用链霉抗生物素蛋白结合探针。
更具体地说,连接方法包括将DNA溶解在水中(7.5ng/ul)然后于95℃变性10分钟,在冰上冷却10分钟。然后将冰冷的0.1 M 1-甲基咪唑,PH7.0(1-MeIm7)加至终浓度为10mM 1-MeIm7。将ss DNA溶液分散在冰上的CovaLink NH条带(75μl/孔)中。
制备新鲜的溶于10mM 1-MeIm7的碳化二亚胺0.2 M 1-乙基-3-(3-二甲基氨基丙基)-碳化二亚胺(EDC),每孔加入25ul。将条带在50℃温育5小时。温育后用例如Nunc-Immuno洗液洗涤条带;首先将孔洗涤3次,然后用洗涤溶液将其浸5分钟,最后再将其洗涤3次(其中洗涤溶液是0.4 NaOH,加热到50℃的0.25%SDS)。
认为更适用于本发明的其他方法在PCT专利申请WO90/03382(Southern & Maskos)中作了描述,该申请引入本文作为参考。这种制备与支持体结合的寡核苷酸的方法包括将核苷3’-试剂通过磷酸酯基团经共价磷酸二酯键附着于支持体携带的脂肪族羟基上。在附着核苷上合成寡核苷酸,在不会从支持体上裂解所述寡核苷酸的标准条件下从合成的寡核苷酸中除去保护基团。适宜的试剂包括亚磷酰胺核苷(nocleoside phosphoramidite)和磷酸氢核苷(nocleosidehydrogen phosphorate)。
也可以使用在芯片上制备DNA探针阵列的策略。例如,按Fodor等人(1991)所述(该文献引入本文作为参考),直接在玻璃表面化学合成寡核苷酸时可以使用可寻址的激光激活的光去保护作用。也可以按Van Ness等人(1991)所述将探针固定在尼龙支持体上,或用Duncan& Cavalier(1988)的方法与特富龙相连;所有文献均引入本文作为参考。
按Van Ness等人(1991)所述,为了将寡核苷酸与尼龙支持体相连,经烷基化活化尼龙表面同时选择性的用氰尿酰氯活化寡核苷酸的5’-胺。
一种制备支持体结合的寡核苷酸的特殊方法是由Pease等人(1994。引入本文作为参考)描述的利用光产生的合成。这些作者使用了目前的照相平版印刷技术以得到固定寡核苷酸探针的阵列(DNA芯片)。这些方法(其中用光以高密度、缩小的阵列指导寡核苷酸探针合成)利用了对光不稳定的5’-保护的N-酰基-脱氧核苷亚磷酰胺(nocleoside phosphoramidite),表面连接化学以及多种组合的合成策略。用这种方法可以得到256个空间限定的寡核苷酸探针的方阵,然后按本文所述用于有利的版本3测序。
当然,人们很容易从商业途径购买DNA芯片,例如上述的光活化的芯片。鉴于此,人们可以与AffymetrixofSanta Clara,CA 95051,andBeckman联系。
实施例7制备核酸片段可以从任何适当的来源,例如cDNA、基因组DNA、染色体DNA、显微切割的染色体带、粘粒或YAC插入片段和RNA,包括未经过任何扩增步骤的mRNA得到待测的核酸。例如,Sambrook等人(1989)描述了三种从哺乳动物细胞中分离大分子量DNA的方法(p.9.14-9.23)。
靶核酸片段可以制备成M13,质粒或λ载体中的克隆和/或通过通过PCR或者其它扩增方法直接从基因组DNA或cDNA制备。样品可以制备或分散在多孔平板中。可以在2-500ml终体积中制备大约100-1000ngDNA样品。通过PCR制备的靶核酸可以直接应用到用于版本I SBH的基质而不用纯化。一旦靶核酸固定到基质上,可以冲洗基质或者直接用探针退火。
然后,用本领域技术人员已知的方法将所述核酸制成片段,所述方法包括,例如,用Sambrook等人(1989)描述的限制酶,用超声剪切和NaOH处理。
也可以使用Schriefer等人(1990,掺入本文作为参考)描述的低压剪切方法。在所述方法中,DNA样品在从低到中的不同压力下通过小French压力小室。一个手柄装置可以使从低到中的压力施加给所述小室。这些研究的结果表明,低压剪切是除超声和酶促将DNA制成片段的方法以外的另一种有效的方法。
将DNA制成片段的一种特别适宜的方法是由Fitzgerald等人(1992)描述的使用识别两个碱基的核酸内切酶,CviJI。这些作者描述了将DNA快速制成特定大小的片段,然后进行分离的方法,它们适用于鸟枪法克隆和测序。本发明人认为对于产生随机的,但是相对小的用于本发明测序技术的DNA来说也是特别有用的。
限制性核酸内切酶CviJI常规地在G和C之间裂解识别序列PuGCPy以得到平整末端。改变这种酶(CviJI**)特异性的典型反应条件,由pUC19(2688个碱基对)小分子产生半随机分布的DNA片段。Fitzgerald等人(1992)定量分析了这种制片段策略的随机性,使用了经快速凝胶过滤按大小分级的pUC19的CviJI**消化片段,然后不进行末端修复直接与lacZ-M13克隆载体相连。76个克隆的序列分析表明,除PuGCPy外,CviJI**还限制酶切PyGCPy和PuGCPu,而且,新的序列元(sequencedata)以一致于随机片段生成的速率积累。
正如文献中报告的,所述方法与超声处理和琼脂糖凝胶分离相比,其优点在于需要少量的DNA(0.2-0.5μg,而不是2-5μg);涉及较少的步骤(不需要预连接,末端修复,化学抽提或琼脂糖凝胶电泳和洗脱)。在制备用于版本3的DNA测序时,这些优点也是有用的。
不考虑得到或制备核酸片段的方法,重要的是将DNA变性以得到用于杂交的单链片段。通过在80-90℃将DNA溶液温育2-5分钟就可以达到此目的。然后将所述的溶液迅速冷却到2℃以防止在将DNA片段与芯片接触前,所述DNA片段复性。按实施例VI中所述,还必须从基因组DNA中除去磷酸基团。
实施例8制备DNA阵列可以通过点斑在支持体例如尼龙膜上制备阵列。通过使用金属针的阵列(其位置相应于微量滴定板中孔的阵列)通过重复将大约20nlDNA溶液转移到尼龙膜来进行点斑。通过胶印法印刷,实现比孔的密度高的斑点密度。根据所使用的标记的类型,1mm2可以容纳1-25个斑点。为了避免在一些数目的预先选择的行或列中点斑,可以制备分开的亚套(亚阵)。一个亚阵中的样品可以是相同的来自不同个体的DNA(或相同基因)的基因组片段,或者可以是不同的,重叠的基因组克隆。每一个亚阵可以代表相同样品的复本点斑。在一个实施例中,一个选择的基因片段可以从64个患者扩增。对于每一个患者,扩增的基因片段可以在一个96-孔平板(所有96孔含有相同的样品)中。对于64个患者中的每一个制备平板。通过使用96-针装置,所有的样品可以点在一个8×12×cm上。亚阵可以包括64个样品,一个样品来自一个患者。96亚阵相同的情况下,斑点跨距可以是1mm2,这样亚阵之间的间距可以是1mm。
另一种方法是使用膜或板(从NUNC.Naperville,Illinois购得),其可以通过自然隔离物例如膜上成型塑料隔栅,隔栅类似于应用于多孔平板的底部的膜的性质,或者疏水性条带。通过暴露给扁平贮磷光体屏或x-射线膜成象,固定的自然间隔物不是优选的。
实施例9杂交和评价方法标记探针可以与杂交缓冲液混合,并且优选通过多道吸移管吸移到亚阵中。为了防止亚阵之间探针的混合(如果膜中没有压印疏水性条带或自然隔栅),相应的塑料,金属或陶瓷隔栅可以紧密地压至至膜上。还有,缓冲液的基团可以减少到大约1ml或少于每mm2。使用的探针浓度和杂交条件可以是如上所述,除了洗涤缓冲液可以快速倒到亚阵阵列中,使得快速稀释探针,从而防止明显的交叉杂交。为了相同的原因,可以使用最小浓度的探针并且杂交时间延长到最大实施水平。为了DNA检测和测序,“正常”序列的知识使得使用连续堆积相互作用现象以提高信号。除了标记探针,杂交反应中可以加入另外的背对背杂交的未标记探针。杂交体的量可以提高几倍。探针可以通过连接反应连接。该方法对于分离形成“压型”的DNA区是重要的。
在放射标记探针的情况下,可以获得过滤膜的像,优选通过贮磷光体技术。可以通过CCD照相机,聚焦显微镜或者其它评价荧光标记。为了适当衡量和综合来自不同杂交试验的数据,以每一个点斑中靶物的量为基础将粗信号归一化。通过对一个斑点上评价的所有的探针的平均信号,每一个点斑的靶DNA的量的偏差可以通过各个探针的信号除以一点之上所有探针的平均信号来校正。可以评价归一化信号,通常是1-100,来比较来自不同试验的数据。还有,在各个亚阵中,可以使用几种对照DNAs来测定不含有完全配对靶物的那些样品中平均背景信号。对于从二倍体(多倍体)评分获得的样品,可以使用纯合子对照物,以识别样品中的杂合子。
实施例10与寡核苷酸的杂交寡核苷酸或者从Genosys Inc.,Houston,Texas购得或者在AppliedBiosystems 381A DNA合成仪上合成。使用的探针的大多数没有通过HPLC或凝胶电泳纯化。例如,设计探针,即具有干扰素中单一完全互补靶物,即含有921bp Eco RI-Bgl II人B1-干扰素片段的M13克隆(Ohmo和Tangiuchi,国家科学院院刊(Proc.Natl.Acad.Sci.744370-4371(1981)),又具有至少一个带有M13载体本身中一个末端碱基失配的靶物。
根据所述[Maniatis等,分子克隆实验室手册,冷泉港实验室,冷泉港,纽约(1982)],在含有T4-多核苷酸激酶(5单位Amersham),g32P-ATP(3.3pM,10mCi Amersham 3000Ci/mM)和寡核苷酸(4pM,10ng)的10ml中进行寡核苷酸的末端标记。探针的比活是2.5-5×10.9cpm/nM。
在用相同溶液湿润的基因筛选膜上点斑单链DNA(2-4ml,0.5M氢氧化钠,1.5M氯化钠),滤膜在0.05M磷酸氢二钠,pH6.5中中和,在80℃烘箱中烘干60分钟,UV照射1分钟。然后滤膜在杂交溶液(0.5MNa2HPO4,pH7.2,7%月桂酰基肌氨酸钠)中在室温下温育5分钟,并放置在塑料培养皿的表面。在每个滤膜1-6个点斑上滴加一滴具有4nM浓度的32P末端标记的寡聚物探针的杂交溶液(10ml,0.5M Na2HPO4,pH7.2,7%月桂酰基肌氨酸钠),盖上聚乙烯方片(大约1×1cm),并且在湿室中在指定的温度下培养3小时。通过在0℃下将滤膜置于6×SSC洗涤溶液中3×5分钟以去除未杂交的探针来终止杂交。滤膜或者干燥,或者进一步在指定温度下洗涤指定时间,并且放射自显影。关于辨别测定,放射自显影[可以使用磷酸成象仪(Molecular Dynamics,Sunnyvale,加里弗尼亚)]之后从干燥过的滤膜切下斑点,放置在液体闪烁混合物中并评价。IF和M13斑点的cpms的未校正的比例以D值给出。
这里报告的条件使得与非常短的寡核苷酸杂交,但是保证区别开配对的和失配的与靶核酸互补从而结合靶核酸的寡核苷酸。确定了影响有效栓测具体的短序列的因素,这些因素基于完全互补靶物和在杂种分子中仅有单一失配的不完全互补靶物间辨别程度(D)。在试验中实现了长度是6-8个核苷酸的28个探针与两个M13克隆或者与结合膜的模型寡核苷酸的斑点杂交。下面给出指导该试验方法的原理。
探针过量条件下只是比探针长几个核苷酸的与滤膜结合靶核酸的寡核苷酸杂交是对于靶物浓度的拟一级反应。该反应用下面的等式定义St/So=e-kh[OP]t其中St和So分别是时间t和to时的靶序列浓度。(OP)是探针浓度和t是温度。杂交体生成的速率常数,kh只是在0℃-30℃范围内稍微有所提高(Porschke和Eigen,分子生物学(J.Mol.Biol.)62361(1971);Craig等,分子生物学62,383(1971))。杂交体解链是对于杂交体浓度的一级反应(由于滤膜结合态,这里换成了质量,如下所示Ht/Ho=e-kmt在该等式中,Ht和Ho分别是时间t和to时的杂交体浓度;km是取决于温度和盐浓度的杂交体解链的速率常数[Ikuta等,核酸研究(Nucl.Acides Res)15797(1987);Ph Eigen,分子生物学62,303(1971)]。在作为链缔合过程杂交期间,其反向反应,解链或链的解缔合,也在发生。因此,杂交体随时间生成的量是阳性反应和反向反应的结果。通过提高探针浓度和/或降低温度,平衡向杂交体生成的反向移动。但是,在大体积缓冲液冲洗循环期间,解链反应占优势,反向反应杂交不明显,因为不存在探针。该项分析表明可工作的短寡核苷酸杂交(SOH)条件随着探针浓度或温度而变化。
在第四等式中定义了D或辨别D=Hp(tw)/Hi(tw)Hp(tw)和Hi(tw)是冲洗时间tw后保留的杂交体的量,分别是完全互补双链体和不完全互补双链体的特征量。对于给定的温度,辨别D随着10个长度冲洗时间变化并且当Hi=B时达到最大值,这是第五等式。
背景B代表系统中可检测的最低杂交信号。因为Hi的任何进一步降低可能没有测定,D随着连续冲洗而提高。通过tw时间冲洗,只是相对于B减小了Hp,并且随着D的降低而可以见到。从第三等式和第五等式得到的对于不完全杂交体的最佳冲洗时间tw是tw=-ln(B/Hi(to))/km,i因为Hp是对于相同tw的冲洗,结合等式,获得最佳辨别函数D=eln(B/Hi(to))km,p/km,i)XHp(to)/B作为T的函数的D的变化,因为最佳冲洗温度的选择,T是重要的。通过将Arhenium等式,其是K-=Ae-Ea/RT,代入前面等式成为形成最终等式D=Hp((to)/BX B/Hi(to))(Ap/Ai)e(Ea,i-Ea,p)/RT;其中,B比Hi(to)小。
因为完全杂交体的活化能,Ea.p,和不完全杂交体的活化能,Ea.i可以是相等的,或者Ea.i小于Ea.p,D不依赖温度,或者随着提高温度而降低。该结果暗示,对于SOH中通过研究严格温度条件而达到好的辨别力是未断定的。通过在低温下冲洗,人们获得同等的或更好的辨别,但是冲洗时间随着温度的降低成指数延长。如果Hi(to)相对于Hp(to)提高,辨别随着T更大地降低。
相比于Hp(to)/Hi(to)比例,低温下的D更高程度地取决于Hp(to)/B比例。该结果表明不考虑在该步骤中可以实现辨别,最好是在杂交中获得充分量的Hp。因为完全杂交体的更高量使得差别解链的时间更长以显示出结果,则通过冲洗可以获得更好的辨别。类似地,使用更大量的靶核酸,即使Km,p和Km,i之间有小的不同也可以获得必要需的辨别。
外推到比该单一模型所覆盖的更复杂的情况,结论是就获得辨别而言在低温下冲洗对于在给定核酸靶物中有很多末端失配的探针杂交的情况下更重要。
使用描述的理论原理为试验指导,可以获得与6-8个核苷酸长度的探针的可靠的杂交。所有的试验用在滤膜上提供一层杂交溶液膜的不固定的塑料板进行。该方法使最大减少探针的量,从而减少斑点印迹杂交中标记费用。磷酸杂交缓冲液中,高浓度月桂酰基肌氨酸钠代替月桂酰基硫酸钠将反应从室温降至12℃。类似地,4-6X SSC,10%月桂酰基肌氨酸钠缓冲液使在2℃这样低的温度下杂交。在这些缓冲液中去污是为了用最高可达40nM浓度的标记探针获得可接受的背景。短的寡核苷酸杂交体的热稳定性的初步特征用50%G+C含量的原型八聚体即TGCTCATG序列的探针上测定。理论上预计该探针在较小稳定性八聚体中。其转换焓类似于那些更稳定的八聚体,或者甚至类似于长度是6个核苷酸的探针(Bresslauers等,美国国家科学院院刊83,3746(1986))。参数Td,在1分钟单位时间内的50%杂交体解链时的温度,是18℃。结果表明对于8bp杂交体Td比11bp双链体低15℃(Wallace等,核酸研究63543(1979))。
除了用模型寡核苷酸试验外,选择M13载体作为实施证明短的寡核苷酸杂交的体系。主要目的是显示用类似于将在本发明方法的各种应用中使用的靶物可用于有用的末端失配辨别。M13模型的寡核苷酸探针,因其M13载体自身含有末端失配碱基而被选择。载体IF,含有921bp人干扰素基因插入的M13重组体,其携带单一完全配对的靶物。因此,与M13载体自身相比,IF或者具有相同数目或者具有更多数目的失配靶物。
使用低温度条件和斑点印迹,获得含有完全和失配靶物的点斑列和只含有失配靶物的点斑之间杂交信号充分的差别。对于与大量IF-M13核酸对杂交的6-聚体寡核苷酸是这样的并且对于7-和8-聚体寡核苷酸也是这样的。
杂交信号取决于用于与探针反应的滤膜上可能的靶物的量。必要的对照表明信号强度的差异不反映两个斑点中核酸的不同的量。与在IF和M13中有相同数目和种类的靶物探针的杂交表明斑点中有同样量的DNA。由于杂交体生成的效率随着杂交体长度而提高,具有6个核苷酸的双链体的信号用与滤膜结合的高质量寡核苷酸靶物检测最好。当与用作靶物的大分子核酸相比时,由于它们较低的分子量,更大数目的寡核苷酸靶物分子可以与给定表面积结合。
为了测定对于未纯化的DNA检测的敏感性,不同量的噬菌体上清液在滤膜上点斑并且与32P-标记的八聚体杂交。含有不多于0.5ngDNA的少至5千万个未纯化噬菌体给出可检测信号,表明短的寡核苷酸杂交方法的灵敏度是足够的。另外实际上反应时间短。
如上文理论部分所述,杂交体的平衡产率取决于油探针浓度和/或反应温度。例如,13℃下相同量靶物与4nM八聚体的信号水平比与40nM探针浓度的信号水平低3倍,通过将杂交温度提高到25℃而降低4.5倍。
证明了实现最大分辨的低温冲洗的用途。为了使目测观察现象明显,使用与载体特异性探针杂交,与IF斑点中相比,将50倍以上DNA放在M13斑点中。在该方法中,用实际探针杂交步骤之后的信号,在失配情况下比配对情况下更强。Hp/Hi之比是1∶4。7℃下延时冲洗后信号强度翻转,而没有明显损失完全杂交体,产生比例是2∶1。相反,在25℃不可能实现任何分辨,因为2分钟冲洗下配对靶物的信号已经进入背景水平;同时,来自失配杂交体的信号仍然可检测。13℃与7℃相比分辨的损失并不大,但是清楚可见。如果人们考虑到当失配杂交体信号接近背景水平时,7℃90分钟点和13℃15分钟点,其代表各条件下的最佳冲洗次数,则很明显7℃量几倍大于13℃时的。为了进一步详细说明,两个温度下,随着相同量起始杂交体的冲洗的变化的分辨的时间过程表明,在低温下有较高最大D。这些结果证明在冲洗步骤开始时,D随温度和两种类型杂交体的量的比例的变化趋势。
为了显示短的寡核苷酸杂交条件的一般用途,在我们简单M13系统中试验了4种七聚体,10种八聚体和另外14个长度最长为12个核苷酸的探针。这些包括代表GC含量两个极端的九聚体GTTTTTTAA和八聚体GGCAGGCG。尽管预料GC含量和序列影响短的杂交体的稳定性(Bresslauer等,美国国家科学院院刊83,3746(1986)),低温短寡核苷酸条件应用于所有试验探针,实现足够的分辨。因为用长度13个核苷酸的探针获得的最好分辨值是20,由于序列变化而产生的几倍降低是容易接受的。
M13系统具有显示靶DNA复杂性对分辨水平的影响的好处。对于不含有或者5个失配靶物并且只是一个GC对不同的两个八聚体,观察到的分辨分别是18.3和1.7。
为了表明该方法的用途,收集从Bluscrip载体中的文库制备的51个质粒DNA斑点,试验8核苷酸长度的三个探针。存在一个探针并且对Bluscrip载体是特异性的,但是在M13中不存在,而其它两个探针具有是已知序列插入片段的靶物。该系统使使用与各个探针的阴性或阳性对照DNAs的杂交。该探针序列(CTCCCTTT)也具有与干扰素插入片段中的互补的靶物。因为M13斑点是阴性的,而M13或Bluscrip中的在干扰素插入片段是正的,因此杂交是序列特异性的。类似地,如果克隆中存在合适的靶物,探针只检测到51个插入片段中的一个,或者没有检查到插入片段和对照物中,证明杂交可能已经发生。
长度6-8个核苷酸的非常短的寡核苷酸杂交体的热稳定曲线至少比长度11-12个核苷酸的杂交体低15℃[
图1,和Wallace等,核酸研究(Nucleic Acide Res.)63543-3557(1979)]。但是,在低温下和用非常实际的0.4-40nM浓度的寡核苷酸探针进行杂交反应得以检测已知的或未知的核酸靶物中的互补序列。为了完全测定未知的核酸序列,可以使用一整套含有65535个8-聚体探针。常规生物样品中存在为此目的的足够量的核酸,例如几微升M13培养物,来自10ml细菌培养物或者细菌单一菌落的质粒制剂,或者少于1ml标准的PCR反应。
6-10核苷酸长度的短的寡核苷酸给出极好的分辨。具有单一末端失配的杂交体稳定性的相对降低比更长的探针更显著。用八聚体TGCTCATG的结果支持这一结论。在试验中,带有G/T末端失配的靶物,与该类型失配的靶物的杂交是所有其它类型寡核苷酸中最稳定的。与19碱基对的双链体中部G/T失配相比,实现的分辨相同或者更大[Ikuta等,核酸研究15797(1987)]。使用对于短的寡核苷酸杂交所描述的杂交条件所利用的这些分辨特性得以非常精确地测定寡核苷酸靶物。与完全和不完全杂交体之间容易的检测相反,使用非常短的寡核苷酸可能存在的问题是制备足够量的杂交体。实际上,通过提高斑点中DNA的量和/或探针的浓度,或者通过降低杂交温度来帮助分辨Hp和Hi的需要。但是,较高探针浓度通常增加背景。此外,实际使用的靶核酸的量是有限的。该问题通过用4nM探针给出有效背景的洗涤剂十二烷基肌氨酸钠的较高浓度可以解决。使用探针对滤膜的非特异性结合的竞争剂,或者通过改变杂交支持体材料可以实现进一步所改进。此外,对于具有Ea小于45Kcal/mol的探针(例如对于很多七聚体和大多数六聚体),修饰的寡核苷酸比其未修饰的给出更稳定的杂交体[Asseline等,美国国家科学院院刊,813297(1984)]。本发明所描述的低温下短寡核苷酸杂交杂交条件对于所有序列和产生的双链体杂交体给出更好的分辨。对于不同序列实现杂交条件的均一性的唯一代价是根据序列将冲洗时间从几分钟延长至24小时。此外,通过降低盐浓度可以进一步减少冲洗时间。
尽管一个配对杂交体与失配杂交体之间有很好的分辨,在短的寡核苷酸杂交中,存在来自失配杂交体的信号,大多数失配杂交体从末端失配产生。这可以限制插入片段的大小,这可以通过一定长度的探针有效检测到。
不能忽略序列复杂性对分辨的影响。但是,当通过特异的,非随机序列的短寡核苷酸杂交来定义序列信息时,复杂性的影响更明显,并且可以通过使用合适的探针与靶物长度比例来克服。选择长度比例,使不可能在统计学基础上存在具有很多能消除或不正常地改变辨别的末端失配的特异序列。结果提示对分别比0.6,2.5和10bp更短的靶物核酸插入片段使用长度为6,7和8个核苷酸的寡核苷酸。
实施例11DNA测序亚阵的阵列足以测序以亚阵复本形式排列的一小套样品;例如,64个样品可以排列成8×8mm亚阵,并且可以在15×23cm膜上以亚阵之间1mm宽间距重复16×24亚阵。可以制备几个复本的膜。例如,3772个7-聚体通用套的探针可以分成32个96孔的平板,并且用酶激标记。在一个杂交循环期间可以平行进行4个膜。在各膜上,可以评价384个探针。所有的探针可以在两个杂交循环中评价。可以评价杂交强度并且如下所述装配序列。
如果单一一个样品亚阵或多个亚阵含有几种未知的,尤其是当使用类似的样品时,如果聪明地以前面评价的探针的结果为基础选择,则较少数量的探针可以是足够的。例如,如果探针AAAAAAA不是阳性的,则8个重叠探针的任何一个是阳性的机会很小。如果探针AAAAAAA是阳性的,则两个探针通常是阳性的。这种情况下的测序方法包括首先杂交最少重叠的探针亚套以确定阳性锚钩,然后成功地选择探针,该探针证实关于锚钩的顺序和它们之间缺口的大小和类型最可能的假设中的一个。在第二种情况下,可以使用2-10个探针的集合,其中选择每一个探针,其只是在一个DNA样品中是阳性的,所述样品不同于预期用来自集合的其它探针探测是阳性的那些样品。
亚阵方法有效完成解决分支问题中的探针竞争(重叠探针)或探针合作(探针的连续堆积)。一套通用探针杂交之后,序列装配程序确定候选的序列亚片段(SFs)。为了进一步装配SFs,必须要提供另外的信息(来自DNA片段的重叠序列,类似序列,单道凝胶序列,或者来自其它杂交或限制性制图数据)。通过分支点的单道凝胶测序所用的引物是从SBH序列信息或者从已知的载体序列确定的,例如载体插入片段位点的侧翼序列,并且对样品DNA进行标准桑格测序反应。从该单道凝胶测序获得的序列与读进和读出分支点的SFs相比较以鉴定SFs的顺序。此外,单道凝胶测序可以与SBH结合对核酸从头测序或者再测序。
竞争杂交和连续堆积相互作用也可以用来装配SFs。如果使用匀一的阵列,这些方法对于通过其中标记探针上样于附着阵列的样品的SBH对大量样品测序具有有限的商业价值。幸运的是,使用复本亚阵的少量样品的分析使有效完成两项研究。在每一个复本亚阵上,类似于在同一亚阵中点斑的不同样品中解释突变的序列,使用探针的集合对一个或多个DNA样品测定分支点(参见上文)。
如果在该实施例中描述的64个样品的每一个中,有大约100个分支点,和如果在每一个亚阵中平行分析8个样品,则至少800个亚阵探查解释所有的分支。这意味着对于3072个碱基探查使用另外800个探查(25%)。更优选地,两个探查用于一个分支点。如果亚阵较小,则使用较少的另外的探查。例如,如果亚阵由16个样品组成,则可以评价200个另外的探查(6%)。通过使用7-聚体探针(N1,2B7N1-2)和竞争或协作分支解释研究或者两者,可以通过大约4000个探查装配大约1000bp片段的片段。此外,使用8-聚体探针(NB8N)4kb或更长片段可以用12000个探查装配。缺口探针,例如NB4NB3N或NB4NB3N可以用来减少分支点的数目。
实施例12通过对探针亚阵的瞬时附着和连接标记探针进行DNA分析通过标准化学方法合成具有4-40个碱基信息长度的寡核苷酸探针并且贮存在试管或多孔平板中。通过在分开的支持体或较大支持体不连续部分上沉积(deposition)或原位合成排列包括1-10000个探针的具体探针套。在后一种情况下,通过物理的或疏水性隔栅可以分开各部分或亚阵。探针阵列可以通过原位合成来制备。合适大小的样品DNA与一个或多个具体阵列杂交。很多样品可以在相同亚阵中以集合进行测试或者独立地与一个支持体上不同的亚阵进行。与该样品同时或相继,在各亚阵上加上单一标记探针或者标记探针的集合。如果连接和标记探针在样品DNA中的互补靶物上背对背杂交,则它们被连接。通过检测探针上的标记测定连接的发生。
该方法是描述的其中DNA样品非永久性附着支持体的DNA分析方法的变化的方法。通过探针固定于支持体提供瞬时附着。在这种情况下,不需要靶物DNA排列方法。另外,连接使通过相合短的标记探针与短的固定探针检测更长的寡核苷酸序列成为可能。
该方法具有几个独特的特征。基本地,靶物的瞬时附着使其重复使用。连接发生后靶物可以被释放而标记将继续共价附着于支持体。该特征得以循环靶物并且用少量靶物产生可检测信号。在最佳条件下,靶物不需要被扩增,例如DNA样品的天然来源可以直接用于诊断和测序目的。靶物可以通过在有效杂交和双链体的有效解链之间温度循环而被释放。更优选地,没有循环。可以限定温度和成分使游离的靶物和进入杂交体的靶物之间的平衡是大约50∶50%水平。在这种情况下,连续产生连接的产物。为了不同的目的,不同的平衡比例是最佳的。
可以应用电场来增强靶物使用。在开始时,可以应用各个亚阵中水平场脉冲提供快速靶物分类。在该阶段,平衡向杂交体生成方向移动,并且可以使用未标记探针。靶物分类期后,可以进行合适的冲洗(可以通过限制样品移动的垂直电场来帮助)。可以引入具辨别性杂交体解链,通过杂交收集靶物和未使用的靶物的连接和去除几次循环来提高特异性。在下一步中,可以加入标记探针并且可以应用垂直的电子脉冲。通过提高温度,可以实现最佳游离的和杂交了的靶物之比。垂直电场防止分类过的靶物扩散。
可以以各种方式排列固定化探针亚阵和标记探针套(特别是从通用探针套中设计的和选择的)以有效地和可变通地进行测序和诊断。例如,如果细菌基因组短的片段(大约100-500bp)要部分或完全测序,则可以使用以已知序列为基础设计的探针的小阵列(5-30个碱基长度)。如果对于每一个亚阵用不同的10个标记探针库探查,各自包含10个探针的10个亚阵的阵列得以检查200个碱基,假设仅评价两个通过连接作用连接的碱基。在杂交体中辨别失配的条件下,探针可以置换一个以上的碱基,借此用相同数目的探针覆盖更长的靶物。通过使用长探针,可以直接探查靶物而不用从样品中其余DNA中扩增或分离。还有,可以在一个样品中同时分析(筛选)几个靶物。如果得到的结果表明发生了突变(或者病原体),可以使用探针的另外的库来检测突变类型或者病原体亚套。该方法的预期特征是在只有患者的一小部分预期感染或突变这种的预防性诊断中,在成本上是非常有效的。
在实施例中描述的该方法中,可以使用各种检测方法,例如通过光散射或干涉度量学方法可检测的放射性标记,荧光标记,酶或抗体(化学发光物质),大分子或颗粒。
实施例13用八聚体和九聚体测序靶物从八聚体和九聚体寡核苷酸的杂交得到的数据表明通过杂交的测序提供非常高的精确度。在该项试验中,已知的序列被用来预测连续重叠成分八聚体和九聚体寡核苷酸系列。
除了完全配对寡核苷酸外,检测了失配寡核苷酸,其中通过该寡核苷酸和靶物形成的双链体中存在内部或末端失配的失配寡核苷酸。在这些分析中,应用最低实际温度来使杂交形成最大化。在相同或更低的温度下完成冲洗,以通过利用较大的失配/配对寡核苷酸/靶物杂交的解离速率保证最大辨别。这些条件显示对于所有的序列是可应用的,但是绝对杂交产率表明是序列依赖性的。
可以假定的最少的不稳定的失配是单一末端失配,这样通过杂交的测序的试验能从末端失配寡核苷酸/靶物双链体辨别出完全配对寡核苷酸/靶物双链体。
在斑点印迹方案中对于105个杂交寡核苷酸中的102的可辨别值比2大,使高度精确产生序列。该系统也使分析序列对杂交形成和杂交不稳定性的影响能为可能。
通过PCR制备人干扰素基因已知部分的100个碱基对,即100bp靶物序列,是用从已知序列105个寡核苷酸探针与靶物核酸的杂交产生的数据产生的。使用的寡核苷酸探针包括72个八聚体和21个九聚体寡核苷酸,它们的序列与靶物完全互补。这一套93个探针提供置换一个或两个碱基的靶序列的连续重叠框。
为了评价失配的影响,当与100bp试验靶序列杂交时,对包含至少一个末端失配的12个另外的探针检测杂交作用。也对12个探针与末端失配的靶物进行试验,选择4个其它对照核酸序列,使得这12个寡核苷酸与这4个对照DNA形成完全配对双链体杂交体。这样,对该试验中使用的各个寡核苷酸评价内部失配,末端失配和完全配对双链体寡核苷酸对和靶物的杂交。通过测定不同寡核苷酸探针与共扩增质粒DNA内单次发生的非靶物位点的杂交确定靶DNA浓度,测定绝对DNA靶物浓度对与试验的八聚体和九聚体寡核苷酸的杂交的影响。
该项试验的结果表明,包含对靶物或对照DNA完全配对互补序列的所有寡核苷酸比具有失配的那些寡核苷酸更强地杂交。就这一结论,我们检查了对于每一个探针的Hp和D值。Hp定义了试验靶物和寡核苷酸探针之间形成杂交体双链体的量。通过将对于105个探针获得的杂交的值设定为0-10之间,明显105个探针的68.5%具有大于2的Hp。
获得辨别(D)值,其中D被定义为下面情况下其之间的信号强度之比1)含有试验寡核苷酸和靶物或对照核酸之间形成的完全配对双链体的斑点和2)含有相同寡核苷酸和靶物或对照核酸中不同的位点之间形成的失配双链体的斑点。D值的改变是由下面情况产生的,或者1)使观察信号超过背景的杂交效率中的干扰,或者2)试验的寡核苷酸和靶物之间发现的失配的类型。该项试验中获得的D值是对于105个检查的寡核苷酸探针的102个在2和40之间。对于作为整体的102个寡核苷酸组的D的计算表明平均D是10.6。
有20例寡核苷酸/靶物双链体表现出末端失配。在其中的5个中,D大于10。这些情况下的大的D值对可能是由于由除最稳定(G/T和G/A)末端失配之外引起的杂交不稳定。其它可能性是或者寡核苷酸或者靶物的序列中存在差错。
排除了对于具有低Hp的探针的靶物中的差错的可能性,因为这样的差错将会影响其它8个重叠寡核苷酸的每一个的杂交。对于其它重叠寡核苷酸没有明显的由序列失配造成的不稳定性,表明靶物序列是正确的。在在再次检查了7个新合成的寡核苷酸的杂交之后排除了寡核苷酸序列中的差错的可能性。7个寡核苷酸中只有一个产生较好的D值。低的杂交体形成值可能是由于杂交体不稳定或者不能形成杂交体双链体产生的。不能形成杂交体双链体是由于下面的原因之一1)选择的探针的自身互补性或2)靶物/靶物自身杂交。如果探针是自身互补的,则寡核苷酸/寡核苷酸双链体的形成可以优于寡核苷酸/靶物双链体形成。类似地,如果靶物是自身互补的或者可以形成内部回文序列,则靶物/靶物连接是优先的。在评价这些可能性中,来自探针的分析表明,有疑问的探针与其自身不形成杂交体。而且,在检查靶物/靶物杂交的分布中,检测到有疑问的寡核苷酸探针中的一个与含有相同靶物的两个不同的DNA的杂交不是有效的。对于相同靶物序列,两个不同的DNA具有自身互补区的低可能性产生靶物/靶物杂交不是低杂交形成的原因的结论。这样,这些结论表明杂交体的不稳定性和不能形成杂交体性是对于特殊寡核苷酸所观察到的低度杂交形成的原因。该结论也表明低度杂交形成是由于某些寡核苷酸的特殊序列。而且,该结论表明如果使用八聚体和九聚体寡核苷酸,可以获得产生序列的可靠结果。
这些结果表明使用所描述的方法中,任何特殊靶核酸的长序列可以通过寡核苷酸成分的最大的和独特的重叠而产生。这样的测序方法取决于各寡聚体成分的含量,不考虑其频率和其位置。
使用下面描述的算法产生的序列是高度保真性的。该算法允许来自杂交斑点的假的阳性信号,正如事实表明由105个杂交值(其中4个较小可靠性)产生的序列是正确的。通过杂交的测序中的高保真性归因于“全或无”短的寡核苷酸杂交的动力学和完全配对双链体和失配双链体之间存在的双链体稳定性的差别。配对的和末端失配的双链体的双链体稳定性之比随着双链体长度的降低而提高。此外,结合能随着双链体长度的降低而降低导致低的杂交效率。但是,提供的结果表明八聚体杂交使影响双链体稳定性和辨别的因素平衡,产生杂交测序的高精确度的方法。其它实施例中得到的结果表明6,7或8个核苷酸的寡核苷酸能有效用来产生0.5kb(对于六聚体),2kb(对于七聚体)和6kb(对于八聚体)靶物上的可靠序列。长片段的序列可以重叠以产生完全的基因组序列。
实施例14得到的数据的分析通过图像分析程序,象DOTS程序(Drmanacetal.,1993)分析图像存储数据,然后通过例如在SCORES程序(Drmanacetal.,1994)中所包括的统计函数换算并评估。从信号的分布,确定将信号转化成+/-输出的最佳阈值。
由所检测的标记位置,通过组合对应于标记位置的固定和标记探针的已知序列确定片段的F+P核苷酸序列。然后从通过计算推测而确定的重叠的F+P序列组装完整核酸序列或源分子,例如人染色体的序列。
一个选择是在序列组装过程中将杂交信号例如评价转化成+/-输出。在这种情况下,组装将从有很高评价的F+P序列,例如,F+P序列AAAAAATTTTTT开始。比较所有四种可能的重叠探针AAAAATTTTTTA,AAAAATTTTTT,AAAAATTTTTTC,和AAAAATTTTTTG和三个起点不同的其它三种探针(TAAAAATTTTTT;CAAAAATTTTTT,GAAAAATTTTTT,),得出三个结论(i)只有开始的探针和四个重叠探针中的一个具有相对于其它6个探针来说明显阳性的评价,在这种情况下,将AAAAAATTTTTT序列向右延伸一个核苷酸;(ii)除起始探针外没有一个探针有明显阳性评价,在这种情况下,将停止组装,例如AAAAAATTTTTT序列在待测序之DNA分子的末端;(iii)在重叠的和/或其它三种探针中发现了不止一个明显阳性的探针;由于错误或分支,将停止组装(Drmanacetal.,1994)。
计算推导过程将利用现存算法的计算机程序(参见例如Pevzner,1989;Drmanacetal.,1991;Labat和Drmanac,1993;所述文献引入本文作为参考)。
如果,除F+P外,还确定F(空1)P,F(空2)P,F(空3)P,或F(空4)P,将使用算法使所有的数据设置相符以改正潜在错误或处理有分支问题的情况(参见例如,Drmanacetal.,1989;Brain.,1988;所述文献均引入本文作为参考)。
实施例15通过两步杂交进行测序下面是描述本发明人完成的测序方法实施的几个实施例。首先,将全部芯片与复杂至1亿个bp(一个人的染色体)的DNA混合物杂交。完成杂交的指导可以参见文献例如Drmanac等人(1990);Khrapko等人(1991);和Broude等人(1994)。这些文献说明了适用于版本3SBH开始步骤的杂交温度的范围,缓冲液和洗涤步骤。
由于可以提供相对低浓度的靶DNA,所以本发明人特别考虑在高盐浓度于低温度(-2℃到5℃)下长达数小时的条件以完成杂交。为了达到此目的,用SSC缓冲液代替在10℃沉淀的磷酸钠缓冲液(Drmanac等人,1990)。若用杂交循环进行高度复杂的DNA样品的测序时,由于第二步骤,可以不必彻底洗涤(数分钟),而且可以完全省去。用于杂交和洗涤步骤的同一种缓冲液能继续用于与标记探针的二次杂交步骤。
用各阵,例如8×8mm阵上的自动装置适当洗涤后,加入一个标记探针,例如6-聚体。使用96-针或96-针装置,在42个操作中完成。还可以使用在以前的科技文献中描述的分辨条件的范围。
本发明人特别使用了下列条件。首先,在低温(0-5℃)加入标记探针并温育数分钟(由于加入了高浓度的寡核苷酸)后,根据F+P的长度,将温度提高到3-10℃,加入洗涤缓冲液。此时,所使用的是与任何连接反应均可相容的缓冲液(例如100mM盐浓度范围)。加入连接酶后,将温度升到15-37℃以加速连接(少于30分钟),然后再分辨完全匹配和失配的杂交物。
在版本3 SBH中,还使用了Pontius & Berg(1991,引入本文作为参考)描述的阳离子去污剂。这些作者描述了使用两种简单的阳离子去污剂,在DNA变性中的十二烷基和鲸蜡基三甲基胺溴化物(DTAB和CTAB)。
DTAB和CTAB是季胺四甲基胺溴化物(TMAB)的变体,其中甲基之一由一个12-碳(DTAB)或一个16-碳(CTAB)烷基基团所取代。TMAB是四甲基胺离子的溴化盐,用于核酸变性实验以降低熔解温度的G-C含量偏离的试剂。DTAB和CTAB在结构上与十二烷基磺酸钠(SDS)相似,只是带阳电荷的季胺取代了带负电荷的SDS磺酸盐。而在杂交缓冲液中常常使用SDS以减少非特异性结合并抑制核酸酶,它对变性速率没有太大的影响。
在使用连接过程时,可以将酶与标记探针一起加入或在适当的洗涤步骤后加入以降低背景。
尽管以前未考虑到在任何SBH方法中使用,但是,连接酶技术是分子生物学领域熟知的技术。例如,Hood和同事描述了连接酶介导的基因检测技术(Landegren et al.,1988),很容易将改方法加以改变以适用于版本3 SBH。Wu & Wallace还描述了用噬菌体T4 DNA连接酶连接两个相邻的短的合成寡核苷酸。他们的寡核苷酸连接反应是在50mM Tris Hcl pH7.6,10mM MgCl2,1mM ATP,1mM DTT,5%PEG中完成的,将连接反应物加热到100℃ 5-10分钟,然后在加入T4 DNA连接酶(1单元,Bethesda Research Laboratory)前冷却到0℃。大多数连接反应是在30℃完成,加热到100℃ 5分钟而终止。
然后进行适当的最后洗涤以分辨检测杂交的相邻,或连接的长度为(F+P)的寡核苷酸。洗涤步骤于40-60℃在水中进行数分钟以洗掉未连接的标记探针和所有其他的化合物以便最大程度地减少背景。由于共价健合标记探针,所以使检测简单化(没有时间和低温的限制)。
根据所用的标记,用不同的装置进行芯片成象。对放射性标记,可以用荧光贮存屏技术和PhosphorImager作为扫描仪(MolecularDynamics,Sunnyvale,CA)。将芯片放在盒中,用磷光屏盖上。暴露1-4小时后,扫描所述的屏,然后将图象贮存在计算机硬盘中。对于磷光标记检测,使用CCD摄像机和外荧光(epifluorescent)和共焦显微镜。于在CCD摄像机的象素上直接产生芯片,可以按Eggers等人(1994,引入本文作为参考)的描述完成检测。
电荷耦合的装置(CCD)检测仪用作活跃的有力支持,其定量检测和成象标记靶分子在探针为基础的检测中的分布。这些装置利用了微电子学所固有的适应高平行检测,超敏检测,高流量,积分数据采集和计算的特性。Eggers等人(1994)描述了在探针为基础的检测,例如本发明的方式3SBH中CCD的使用,由于高度的敏感性和直接耦合的使用,可以在数秒钟内完成定量估测。
积分CCD检测方法可以检测芯片上的分子结合过程。检测仪迅速产生独特地表征样品的二维图形。在CCD为基础的分子检测仪的具体操作中,不同的生物学探针被直接固定在CCD的象素上或附着于CCD表面一次性的盖片上。样品分子可以用放射性同位素,化学发光剂或荧光标签进行标记。
将样品暴露于CCD为基础的探针阵后,在方式3的情况下,在样品与两个互补探针结合的象素位置发射出光子或放射性同位素衰减产物。当带电粒子或来自标记样品的射线入射在CCD网格上时,在硅上产生电子空穴对。然后将电子聚集在相邻的CCD网格下方,随后在显示存储体读出。在各象素上产生的光电子数在所述的接近度内与分子结合数直接成正比。从而定量地确定分子结合(Eggers等人,(1994))。
通过在样品附近放置成象阵,收集效率比基于透镜技术例如在常规CCD摄像机中所见到的要高至少10倍。即,样品(发射物)与检测仪(成象阵)紧紧接触,省去了常规成象镜片,例如透镜和反光镜。
当放射性同位素作为报告基团连接于靶分子时,就检测到能量粒子。发射不同能量粒子的报告基团已成功地被显微加工检测仪所利用,包括32P,33P,35S,14C和125L。粒子的能量越高(例如来自32P),则提供最高的分子检测灵敏度,而来自的能量越低(例如来自35S),则分辨率越好。因此,可以按需要选择所选的放射性同位素报告基团。一旦选择了特定的放射性同位素标记,按Eggers等人(1994)所述,通过计算信噪比(SNR)可以预测检测性能。
另一种发光检测方法包括使用连接于靶分子的荧光或化学发光报告基团。荧光标记可以通过共价或相互作用而粘附。由于量子效率在激发波长比在荧光信号波长低数个数量级,因此,在UV附近(300-350nm)有强度吸收带并在可见(500-650nm)有主发射带的荧光染料,例如溴化乙锭最适于CCD装置。
从检测发光的角度看,聚硅CCD网格有内在的能力,可以过滤掉在UV范围的入射光组分,而对由荧光报告基团产生的可见发光仍很敏感。对UV激发的所述内在的大分辨率能够增大SNR(大于100),达到Eggers等人(1994)在引入的文献中由CCD所达到的程度。
为了在检测仪上固定探针,可以在不昂贵的SiO2片上产生杂交基质,在杂交和干燥后放在CCD表面。由于DNA的杂交是在不昂贵的一次性SiO2片上进行的,因此可以重复使用比较昂贵的CCD检测仪。另外,可以将探针直接固定在CCD上以产生专用的探针基质。
为了将探针固定在SiO2涂层上,利用环氧-硅烷试剂和标准SiO2改性化学将均匀的环氧化物层与膜表面相连。利用与环氧环形成的仲胺,将氨-修饰的寡核苷酸探针通过与环氧环形成二级胺而与SiO2表面相连。所得的键合在寡核苷酸的3’碱基和SiO2表面之间提供了17个可旋转的键。为了在耦合过程中确保完全胺去质子化并且形成最少的二级结构,在0.1M KOH中完成反应,在37℃温育6小时。
总的来说,在版本3中,每各千兆点评价信号。不必一次杂交所有的阵例如4000个5×5mm,而且可以连续使用较少数量的阵。
循环杂交是一种提高杂交信号的可能的方法。在一个循环中,大多数固定探针将与带有与标记探针不互补的尾序列的DNA序列杂交。通过提高温度,那些杂交物将被融化。在下一个循环中,它们之中的一部分(-0.1%)将与适宜的DNA片段杂交,连接其他的标记探针。在这种情况下,将会发生同时对两组探针失配的DNA杂交体的分辨性熔解。
在循环杂交中,在循环开始前加入所有的组分,在37℃加T4,或在更高的温度加热稳定的连接酶。然后将温度降到15-37℃,并将芯片温育长达10分钟,再将温度升到37℃或更高保持几分钟,然后再降低。可将循环重复高达10次。在一种变体中,可以使用最佳的高温(10-50℃)而不必进行循环,并且可以完成较长的连接反应(1-3小时)。
由于只需要相对较少的寡核苷酸,所以本文所述的方法可以利用标准合成方法和精确的寡核苷酸点斑以制备复杂的芯片。例如,如果合成了所有7-聚体(16384),则可以确定256百万个14-聚体表。
本发明方法的一种重要变体是每基阵使用一种以上的不同标记探针。这可以考虑到两个目的而被完成;多重结合化以降低不同杂交阵的数目;或确定甚至更长的寡核苷酸例如3×6或3×7的表。在这种情况下,如果使用两个标记,由于阳性位点必须对两个标记具有足够的信号,所以3个连续寡核苷酸的特异性几乎是绝对的。
另一种变体是使用含有BxNy探针的芯片,其中y是1-4。这些芯片可以在不同的帧中进行序列阅读。这也可以通过使用适当的标记探针套或者可能有一些不特定的末端位置(即一些末端简并性元素)的F和P探针来达到。也可以用通用的碱基作为接头的一部分以便使确定序列的探针连接在固体支持物上。这样使得探针更易于杂交而且使得构建体更稳定。如果探针有5个碱基,人们可以例如使用3个通用碱基作为接头。
实施例16从杂交数据确定序列装配的序列可以被间断,只要是其中给定重叠(N-1)聚体重复两次或多次。然后,最末核苷酸不同的两个N-聚体中的任一个可以在延长序列中使用。该分支点限制了序列确定的组装。
再组装与靶核酸杂交的已知的寡核苷酸序列,以生成完全靶核酸序列在某些情况下可能是不能完成的。这是因为如果靶核酸不是在相对于用于杂交的寡核苷酸大小合适大小的片段中的话,则可能丢失一些信息。丢失的信息量与测序的靶物的长度呈正比。但是,如果使用足够短的靶物其序列可以毫无疑问地测得。
可以计算沿DNA的一定长度分布的可能干扰序列组装的重复序列可能的频率。这种换算需要引入与序列组成相关的参数的定义序列亚片段(SF)。如果靶核酸序列的任何部分以在靶序列中重复两次或多次的(N-1)聚体起始和终止,则产生序列亚片段。因此,亚片段是在本发明方法中序列组装过程中两个分支点之间产生的序列。所有亚片段的总和因为短末端的重叠而比实际靶核酸长。一般情况下,因为它们在其末端和起始端具有共有的(N-1)聚体,则没有另外的信息不能以线性顺序组装亚片段。以其重复的(N-1)聚体的数目为基础对于每一个核酸靶物获得不同数目的亚片段。该数目取决于N-1的值和靶物的长度。
可能性计算能估计两种因素的相互关系。如果通过使用长度N-1或平均距离A0的重叠序列完成正N-聚体的排序,则通过等式给出Lf碱基长片段的N-1Nsf=1+A0×K×P(K,Lf)其中K大于或等于2,(K,Lf)代表N-聚体在Lf碱基长片段上发生K次的可能性。还有,下面实施例18中描述了从任何给定序列的N-聚体的含量推出亚片段的计算机程序。
亚片段数目随着给定长度探针的片段长度的增加而增加。得到的片段其自身中可能不是单一的顺序。尽管不完全,该信息非常有用地用来比较序列分析并且识别功能序列特征。信息的这种类型可以称之为部分序列。获得部分序列的另一条途径是只是使用给定长度寡核苷酸探针亚套。
根据理论预计的序列和对随机DNA序列的计算机模拟之间可能会有相对好的一致性。例如对于N-1=7,[使用8-聚体或者5’型(A,T,C,G)B8(A,T,C,G)3’的16个10-聚体的组],200个碱基的靶核酸将平均具有三个亚片段。但是,由于在平均值周围分布,靶核酸库应该具有500bp插入片段,使得2000个靶物中少于1的靶物具有多于三个的片段。这样,在序列测定长核酸随机序列的理想情况下,可以使用具有充分短的靶核酸的插入片段的有代表性的库。对于这样的插入片段,通过本发明方法重新构建各个靶物是可能的。然后通过重叠确定的各个插入片段序列获得大核酸的整个序列。
为了减小对于非常短的片段的需要,例如用于50个碱基8-聚体探针,使用存在于每一个随机DNA片段化过程象克隆或随机PCR中的重叠片段所包含的信息。有可能使用短的自然核酸片段的库。对于测序1百万个碱基使用8-聚体或11-聚体,象5’(A,T,C,G)N8(A,T,C,G)3’,代替21000个样品,20000个50bp片段是足够的。该数目包括700个随机7kb克隆(基础库),1250个20个500bp克隆的库(亚片段有序库)和150个来自跳查(或类似)库的克隆。(参见实施例18),用这些描述的样品的杂交数据用建立的算法产生序列。
实施例17算法该实施例描述了从在起始核酸序列的最小数目的独立,随机确定的片段中的长序列的算法,其中k是寡核苷酸探针的长度该序列以k元组字的四字母书写。该算法主要是为了在通过杂交测序(SBH)方法中使用。该算法的基础是亚片段(SF),信息片段(IF)和使用用于确定信息片段的物理核酸序列库的可能性。
如所述的,亚片段可以由从靶核酸中K-1寡聚物序列的重复产生的组装过程中的分支点引起。亚片段是序列中存在的K-1长度的任何两个重复字(word)之间发生的序列片段。K-1字的多次出现造成序列产生方法中K-字重叠排序的中断。中断导致序列仍处于亚片段形式。这样,那些顺序不是唯一确定的分支点之间含义明确的片段称为序列亚片段。
信息片段定义为通过重叠的自然序列片段的最近的末端测定的序列的片段。
一些数目的自然片段可以集合而不失去定义信息片段的可能性。随机集合的片段的总长度取决于测序方法中使用的k-元组(k-tuple)的长度。
算法由两个主要单位组成。第一部分用来从序列中包含的一套k-元组产生亚片段。可以在一定大小自然核酸序列的编码区内,或者在长核酸序列中确定的信息片段中产生亚片段。两种类型的片段都是基础库的成员。该算法不描述基础库的信息片段的k-元组含量的测定,即要在序列产生过程中使用的信息片段的制备步骤。
算法的第二部分确定得到的亚片段的线性顺序,目的在于重新产生基础库的核酸片段的完全序列。为此目的,使用第二个有序库,其由起始片段的随机集合片段组成。该算法不包括将基础片段合并成完全的百万计的序列的步骤。这可以通过基础库的片段连接来实现,所述基础库是信息片段的产生所预先要求的。或者使用对其重叠的搜查,以存在共有末端序列为基础,通过该算法,在产生基础库的片段的序列之后完成。
该算法即不需要得知基础和有序库中核酸序列中给定k-元组出现的次数,也不需要片段末端上存在哪一个k-元组字的信息。该算法用各种长度k-元组的混合含量操作。该算法的概念使得用包含假阳性和假阴性k-元组的k-元组套操作。只有在具体的情况下,假k-元组的含量主要影响产生的序列的完全性和正确性。该算法可以用来在模拟试验中优化参数,以及用于在实际SBH试验中的序列产生,例如基因组DNA序列的产生。在参数的优化中,选择用于实际和合适的片段的寡核苷酸探针(k-元组)和/或选择确定探针的片段的最佳长度和数目是尤其重要的。
该算法这部分的中心作用是从k-元组含量产生序列的方法。其基础是利用最大重叠的k-元组的进行唯一性排序。序列产生中的主要障碍是特殊重复的序列和假阳性和/或阴性k-元组。该算法这部分的主要目的是获得最少数目的具有正确序列的尽可能长的亚片段。该算法这部分由一个基础步骤和几个控制步骤组成。需要两阶段方法,因为某些信息只有在产生所有主要亚片段之后使用。
序列产生的主要问题是从字含量获得重复的序列,通过定义不带有特定k-元组发生的数目的信息。全部算法的概念取决于一个基础,在此基础上解决了该问题。原则上,有两项对立的方法1)开始时,在产生pSFs的过程中,可以获得重复的序列,或者2)在最后确定亚片段顺序的过程中,稍后可以获得重复序列。在第一种情况下,pSFs包含过量的序列,在第二种情况下,它们包含序列的亏缺。第一个方法需要消除产生的过量的序列,第二种方法允许在最终组装序列的过程中多次使用一些亚片段。
两种方法的不同在于k-元组的单一重叠规则的严格性。严重性较小的规则是如果而且仅有如果k-元组X的最右边k-1末端仅是存在于k-元组Y的最左边末端上,则k-元组X毫无疑问地与k-元组Y最大重叠。该规则使产生重复序列和形成多余序列。
在第二种方法中使用的较严格的规则具有附加的要求如果而且仅有如果k-元组X的最右边k-1末端仅是存在于k-元组Y的最左边末端上,如果k-元组Y的最左边k-1末端不存在于任何其它k-元组的最右边末端上,则k-元组X毫无疑问地与k-元组Y最大重叠。以较严格规则为基础的算法较简单,并且在这里进行了描述。
当包括的最后k-元组的右k-1末端不存在于任何k-元组的左末端或者存在于两个或多个k-元组上时,给定亚片段的延长的过程中止。如果其存在于唯一一个k-元组上时,测试该规则的第二部分。如果另外有不同于先前包括的k-元组的k-元组,给定亚片段的组装只有在第一最左位置终止。如果这另外的k-元组不存在,符合单一k-1重叠条件,给定片段的向右伸展一个元素。
在基础规则之外,采用补充规则以利用不同长度的k-元组。最大重叠是重叠对的较短k-元组的k-1的长度。从第一k-元组开始从该文件中进行pSFs的产生,在所述文件中,k-元组随机显示并且与它们在核酸序列中的顺序无关。因此,该文件中的第一k-元组不需要在序列的开始,也不需要在特殊亚片段的起点。该亚片段产生的方法通过利用所描述的规则定义的单一重叠排序k-元组来进行。每一个所使用的k-元组从该文件中删除。当不再有k-元组明确地与所包括的最后一个重叠时,亚片段的组装终止并开始另一个pSF的组装。因为大多数亚片段的产生不是从其实际起点时开始的,形成的pSF加入到k-元组文件并且认为是更长的k-元组。另一个可能性是从起始k-元组以两个方向形成亚片段。当进一步重叠即任何亚片段的延伸不可能时该过程结束。
pSFs可以分为三组1)正好k-元组套情况下最长和正确序列的亚片段;2)短的亚片段,由于对不完全套,和/或带有一些假阳性k-元组套使用最大和明确的重叠规则形成的;和3)不正确序列的pSFs。在2)套的不完全性是杂交试验的假阴性结果引起的,以及由使用一套不正确的k-元组引起的。这些形成是由于假阳性和假阴性k-元组而且可以是a)错连接的亚片段;b)带有错末端的亚片段;和c)假阳性k-元组,其表现出假最小亚片段。
考虑到假阳性k-元组,有存在含有多于一个错碱基或者在中间某处含有一个错碱基的k-元组的可能性,以及末端具有一个错碱基的k-元组的可能性。通过后者k-元组引起短的,错的或连接错的亚片段的产生。前两类k-元组代表长度与k-元组长度相等的错的pSFs。
在一个假阴性k-元组情况下,pSFs由于最大重叠的不可能性而产生。在存在其最左侧或最右侧末端上带有错碱基的一个假阳性k-元组情况下,pSFs由于明确重叠的不可能性而产生。当文件中存在带有共有k-1序列的假阳性和假阴性k-元组时,产生pSFs,并且这些pSFs中的一个在相关的末端含有错的k-元组。
校正序列中有错的亚片段和连接明确连接的pSF的方法在亚片段产生之后和在片段排序的过程中进行。下面描述了由切下连接错误的pSFs和通过明确连接pSFs获得最终亚片段组成的第一步骤。
连接错误的亚片段的生成有两种方法。在第一种方法中,当长k-1的重复序列的组装点上出现的错的k-元组时发生错误。在第二种方法中,重复序列比k-1更短。这些情形发生于两种变通方案之中在第一种变通方案中,重复序列中的一个代表片段的末端。在第二种变通方案中,重复序列发生在该片段中的任何位置。对于第一种可能性,需要文件中一些k-元组(假阴性)缺如来产生错误连接。第二种可能性需要在文件中存在假阴性和假阳性k-元组。考虑到k-1序列的重复,当内部重复任何一个末端时缺少一个k-元组就足够了。对于严格的内部重复需要两个缺失。原因是序列的末端在信息上可以认为是假阴性k-元组的未完的线性阵列。从“比k-1情况小”,唯有长度为k-2的重复序列,其需要两个或三个特殊错的k-元组,将被考虑到。非常有可能的是这些将是在真实试验中将检测到的唯一情况,其它情况机率要小得多。
错误连接的亚片段的识别当重复序列不在该片段末端出现时更严格地限定。在这种情况下,人们可以检测另外两个亚片段,其一在其最左侧,另一个在其最右侧末端k-2序列上,其也存在于错误连接的亚片段中。当重复序列在该片段的末端上时,只有一个亚片段,在其最左侧或最右侧末端上含有引起亚片段信息错误的k-2序列。
通过将其切除而去除错误连接的亚片段根据通常规则进行如果在任何其它亚片段中存在k-2长度任何亚片段的最左侧或最右侧序列,要将该亚片段切成两个亚片段,其各自含有k-2序列。当在重复的k-1序列的点上有多于一个假阴性k-元组时,该规则不覆盖重复末端的较少的情形。这类错误连接的亚片段可以通过使用来自重叠片段,或者基础和有序库两者的信息片段的信息识别。另外,当在含有相同k-1序列的两个位置上存在两个或多个假阴性k-元组时,错误连接的亚片段将保留。这是一种非常少的情况,因为其需要至少4个特异性假k-元组。可以引入另外的规则来在k长度的序列上切下这些亚片段,如果给定的序列可以通过组合来自一个亚片段的末端和另一个的起始端的比k-2更短的序列获得。
通过严格应用描述的规则,损失一些完全性以保证结果的精确性。将切下一些亚片段,尽管它们不是错误连接的,因为它们符合了错误连接的亚片段的模式。这类有几种情况。例如除了至少两个相同的k-1序列,一个片段含有来自k-1的任何k-2序列或者一个片段含有至少两次重复的k-2序列和至少一个在中间含有给定k-2序列的假阴性k-元组等等。
该算法的这一部分的目的是将pSFs的数目减少到具有正确序列的较长亚片段的最小数目。在两种情况中,单一较长亚片段或完全序列的产生是可能的。第一种情况涉及重复的k-1字的特殊顺序。有这样的情况,其中一些或所有最大伸展的pSFs(第一组pSFs)可以单一地排序。例如,在其中S和E是片段的起点和末端,a,b,和c是特异于各个亚片段的不同的序列和R1和R2是串联重复的两个k-1序列的片段S-R1-a-R2-b-R1-c-R2-E中,产生5个亚片段(S-R1,R1-a-R2,R2-b-R1,R1-c-R2和R-E)。它们可以以两种方式排序上面的源序列或者S-R1-c-R-b-R1-a-R-E。相反,在具有相同数目和类型的重复序列但是排序不同的片段即S-R1-a-R1-b-R-c-R-E中,没有包括所有亚片段的其它序列。该类型的例子只有在pSFs产生过程之后识别。它们代表pSFs产生过程中两个步骤的必要性。当文件含有假阴性和/或假阳性k-元组时在非重复k-1序列的位置上产生假短亚片段的第二种情况是更重要的。
用于两组pSF的解决方案由两部分组成。首先,消除了表现为不存在最小亚片段的假阳性k-元组。一个末端比k-a更长和另一个末端比k-b更长的长度的任一末端没有重叠的长度k的所有k-元组亚片段被消除以使形成最大数目的连接。在我们的试验中,2和3的a和b值分别表现出适合消除足够量的假阳性k-元组。
可以被单一连接的亚片段的合并在第二步骤中完成。连接的规则是如果和仅有如果两个亚片段的相关末端或起始端处的重叠序列不存在于任何其它亚片段的起始端和/或末端,则两个亚片段可以明确地连接。
例外的是如果被滤及的一对亚片段中的一个亚片段具有相同的起点和末端。在那种情况下允许连接,即使有具有文件中存在的相同末端的另一个亚片段。这里的主要问题是精确定义重叠序列。如果对于唯一一对亚片段是单一的重叠序列比k-2短,或者是k-2或者更长,但是另外的亚片段存在比k-4更长的任何长度的重叠序列,则不允许连接。还有,pSFs的规范末端和少了一个(或几个)最后的碱基后的末端两者被考虑是重叠序列。
该步骤后可能存留下一些假阳性k-元组(作为最小亚片段)和一些带有错的末端的亚片段。另外,在非常少的情况下,同时存在一定数目的一些特异假k-元组,可能发生错的连接。这些情况将被检测到并且在亚片段排序过程,和在另外的对照步骤,以及与未切“错误连接的”亚片段的操作中解决。
获得的短的亚片段是两种类型。在通常情况下,这些亚片段可以由于重复k-1序列的分布在它们之间明确连接。这可以在pSFs产生过程之后进行并且是pSF产生过程中两个步骤的必要性的好的实施例。在使用含有假阳性和/或假阴性k-元组文件的情况下,在非重复k-1序列的位点上获得短的pSFs。考虑到假阳性k-元组,k-元组可以含有多于一个的错的碱基(或者在中间某处含有一个错的碱基)和该末端上的k-元组。短的和错的(或者错误连接的)亚片段的产生是后者k-元组引起的。前一种k-元组代表具有和k-元组长度相等长度的错的pSFs。
该算法的合并pSF部分的目的是将pSFs的数目减少到具有正确序列的较长亚片段的最小数目。一个末端比k-a更长和另一个末端比k-b更长的长度的任一末端没有重叠的所有k-元组亚片段被消除以使形成最大数目的连接。在该方法中弃除了大多数假阳性k-元组。连接的规则是如果和只有如果两个亚片段的相关末端或起始端处的重叠序列不存在于任何其它亚片段的起始端和/或末端,则两个亚片段可以明确地连接。例外的是具有相同的起点和末端的亚片段。在那种情况下允许连接,条件是有具有文件中存在的相同末端的另一个亚片段。这里的主要问题是重叠序列的精确确定。在k-1或k-2重复点上至少两个特殊假阴性k-元组的存在,以及假阳性和假阴性k-元组的结合可以破坏或“遮蔽”一些重叠序列并且可以产生明确的但是是错的pSFs的连接。为了防止这样,考虑到精确性必须要牺牲完全性在比k-2短的末端序列上,或者在比k-4长的额外重叠序列存在下不允许连接,从pSFs或者少了一个(或几个)最后的碱基后的末端确定重叠序列。
在非常少的情况下,在一定数目一些假阳性和假阴性k-元组存在下,带有错误末端的一些亚片段可以存留,可以存留下一些假阳性k-元组(作为最小亚片段),或者可能发生错误连接。这些情况被检测到并且在亚片段排序过程,和在另外的对照步骤,以及与未切的“错误连接的”亚片段的操作中解决。
亚片段排序过程类似于其产生的过程。如果将亚片段认为是较长k-元组,排序可以通过其通过重叠末端的明确连接来进行。明确连接的信息基础是基础库片段中产生的亚片段分成代表那些片段的区段的组。该方法类似于以与具有相关连接序列的较长寡核苷酸杂交为基础的该问题的生物化学解决方法。使用k-元组套基础库片段合适的区段作为亚片段产生连接序列。通过与基础库的各片段的重叠的有序库的片段确定相关的区段。最短的区段是有序库的信息片段。较长的是几个相邻的信息片段或者有序和基础库相应的片段的总的重叠部分。为了减少各样品的数目,随机集合有序库的片段,并且测定单一k-元组含量。
通过使用有序库中大量片段,产生非常短的区段,这样减少了多次出现k-1序列的机会,这是产生亚片段的原因。此外,由基础库给定片段的各种区组成的较长的区段不含有一些重复的k-1序列。在每一个区段中,对于某些对来自给定的片段的成对亚片段产生连接序列(连接的亚片段)。排序方法包括三个步骤(1)产生各区段的k-元组含量;(2)在各个区段中产生亚片段;和(3)连接区段的亚片段。根据基础库给定片段的k-元组含量与有序库集合的k-元组含量明显的交叉和不同确定初步的区段。根据第一区段的k-元组含量的交叉和不同确定第二(更短的)区段。
存在不同和交叉两种情况中,都存在聚积假阳性和假阴性k-元组的问题。假阴性k-元组来自交叉(重叠部分)中堆积的起始序列,以及假阳性k-元组随机发生在两个序列中,但是不在相关重叠区中。另一方面,来自任一起始序列的大多数假阳性占据在交叉中。这是通过使用来自与它们重叠的片段的信息减少来自各个片段的试验误差的实施例。差别中假k-元组堆积是另一个原因。扩大该套来自源序列的假阴性是为了来自交叉的假阳性,而由于错误在交叉中没有包括的那些k-元组的假阳性套即是交叉中的假阴性。如果起始序列含有10%假阴性数据,则第一和第二交叉将分别含有19%和28%假阴性k-元组。另一方面,如果基础片段和集合分别具有500bp和10000bp的长度,则可以预计计算学预计的77假阳性。但是,有回收大部分“失去的”k-元组的可能性和消除大多数假阳性k-元组的可能性。
首先必须测定给定区段的k-元组基础含量,其作为给定的k-元组对的交叉给出。其后包括交叉中起始k-元组含量的总的k-元组,其在一个末端含有k-1和在另一个末端含有在基础套的两个k-元组的末端出现的k-+序列。在产生差别之前进行,从而防止假阳性在该过程中堆积。之后,将相同类型的k-元组的扩大应用于截然的不同,借用的来自交叉。从作为假阳性的交叉文件消除所有借用的k-元组。
交叉,即一套共用k-元组,是对于各对(基础片段)×(有序库的集合)确定的。如果该套中k-元组的数目是明显的,则其用根据描述的规则的假阴性扩大。主要不同套是通过从给定基础片段扣除得到的交叉套而获得。通过从根据描述的规则的交叉套借用,并且同时从交叉套中去除假阳性k-元组,假阴性k-元组补充不同套。当基础片段比集合的片段长时该不同可以代表两个分开的区段,它们在一定程度上减小了其在下一步中的利用度。第一区段都产生含有明显数目的k-元组的对(基础片段)×(有序库的集合)的交叉和不同。第二区段的k-元组套通过比较初步区段所有可能的k-元组套所有可能的第一区段的可能的对获得第二区段的k-元组套。从各对确定这两个差异,其与明显数量的k-元组产生交叉。大多数可得的来自重叠片段的信息在该步骤中取得,使得从形成交叉和不同的第三轮获得极少。
(2)根据对于基础库的片段的描述同样进行区段的亚片段的产生。
(3)连接亚片段的方法包括顺序测定来自给定基础库片段具有一些重叠末端的亚片段之间正确连接对成亚片段。在4个相关亚片段的情况下,其中两个包含相同的开端以及两个具有相同的末端,有4对不同的可以连接的亚片段。一般情况下有两个是正确的和有两个是错误的。为了发现正确的,在从对于给定基础片段的所有第一和第二区段产生的亚片段中测定各对连接序列的存在。选择连接序列的长度和位置以避免偶尔发生的序列的干扰。它们是k+2或更长,在给定对两个亚片段中重叠序列附近包括至少一个元件2。只有如果发现两个连接序列并且不存在剩下的两个才可连接。这两个连接的亚片段代替文件中的前个亚片段并且该过程循环重复。
在该步骤中产生重复的序列。这意味着在连接的亚片段中一些亚片段被涉及一次以上。通过发现相关的连接序列将识别它们,所述相关的连接序列使一个亚片段与两个不同的亚片段相连接。
在构建pSFs和将pSFs合并成更长的亚片段的过程中产生的错误连接的亚片段的识别的基础是测定在对于该片段的区段中产生的亚片段的序列中是否存在来自给定基础片段的亚片段的序列。没有发现来自不正确连接位置的序列表明错误连接亚片段。
与所描述的亚片段定序的三个步骤之外,一些另外的控制步骤或对于特殊序列可应用的步骤对于没有错误下产生更完全序列将是必要的。
通过区段和亚片段中k-元组的含量的b比较进行哪一个亚片段属于哪一个区段的测定。因为k-元组含量中的错误(由于集合中的原始错误和由于k-元组发生频率的统计学错误),亚片段的精确分配是不可能的。因此,代替“全或无”的分配,对于每一个亚片段测定来自给定区段(P(sf,s))的机会。这种可能性是k-元组长度,亚片段长度,有序库片段的长度,集合的大小和文件中假k-元组的百分比的函数P(sf,s)=(Ck-F)/Lsf,其中Lsf是亚片段的长度,CK是对于给定亚片段/区段对的共有k-元组数目,和F是参数,其包括k-元组长度,基础库的片段,集合的大小和错误发生百分比之间的关系。
归因于特殊区段的亚片段处理成多pSFs并且使进行明确的连接。在这种情况下明确连接的定义稍有不同,因为它是以属于考虑的区段的带有重叠末端的亚片段可能性为基础。除此之外,通过紧跟这些亚片段在其它区段中的连接来控制明确连接的精确性。不同区段中的连接之后所有获得的亚片段合并在一起,消除包括在较长亚片段中的较短亚片段,并且使留下来的进行普通连接过程。如果该序列不能完全再生,就用相同的或者较宽松的属于特殊区段的可能性的标准重复亚片段的分配和连接过程,接着明确连接。
使用确定明确重叠的严格标准,一些信息不能使用。代替完全序列,获得对于给定片段确定多种可能性的几种亚片段。使用较宽松标准,产生精确和完全序列。在某些情况下,例如错误连接,可能产生完全的但是不正确的序列,或者产生带有其中没有连接的“畸形”亚片段。因此,对于基础库的每一个片段,人们获得a)几种可能的解释,其中一个是正确的和b)最可能的正确的解释。还有,在非常少的情况下,由于亚片段产生过程中的错误或者由于归属可能性的特殊比例,没有明确的解释产生,或者一个最可能的解释。不完全序列也存在这种情况,或者通过将这些数据与其它基础库的重叠片段比较获得明确解释。
对模拟人基因组的GC含量的随机产生的含有40%GC的50kb序列试验描述的算法。在该序列的中间部分插入大约4kb总长度的各种所有的和一些其它重复序列。为了模拟体外SBH试验,进行下面的操作获得合适的数据。
-随机确定60个5kb重叠“克隆”的位置,模拟基础库的制备;-随机确定1000个500bp“克隆”的位置,模拟制备有序库。这些片段从序列中提取。制备20个片段的随机集合,测定集合的k-元组系列并且保存在硬盘上。在有序态亚片段中使用这些数据对于相同克隆密度,对于整个人基因组使用基础库中4百万个克隆和有序库中3百万个克隆。7百万个克隆的总数比几乎所有基因组DNA的随机克隆几kb长的克隆数目小几倍,并且通过以凝胶为基础的方法测序。
从关于5kb片段的起始端和末端的数据,测得117个“信息片段”是在该序列中的。接着测定这单一“信息片段”构成的重叠k-元组系列。只使用配对预先测定列的k-元组亚套。该列含有65%8-聚体,30%9-聚体和5%10-12-聚体。在这些数据上进行亚片段的产生和有序化过程。
对两个试验中的模拟数据进行该算法的测验。用100%正确数据体系(超过20000bp)重新产生了50个信息片段的序列,和带有10%假k-元组的26个信息片段(大约10000bp)(5%阳性和5%阴性k-元组)。
在第一个试验中,所有亚片段是正确的并且50个信息片段中只有一个序列没有完全再生但是以5个亚片段形式存留。有序库重叠片段的位置的分析表明它们缺少关于这5个亚片段单一排序的信息。亚片段可以以重叠末端为基础的两种方法连接,1-2-3-4-5和1-4-3-2-5。唯一的差别是亚片段2和4的交换。因为亚片段2,3和4相对短(总共大约100bp),在这种情况下相对较大的机会存在,并且在这种情况下发生这一事实,有序库片段中没有一个在亚片段3区起始或终止。
为了模拟真实的测序,一些试验的输入中包括了一些假(“杂交”)数据。在寡聚物杂交试验中,在提出的条件下,产生不可靠数据的唯一情况是对于全部配对/杂交的末端失配。因此,在模拟中,只有那些在任一末端与真实者一个单一元件不同的在k-元组被考虑是假阳性的。如下处理这些“假”系列。在信息片段的一套起源k-元组上加5%假阳性k-元组亚套。假阳性k-元组通过从该套中随机取k-元组将其拷贝并且改变其开端或末端上的核苷酸而得。这之后是减去5%随机选择的k-元组的亚套。用该方法,产生最复杂情况统计学预期数目,其中用带有末端上错误碱基的k-元组置换正确的k-元组。
如所述制备k-元组系列导致10%假数据。该值随着每种情况与每种情况而不同,这是由于要拷贝,改变和删除的k-元组的选择的随机性。无论怎样,该百分比3-4倍超过实际杂交试验中不可靠数据的量。引入的10%的错误导致基础库的片段(基础库信息片段)和区段中亚片段数目增加两倍。大约10%的终亚片段在末端具有错误碱基,这是对于含有假阳性k-元组套所预计的(参见主要亚片段的产生)。即没有发现亚片段错误连接的情况也没有发现具有错误序列的亚片段。在有序化过程中检查的26个中的4个信息片段中没有再生完全序列。在所有4种情况中,以包含在相同区段中几种较长亚片段和几种较短亚片段的形式获得序列。该结果表明该算法原理允许用大百分比假数据工作。
从其k-元组含量成功产生序列可以就完全性和精确性来描述。在产生过程中,可以确定两种特殊情况1)产生的序列中遗失了一部分信息,但是人们知道哪里是意义不明确的以及它们属于哪一种类型,和2)获得的再生序列与从中产生k-元组含量的序列不配对,但是该错误不能检测到。假设该算法发展到其理论上的界限,如在使用精确k-元组套中,只可能发生第一种情况。不完全性导致一定数目的不明确排序的亚片段和单一序列精确长度即完全衔接重复的数目测定的问题。
用假k-元组,可以产生不正确序列。错误的原因不在于该算法的缺陷,而是在于给定的k-元组的含量明确代表与源者不同的序列这样的事实。可以确定三类错误,取决于文件中存在的假k-元组的种类。假阴性k-元组(其不伴随有假阳性)产生“缺失”。假阳性k-元组产生“延伸(不相等的交换)”。假阳性伴随有假阴性是单独产生“插入片段”或者结合“缺失”的原因。当亚片段的两个可能的起点之间的所有k-元组(或者它们的大多数)是假阴性时产生缺失。因为序列中的每一个位置由k个k-元组确定,通常的情况下缺失的发生需要k个连续的假阴性。(10%的假阴性和k=8,这种情况在每108个元件之后发生)。这种情况即使在使用含有10个基因组等价物的随机库的哺乳动物基因组测序中是极为常见的。
由假阳性k-元组引起的序列末端的延长是“插入片段”的特殊情况,因为序列的末端可以被认为是假阴性k-元组的无穷的线性阵列。人们可以考虑一组产生比一个k-元组更长的亚片段的假阳性k-元组。如果重叠片段象有序库的随机自然片段中产生亚片段,则可以检测这类情况。插入片段,或者代替缺失的插入片段可以作为假阳性和假阴性k-元组的特殊组合的结果出现。在第一种情况下,连续假阴性的数目小于k。两种情况需要几个重叠假阳性k-元组。插入和缺失理论上是最可能的,没有大的实际体现,因为假k-元组的数目和特异性的要求太高。
在不符合假阳性和/或假阴性种类最小数目的理论要求的各种其它情况下,k-元组含量中的错误可以只是产生一种产生的序列的较小完全性。
SBH,样品核酸通过将样品暴露给已知序列的支持体结合的探针和标记探针或溶液中的探针来测序。无论在哪里探针连接酶被加入到探针和样品的混合物中,这样,无论在哪里支持体具有结合的探针和与样品背对背杂交的标记探针,两种探针将通过连接酶的相互作用化学连接。冲洗后,通过标记探针的存在只检测化学连接的支持体结合的和标记探针。通过得知阵列中特殊位置处支持体结合的探针的同一性,标记探针的同一性,用三个基质的样品通过在一个文本上一个阵列中的一点存在一个标记,可以测定该样品的序列的一部分。没有机会没有工作是所有连接的探针对的最大重叠序列,样品的序列可以再次构建。要测序的样品没有可能是核酸片段或10个碱基对(“bp”)的寡核苷酸。样品优选4至1千个碱基长度。
探针的长度是长度小于10个碱基的片段,并且优选地,长度在4和9个碱基之间。在这种情况下支持体结合的探针的阵列可以包括给定长度的所有寡核苷酸或者可以只包括为特殊试验选择的寡核苷酸。在使用给定长度的所有寡核苷酸时,中心寡核苷酸的数目可以通过4N计算,其中N是探针的长度。
实施例18重复使用测序芯片在测序过程中使用连接时,其后不能立刻再使用常规的寡核苷酸芯片。本发明人用各种方法使其得到克服。
人们可以使用核糖核苷酸作为第二探针,探针P,以便随后用RNAase处理除去该探针。RNAase处理可以使用RNAase A,一个内切核糖核酸酶,它特异性攻击单链RNA3’的嘧啶残基并裂解相邻核苷酸的磷酸键。终产物是嘧啶3’磷酸和带有末端3’磷酸的寡核苷酸。RNAase A在不存在辅助因子和二价阳离子的情况下发挥作用。
为了使用RNAase,人们通常在含有适当RNAase的缓冲液中温育芯片,如Sambrook等人所述(1989;引入本文作为参考)。在10到60分钟之间于37℃每8×8mm或9×9mm阵使用30-50μl的含有RNAase的缓冲液是适当的。
尽管没有广泛的使用,在具体的实施方案中也可以使用尿嘧啶碱基,如Craig等人(1989)所述,所述文献引入本文作为参考。通过用大肠杆菌修复酶,从DNA中除去尿嘧啶的尿嘧啶-DNA糖基化酶(glycosylase)消化可以破坏连接的探针组合以得到可重复使用的芯片。
人们也可以在探针间产生特异性的可裂解的键,然后在检测后将其裂解。例如,通过Shabarova等人(1991)和Dolinnaya等人(1988)所述的化学连接可以达到此目的(所述的两篇文献均引入本文作为参考)Shabarova等人(1991)描述了用溴化氰作为缩合剂缩合寡脱氧核糖核苷酸。在其中的一步化学连接反应中,将寡核苷酸加热到97℃,缓慢冷却到0℃,然后加入1μl在乙腈中的10M BrCN。
Dolinnaya等人(1988)说明了如何将亚磷酰胺和焦磷酸核苷酸间键加入DNA双螺旋中。他们还用水溶性碳化二亚胺(CDI)作为偶合剂,使用化学连接方法修饰DNA的糖磷酸骨架。亚磷酰胺键的选择性裂解包括在95℃与15%CH3COOH接触5分钟。焦磷酸键的选择性裂解包括与吡啶-水混合物(9∶1)和新鲜蒸馏的(CF3CO)2O接触。
实施例19诊断学-评价已知突变或者全基因重复测序在简单的情况下,该目的可以是发现DNA区段中是否发生选择的,已知的突变。对于该目的,不多于12个探针可能是满足需要的,例如,对于一个等位基因5个阳性探针,对于另外一个5个阳性,和对于两者2个阴性。因为对于每一个样品评价少量探针,可以平行分析大量样品。例如在3个杂交循环中用12个探针,可以在一个含有12×24亚阵的6×9膜上分析来自64个患者的96个不同的基因组位置,所述亚阵的每一个有代表来自64名患者相同DNA区段的64个斑点。在该实施例中,可以在64个96孔平板上制备样品。一个平板代表一名患者,每一个孔可以代表要分析的DNA区段中的一个。来自64个平板的样品可以重复4次点斑,为相同膜的4个区。
对于96个区段的每一个可以通过单道吸移或者通过单一针转移装置(或者通过各个控制的吸移管或针)来选择一套12个探针,并且选择的探针在12个96孔平板中排成阵列。如果没有标记过,则探针可以被标记,然后可以用杂交缓冲液混合来自4个平板的探针,并且优选通过96道吸移装置加入到亚阵列。一个杂交循环后,其可能通过在优选未稀释杂交或冲洗缓冲液中在37℃至55℃下温育膜来解析先前应用的探针。
对于一个等位基因的探针阳性是正的和对于其它等位基因的探针阳性是阴性的之可能性可以用来测定存在两个等位基因哪一个。在该冗长的评价方案中,可以接受各个探针杂交中一定水平的错误(大约10%)。
一套不完全探针可以用来评价等位基因的大多数尤其是如果冗长程度较小是足够的,例如证明一个样品中存在或不存在一个或两个探针。例如,使用一套4000个八聚体,对于随机选择的位点有91%的机会发现两个等位基因中的一个的至少一个阳性探针。可以优化不完全一套探针来反映被分析样品中G+C含量和其它倾向性。
对于全基因测序,可以在合适数目的区段中扩增基因。对于每一个区段,可以选择一套探针(每2-4种情况大约1个探针)并杂交。这些探针可以鉴定在被分析的区段的何处是否有突变。检测到一个或多个突变位点的区段(即包含这些区段的亚阵)可以与另外的探针杂交来在突变位点发现正好的序列。如果通过每两个6-聚体测试一个DNA样品,并且突变是位于阳性杂交探针TGCAAA和TATTCC所包围和三个阴性探针CAAAAC,AAACTA和ACTATT所覆盖的位点,则突变核苷酸一定是在该位置正常序列中存在的A和/或C。其可以通过单一碱基突变或者通过一个或两个核苷酸缺失和/或在碱基AA,AC或CT之间插入而改变。
一种方法是选择一个探针,其使阳性杂交探针TGCAAA向右延长一个核苷酸,并且其使探针TATTCC向左延长一个核苷酸。用这8个探针(GCAAAA,GCAAAT,GCAAAC,GCAAAG和ATATTC,TTATTC,CTATTC,GTATTC),测定两个有疑问的核苷酸。
可以测定关于突变的最可能的假设。例如,发现A突变为G。这些结果满足两种解释。用G置换A是唯一的变化或者该变化之外有新测定的G和接下来的C之间碱基一定数目的插入片段。如果用桥连探针的结果是阴性的,可以首先通过至少一个包括突变位置(AAGCTA)的桥连探针和另外8个探针检查这些选择,所述8个探针是CAAAGA,CAAAGT,CAAAGC,CAAAGC,CAAAGG和ACTATT,TCTATT,CCTATT,GCTATT,I。还有很多其它途径来选择解译突变的探针。
在二倍体情况下,可以进行对于试验样品和纯合体对照的评价的特殊比较来鉴定杂合体(参见上文)。如果这些探针所覆盖的该区段在两个染色体中的一个上突变的话,预期一些接连的探针粗略地具有两次较小的信号。
实施例20对于遗传病和其它特性负有责任的具有(突变)的鉴定使用固定化样品阵列上通用套较长探针(八聚体或九聚体),可以不亚克隆而对5-20kb这样长的DNA片段测序。而且测序的速度可以容易地达到大约1千万bp/天/杂交仪器。该操作使重复测序人基因的大部分或者从科学或药学感兴趣的个体反复的人基因组。为了重复测序50%的人基因,检查大约10亿bp。这可以在相对短的时间内以可接受的费用进行。
这种无穷尽的重复测序的能力可以用在编码疾病或任何其它特征的突变和/或基因的几种途径中。基本地,来自患有特殊疾病的患者的特殊组织或基因组DNA的mRNA(其可以转化为cDNA)可以用作起始材料。从DNA的两个来源,通过克隆程序或通过体外扩增程序(例如通过PCR)可以制备分开的合适长度的基因或基因组片段。如果使用克隆,要分析的最小一套克隆可以在测序之前从库中选择。这可以通过少量探针的杂交进行,特别是如果少量比5kb长的克隆要分类的话。克隆可以将杂交数据的量提高两倍,但是不需要上万个PCR引物。
在该方法的一个变化方法中,可以通过在下面的方法中用酶切DNA的酶象Hga I限制性酶切来制备基因或基因组片段GACGC(N5’)/CTGCG(N10’)。对于不同的片段5个碱基的突出端是不同的。一种酶对于一些基因产生合适的片段。通过在分开的反应中用几种酶酶切cDNA或基因组DNA,可以合适地切下每一个感兴趣的基因。在一个方法中,切下的DNA根据大小分级。用这种方法制备的DNA片段可以分布在试管或多孔平板中(并且任选用外切核酸酶III,其从3’末端各个去除核苷酸并且通过该末端的长度和特异性)。从相对小套代替公共部分和合适长度的变化突出端的DNA适配体(adapter),可以对需要扩增的每一个基因片段选择一对适配体。连接这些适配体,然后通过通用引物进行PCR。从1000个适配体可以产生1百万对,因此可以在相同条件下用与适配体共同末端互补的一对通用引物可以特异地扩增1百万个不同的片段。
如果发现一个DNA差异在几个患者中重复的话,则这种序列变化没有意义或者可以改变相应的蛋白质的功能,则该突变的基因可能对该疾病负责。通过分析带有特殊特征的大量个体,可以将特殊基因的功能等位基因变化与特殊特征联系起来。
该项研究可以用来消除对于非常昂贵的对广泛的家族基因制图的需要,并且当没有这样的遗传数据或材料时具有特殊的价值。
实施例21评价基因制图中单一核苷酸多态性在本申请中公开的技术适合鉴别有单一核苷酸多态性(SNUPs)的基因组片段。对10名个体,通过应用所描述的对大量可以通过克隆扩增或者通过体外扩增的已知序列的基因组片段的测序方法,可以鉴定具有SNUPs的足量DNA区段。该多态性片段进一步用作SNUP标记。这些标记或者事先制图(例如它们代表制图的STSs)或者它们可以通过下面描述的筛选程序制图。
通过扩增标记物并且将它们以亚阵阵列的形式排列,可以对来自相关家族或人群的每一个个体评价SNUPs。亚阵含有从被分析个体扩增的相同的标记物。对于每一个标记物,如在已知突变的诊断中,一套对于一个等位基因呈阳性的6个或更少探针和对于其它等位基因呈阳性的6个或更少探针可以被选择和评价。从一个或一组标记物与疾病的明显相关性,可以测定负责基因的染色体位置。因为高产出和低费用,对于上千个个体可以评价上千个标记物。数据的量使以少于1百万bp的分辨水平定位基因以及定位多基因疾病中所涉及的基因。定位的基因可以通过对来自相关的正常的和受影响的个体的特殊区测序来评价一个突变或多个突变。
对于扩增来自基因组DNA的标记物,PCR是优选的。每一个标记物需要一对特殊引物。存在的标记物可以是可转化的或者可以确定新的标记物,其可以通过Hga I型限制性内切酶酶切基因组DNA来制备,和通过用一对适配体连接。
SNUP标记物可以作为集合扩增或点斑来减少独立的扩增反应的数目。在这种情况下,对于每一个样品需要评价更多的探针。当集合4个标记物并且在12个重复膜上点斑时,则可以在4个循环中评价48个探针(每个标记物12个)实施例22检测和证明DNA片段的同一性试验中常常可以鉴定通过限制性酶切产生的DNA片段,克隆或体外扩增(例如PCR)。通过在凝胶电泳上证明特异大小DNA泳带的存在进行鉴定。或者可以制备特异寡核苷酸并且用来通过杂交证实研究的DNA样品。这里改进的方法得以更有效鉴定大量样品而不用对于每一个片段制备特异的寡核苷酸。可以从对于以已知序列为基础的每一个片段的通用套中选择一套阳性的和阴性的探针。选择阳性的探针通常能形成一个或几个重叠基团,和阴性探针遍及整个插入片段。
这项技术可以用来在其对YAC克隆制图的过程中鉴定STSs。每一个STSs可以在大约100YAC克隆上或者YAC克隆的集合上测试。来自这100个反应的DNAs可能在一个亚阵中点斑。不同的STSs可以代表连续的亚阵。在几个杂交循环中,对于每一个DNA样品可以产生信号,该信号以必要的可信度证明或反证给定YAC克隆中特殊STS的存在。
为了减少独立PCR反应的数目或者用于点斑的独立样品的数目,分别地,几个STSs可以在一个反应中同时扩增或者PCR样品可以混合。在这种情况下,对于每一个斑点必须评价更多的探针。STSs的集中与集中的YACs无关并且可以在单一YACs或YACs库上使用。当几个用不同颜色标记探针杂交在一起时,该方法特别具有吸引力。
除了证明样品中DNA片段存在外,利用几个分开的探针或者一个或多个探针库的杂交强度可以估计DNA的量。通过比较获得的强度和对于具有已知量DNA的对照样品的强度,同时测定所有点斑的样品中DNA的量。因为鉴定一个DNA片段只需要几个探针,并且有可以对于N个碱基长的DNA使用的N个可能的探针,该应用不需要足以鉴定任何DNA区段的一大套探针。从1000个八聚体中,在1000bp片段中,平均可以选择大约30全配对探针。
实施例23鉴定感染疾病的有机体及其变异体用于检测患者中病毒,细菌,真菌和其它寄生虫的以DNA为基础的测定通常比其它替代方法更容易和消费低。DNA测定的主要好处是能鉴定特异菌株和突变体,甚至能应用更有效的治疗。下面描述两种应用。
通过扩增这些基因可以测定细菌感染中12个已知的抗生素抗性基因的存在。来自128个患者的扩增产物可以在两个亚阵中点斑,并且之后在8×12cm膜上可以重复4次用于12个基因的24个亚阵。对于每一个基因,可以选择12个探针用于阳性的和阴性的评价。杂交可以进行3个循环。对于这些试验,小得多的一套探针最可能是通用的。例如,从一套8000个八聚体,在1000bp片段中,平均30个探针是阳性的,和10个阳性探针通常对于高度可靠的鉴定是足够的。如实施例9中所述,几个基因可以一起被扩增和/或点斑,并且可以测定给定DNA的量。扩增了的基因的量可以用作感染水平的指示剂。
另一个实施例包括HIV病毒的一个基因或整个基因组的可能的测序。因为快的多样化作用,病毒对于选择一种最佳的治疗具有很多的困难。可以从来自至多64个患者的分离的病毒扩增DNA片段,并且通过描述的方法重复测序。以获得的序列为基础可以选择最佳的治疗。如果有两种类型病毒的混合物,其中之一具有基础序列(类似于杂合子情况),通过定量比较其杂交评价和其它样品尤其是只含有基础病毒类型的对照样品的评价可以鉴定突变体。对于3-4个探针可以获得小如两次的评价,所述探针覆盖样品中存在的两种类型病毒之一中特别的位点(参见上文)。
实施例24司法和亲子鉴定序列的多态性使得各个基因组DNA是单一的。这使可分析来自犯罪现场的血液或者其它体液或组织并且与犯罪嫌疑人的样品相比较。对足够量的多态性位点评价,产生样品的单一信号。SBH可以容易评价产生这样的信号的单一寡核苷酸多态性。
可以从样品和怀疑对象扩增一套DNA片段(10-1000)。来自样品和怀疑对象的DNA代表一个片段,并且在一个或几个亚阵中点斑,并且每一个亚阵可以重复4次。在3个循环中,对于每一个DNA基因座,12个探针可以测定各个样品包括怀疑对象中等位基因A或B的存在。样品和怀疑对象的模式配对可以导致发现对犯罪负责的怀疑对象。
相同的方法可以用来证明或反证孩子双亲的鉴定。可以制备DNA,从孩子和成人扩增多态性基因座;通过对于每一个的杂交可以测定A或B等位基因的模式。比较获得的模式,以及阳性的和阴性的对照物,见于家庭关系的测定。在这种情况下,只要明显一部分等位基因需要与一名鉴定双亲配对。大量的评价的基因座使避免该方法中的统计学误差或者从头突变的标记影响。
实施例25评价人种或物种基因多样性和生态小生境的生物学多样性对大量基因座(例如几个基因或者全部线粒体DNA)等位基因变异频率的测定使得到推论的不同类型,例如关于环境对基因型影响,种群的历史和进化或者其产生疾病或灭绝的怀疑性的推论。通过测定特异的等位基因或者通过一些基因座的全重复测序进行评价,以能确定从头突变,这可以解释细微变异或者环境中诱变的存在。
另外,通过重复测序进化保留的DNA序列可以研究微生物领域中的生物多样性,例如核糖体RNAs的基因或者高度保守蛋白质的基因。可以从环境制备DNA,并且用相应于保守序列的引物扩增特殊的基因。在质粒载体中可以优先克隆DNA片段(或者稀释至在多孔平板中的每一个孔中一个分子的水平,然后体外扩增)。用这种方法制备的克隆可以根据上述重复测序。获得两种类型的信息。首先,不同物种的目录以及对于每一个物种的个体的密度可以确定。另一段信息可以用来测定生态学因素或人口对生态系统的影响。其可以发现一些物种是否是灭绝的或者物种之间的丰度比是否由于人口数而改变。该方法也用于测序来自化石的DNA。
实施例26测定或定量测定核酸种类通过使用包括固定于基质的未标记探针和溶液中标记探针的一对探针可以检测和定量测定DNA或RNA种类。通过在标记探针和连接酶存在下暴露给未标记探针可以检测和定量测定物种。具体地说,通过连接样品核酸骨架上标记的和未标记探针形成延长的探针是存在要检测物种的指示。因此,去除未连接标记探针后基质上阵列中特异的点存在标记表明存在样品物种,同时标记的量指示物种的表达水平。
或者,一个或多个未标记探针作为第一对成员可以在基质上排成阵列,带有一个或多个标记探针引入到溶液中。根据一种方法,通过使用在可区分波长处有荧光的染料可以进行阵列上标记的多重结合化。在该方法中,可以将cDNA混合物加到对于要鉴定的物种是特异性的标记和未标记探针对的阵列上,测定cDNA物种的存在和表达水平。根据优选的实施方案,可以通过选择包括与要测定的cDNA的序列重叠的序列的未标记和标记探针对的对,来对cDNAs序列部分进行该方法。
可以选择探针来检测特殊病源有机体基因组的存在和量,通过包括在组合物中的选择的探针对,其只是在与靶病源基因组有机体组合中出现。因此,没有单一探针对对于病原体有机体基因组必须是特异性的,但是探针对的组合是。类似地,在检测和测序cDNA中,可能发生的是特殊的探针对于cDNA或者其它类型物种不是特异性的。无论如何,特殊物种的存在和量可以通过这样的结果来测定,其中位于完全不同的阵列位置的选择的探针的组合是存在特殊物种的指示。
具有大约10kb或更多DNA的感染剂可以使用载体结合检测芯片而不用聚合酶链反应(PCR)或者其它靶物扩增方法来检测。根据其它方法,包括细菌和病毒的感染剂基因组通过利用PCR扩单一靶核苷酸序列和通过特异于靶物序列的标记探针的杂交来检测靶物的存在来评价。因为这样的测定对于唯一单一靶物序列是特异性的,因此其对于通过例如PCR这样的方法的基因扩增是必须的来提供足量的靶物来提供可检测信号。
根据该实施例,提供了通过文本3-型反应测定感染剂核苷酸序列特征的改进的方法,其中制备固相检测芯片,其包括特异于感兴趣的感染剂的多个不同的固定化寡核苷酸探针的阵列。包括很多与靶核酸互补的未标记探针的混合物的单一斑点在一个位置浓缩了对物种特异的标记,从而提高了对分散或单一探针标记的敏感性。这样多个探针可以是靶核苷酸序列的重叠序列,但是也可以是非重叠序列以及非邻接的。这样的探针优选具有大约5-12个核苷酸长度。
核酸样品暴露给探针阵列,样品中存在的靶序列将与多个固定化探针杂交。选择来特异性结合与固定化探针邻接的靶序列的多个标记探针库然后和样品一起加样到未标记的寡核苷酸探针混合物的阵列。然后连接酶加样到芯片上来连接样品上邻接的探针和样品核酸。然后冲洗测定芯片以去除未杂交的和未连接的探针,可以通过存在或不存在标记来测定样品核酸的存在。该方法以减少大约1000倍样品剂的体积摩尔浓度通过可靠的样品检测。
根据本发明进一步方面,利用例如对自由探针提供共同尾部可以扩大标记探针的信号,自由探针本身包括多个显色的,酶的或放射性标记或者其自身被怀疑通过另一个多标记的探针试剂特异性结合。在这种方法中,可以进行第二轮信号扩增。可以在第二轮扩增中使用标记或未标记探针。在第二轮扩增中带有多个标记的长DNA样品可以导致10-100倍之间的增强扩增强度信号,这可能导致100000倍总的信号扩增。通过本实施例两个方面的应用,大约100000倍强度信号可以给出探针-DNA连接的阳性结果而不必须使用PCR或其它扩增方法。
根据本发明的另一方面,可以制备阵列或超阵列,其由一套完全探针例如4096个六聚体探针组成。这种类型的阵列一般来说是通用的,它们可以用于检测或部分完全测序任何核酸种类。阵列中各个斑点可以含有单一探针种类或者探针的混合物,例如N(1-3)B(4-6)N(1-3)型混合物,其是在单一反应中合成的(N代表所有4个核苷酸,B代表一个特异性核苷酸,并且其中相关的数目是碱基数目的范围,即1-3指“从一个至三个碱基”)。通过收集来自同样长核酸种类分子不同部分的信号,这些混合物对于以低浓度存在的核酸种类提供更强的信号。通用套探针可以再分成很多亚套,点斑成被隔栅隔离的单位阵列,所述隔栅防止杂交缓冲液与样品和标记探针的扩散。
为了检测具有已知序列的核酸种类,可以选择包括未标记的固定探针和溶液中标记探针的一个或多个寡核苷酸序列。合成标记探针或者从预先合成的例如七聚体的完全套中选择标记探针。标记探针加入到固定化探针的相应的单位阵列中,使得一对固定的和标记探针将邻接杂交于靶序列,这样通过给予连接酶,探针将共价连接。
如果单位阵列包含一个以上在给定核酸种类中是阳性的固定探针(如分开的斑点或者在相同斑点中),可以混合所有相应的标记探针并且加入到相同单位阵列中。当测定核酸种类的混合物时,标记探针的混合物就更加重要。核酸种类复杂混合物的一个实施例是在一个细胞或组织中的mRNAs。
根据本发明的一个实施方案固定探针的单位阵列使使用每一种可能的固定化探针,所述探针含有相对少量标记探针的混合物。如果涉及多重结合标记方案,则可以使用标记探针的更复杂的混合物。优选的多重结合方法可以使用不同的荧光染料或者可以通过质谱可以区分的分子标记物。
或者,根据本发明优选的实施方案,可以选择相对短的固定化探针,其频繁与很多核酸序列杂交。这样短的探针可以结合标记探针的混合物使用,标记探针的混合物可以这样制备,使得至少一个标记探针相应于每一个固定探针。优选的混合物是其中没有一个标记探针相应于一个以上固定探针。
实施例27具有所有可能的10-聚体的HIV病毒的区段的探查在文本III SBH的该实施例中,在尼龙膜(例如Gene Screen)上产生所有可能的结合的5-聚体(1024个可能的五聚体)阵列。合成带有5’尾部5’-TTTTTT-NNN-3’的结合的5-聚体寡核苷酸(N=所有4个碱基A,C,G,T,在合成的该步骤中加入等摩尔量的所有4种碱基)。将这些寡核苷酸精确点斑到尼龙膜上,使斑点风干,通过用UV光处理干燥的斑点将寡核苷酸固定化。使用该方法获得对于每平方纳米至多18个寡核苷酸的寡核苷酸密度。UV处理后,用含有去污剂的缓冲液在60-80℃处理尼龙膜。寡核苷酸斑点以10个10个斑点以隔栅隔成亚阵,并且每一个亚阵具有64个5-聚体和36个对照斑点。16个亚阵给出1024个5-聚体,其包括所有可能的5-聚体。
阵列中的亚阵通过物理隔栅彼此分隔,例如疏水性条带,其使各亚阵与样品杂交而没有来自邻接亚阵的交叉污染。在优选的实施方案中,疏水性条带是从溶解于合适的溶剂(这样的溶剂是本领域公知的)的聚硅氧烷溶液(例如家用聚硅氧烷胶水和密封糊)。硅脂溶液被用在亚阵之间形成线路,其在溶剂挥发后作为分开小室的疏水性条带。
在文本III实施例中,合成带有3’尾部5’-NN-3’(N=所有4个碱基A,C,G,T)的自由的或溶液(未结合的)5-聚体。在该实施例中,自由的5-聚体和结合的5-聚体结合,产生所有可能的10-聚体,用来测序小于20kb的已知的DNA序列。20kb双链DNA变性为40kb单链DNA。该40kbssDNA与大约4%所有可能的10-聚体杂交。低频率的10-聚体结合和已知的靶序列使集合自由的或溶液(未结合)5-聚体用于处理每一个亚阵,而不遗失序列信息。在优选的实施方案中,对于每一个亚阵集合16个探针,在自由的5-聚体的64个总库中阐明了所有可能的5-聚体。因此可以用1024个亚阵对DNA样品探查所有可能的10-聚体(对于自由的5-聚体的每一个库有16个亚阵)。
该实施方案中的靶DNA代表HIV病毒区段的两个-600bp。通过60个重叠30-聚体的库阐明这些600bp区段(30-聚体重叠各个邻接30-聚体20个核苷酸)。30-聚体的库模拟用本领域公知的技术处理过的靶DNA,来剪切,消化和/或随机PCR,靶DNA产生非常小的片段的随机库。
如上所述,在先前文本III实施例中,用放射性同位素,生物素,荧光染料标记自由的5-聚体。标记的自由5-聚体沿着结合5-聚体与靶物DNA杂交并且连接。在优选的实施方案中,向反应中加入300-1000单位连接酶。根据先前实施例教导的确定杂交条件。连接和去除靶DNA和过量自由探针之后,测试阵列以确定标记探针的位置(使用上面实施例中描述的技术)。
靶物已知的DNA序列,和阵列中已知的自由的和结合的5-聚体,预示哪一个结合5-聚体将与各亚阵中标记的自由的5-聚体连接。失去来自这些预计的斑点中的20个的信号,对于靶DNA中每一个变化从预示的序列获得20个新的信号。这10个新斑点中结合的5-聚体的重叠序列鉴定在各新的斑点中哪一个自由的5-聚体被结合。
使用描述的方法,自由的标记的5-聚体阵列和集合,测试的HIV DNA序列用所有可能的10-聚体探测。使用文本III方法,我们正确鉴定所测试的序列的“野生型”序列,以及引入到这些区段中的几种序列“突变体”。
实施例28对重复DNA序列测序在一个实施方案中,靶DNA中的重复DNA序列用修饰的文本III方法,以具有“间隔区寡核苷酸”测序。重复DNA序列(该重复序列在第一轮SBH上鉴定)不同长度的间隔区寡核苷酸与带有第一个已知的毗邻的寡核苷酸和第二个已知的,或者毗邻间隔区另一端的可能的寡核苷酸基团(从第一轮SBH得知)的靶DNA杂交。当与重复DNA区段的长度匹配的间隔区与靶物杂交时,两个邻接的寡核苷酸可以与间隔区连接。如果第一个已知的寡核苷酸与基质固定,和第二个已知的或可能的寡核苷酸是标记的,当合适长度的间隔区与靶DNA杂交时,产生包括标记的第二已知的或可能的寡核苷酸的结合连接产物。
实施例29用文本III SBH通过分支点测序在一个实施方案中,使用第三套寡核苷酸和改进的文本III方法测序靶DNA中的分支点。第一轮SBH之后,当搜集序列时可以鉴定几个分支点。这些可以通过与一个引入分支点的已知序列部分重叠的寡核苷酸杂交,然后与靶物上其他寡核苷酸杂交来解决,这另外的寡核苷酸是标记的并且相应于从分支点伸出的一个序列。当合适的寡核苷酸与靶DNA杂交时,标记的寡核苷酸可以与另一个连接。在优选的实施方案中,选择从分支点分出1至几个核苷酸分支的第一寡核苷酸(这样其读到分支序列中的一个),也选择从第一个读出并且进入分支点序列的第二个寡核苷酸,选择一套第三个寡核苷酸,其相应于所有可能的带有一个或几个核苷酸重叠的分支点序列的分支序列(相应于第一寡核苷酸)。这些寡核苷酸与靶DNA杂交,只有带有正确分支序列的第三寡核苷酸(其配对第一寡核苷酸的分支序列)将产生带有第一和第二寡核苷酸的连接产物。
实施例30分析靶核酸的多重结合探针在该实施例中,用不同的标记物标记探针套,使得一套中的各个探针能与该套中的其它探针区分。因此,这套探针可以在单一杂交反应中与靶核酸接触而不丢失任何探针信息。在优选的实施方案中,不同的标记物是不同的放射性同位素,或者不同的荧光标记物或者不同的EMLs。这些套探针可以在任一文本I,文本II或文本III SBH中使用。
在文本I SBH中,一套不同标记探针与固定于基质的靶核酸在使区分完全配对和一个碱基对失配的条件下杂交。通过其不同的标记鉴定与靶核酸结合的特异探针,并且从该结合信息,至少部分地,测定完全配对。
在文本II SBH中,用不同的探针标记靶核酸并且与探针阵列杂交。通过其不同的标记鉴定与探针结合的特异靶核酸,并且从该结合信息,至少部分地,确定完全配对。
在文本III SBH中,一套不同标记探针和固定探针与靶核酸在使从一个碱基对失配区分完全配对的条件下杂交。靶物上与固定探针邻接的标记探针结合于固定探针,检测这些产物并且通过它们不同的标记物加以区分。
在优选的实施方案中,不同的标记物是通过电子捕获质谱(EC-MS)能检测的EMLs。EMLs可以从各种各样骨架分子制备,特别优选具有某些芳香性骨架的,例如,参见Xu等,色谱杂志(J.Chromatog.)76495-102(1997)。EML以可逆的和稳定的方式与探针接触,探针与靶核酸杂交之后,从探针上去除EML并且通过标准EC-MS鉴定(例如可以通过气相色谱-质谱进行EC-MS)。
实施例31检测低频率靶核酸文本III SBH具有足够的辨别能力来鉴定只是一个核苷酸不同的类似序列、以1份比99份比例存在于样品中的序列。因此,文本III可以用来鉴定以非常低的浓度存在于核酸样品中的核酸,例如来自血液的样品。
在一个实施方案中,囊性纤维化的两个序列,序列之间相互不同在于缺失三个核苷酸。对于两个序列的探针如下,区分野生型缺失的探针固定于基质,标记的连续的探针对于两者是共同的。使用这些靶物和探针,当其以1份对99份野生型存在时,用文本III SBH可以鉴定到缺失突变体。
实施例32分析靶核酸的偏振片仪器和方法可以用两个阵列的核酸,和任选的防止两个阵列的核酸在期望混合之前混合的材料组成分析核酸的仪器。仪器的阵列可以通过各种各样的基质支持,包括但不限于尼龙膜,硝基纤维素膜或者上面公开的其它材料。在优选的实施方案中,一种基质是通过疏水性条带分成部分的膜,或者带有可以盛凝胶或海绵状物的孔的合适的支持体材料。在该实施方案中,探针放在膜的一部分中,或者放在孔中,向膜或孔加入凝胶,或者海绵状物,和溶液(有或没有靶核酸),使得探针增溶。然后,使含有增溶了的探针的溶液接触核酸的第二阵列。核酸可以是,但不限于,寡核苷酸探针,或者靶核酸,和探针或靶核酸可以被标记。核酸可以用本领域常规使用的任何标记物来标记,包括但不限于放射性同位素,荧光标记或电子团质标记。
可以以这样的方式在两个阵列之间放置防止核酸混合的材料,使得当取出材料时两个阵列的核酸混合在一起。该材料可以是板,膜,或者其它隔栅形式,并且该材料可以由防止核酸混合的任何材料组成。
该仪器可以如下在文本I SBH中使用仪器的第一阵列具有与基质固定的靶核酸,仪器的第二阵列具有是标记的并且可以取出来探查第一阵列的靶核酸的核酸探针。两个阵列任选地被一片防止探针接触靶核酸的材料分开,并且当取出该片板时,探针可以探查靶物。合适的温育和(任选地)冲洗步骤后,可以读靶物阵列来测定每一个探针与靶物形成完全配对。读数可以自动读数或者可以人工读数(例如通过用放射自显影图观察)。在文本II SBH中,进行的过程类似于上面描述的,除了靶物是标记的并且探针是固定的。
或者,该仪器可以如下在文本III SBH中使用形成两个核酸探针的阵列,两个阵列中的一个或两个的核酸探针被标记并且一个阵列可以固定于其基质。两个阵列可以通过一片防止探针混合的材料分开。文本II反应通过加入靶核酸和取出片板使探针相互和靶物混合来开始。与靶物上邻接位点结合的探针结合在一起(例如通过碱基堆积相互作用或者通过共价连接骨架),读取结果来测定哪一个探针在邻接位点结合了靶物。当一套探针固定于基质时,可以读取固定的阵列来测定来自另一个阵列的哪一个探针与固定探针结合在一起。用上面的方法,读数可以是自动的(例如用ELISA读数器)或者可以人工读取(例如通过用放射自显影图观察)。
本发明不局限于例示的实施方案的范围,例示的实施方案是为了详细说明本发明分一个方面,是功能等价物的组合物和方法在本发明范围内。事实上,考虑到本发明优选的实施方案,本领域技术人员预期能在实施本发明时进行大量的修饰和改变。当然,唯一的限制是补充的权利要求书中给出的那些本发明范围本说明书中引用的所有参考全部在此引作参考。
权利要求
1.证明测序结果的方法,包括下面的步骤使用SBH从核酸获得序列;鉴定一套与核酸序列互补但是不是精确互补的探针;在使以一个碱基失配与完全配对相区别的条件下使探针与核酸杂交;证明该探针不与核酸完全配对。
2.权利要求1的方法,其中SBH是版本I SBH。
3.权利要求1的方法,其中SBH是版本III SBH。
4.权利要求1的方法,其中这一套探针与核酸序列不是精确互补的。
5.证明测序结果的方法,包括下面的步骤使用SBH从核酸获得序列;对于核酸选择至少一个引物;使用桑格测序法用引物对核酸测序;将从SBH导出的核酸的序列与从桑格测序法产生的核酸的序列相比较。
6.将来自核酸序列的多个Sfs排序的方法,包括下面的步骤使用SBH从核酸获得序列;从多个Sfs的序列鉴定多个引物,借此这些引物引发核酸进行复制反应,其中核酸读经一个分支点;使用桑格测序法用引物对核酸测序;将通过桑格测序法产生的分支点附近核酸的序列与序列相比较,从而确定Sfs的顺序。
7.用来分析核酸的多个探针,其中多个探针用于在将多个探针相互区分条件的下探查核酸。
8.权利要求7的探针,其中核酸具有已知的序列、探针用标记物来标记。
9.权利要求7的多个探针,其中用多个不同的标记来标记多个探针,借此通过与探针附着的不同的标记将多个探针相互区分。
10.分析核酸的一套探针,包括多个探针的集合,其中每一个集合用来探查核酸,并且其中多个探针用多个不同的标记来标记,借此各个集合中的探针可以通过与探针附着的不同的标记而相互区分。
11.权利要求9的一套探针,其中多个不同的标记是多个不同的放射性同位素。
12.权利要求9的一套探针,其中多个不同的标记是多个不同的荧光分子。
13.权利要求9的一套探针,其中多个不同的标记是多个不同的EMLs。
14.权利要求10的一套探针,其中多个不同的标记是多个不同的放射性同位素。
15.权利要求10的一套探针,其中多个不同的标记是多个不同的荧光分子。
16.权利要求10的一套探针,其中多个不同的标记是多个不同的EMLs。
17.分析核酸的方法,包括下面的步骤提供寡核苷酸探针的阵列;将样品核酸引入到阵列中;在使一个碱基失配区分于完全配对的条件下,将多个标记探针加到阵列中;向阵列中加入连接酶;在一定条件下温育连接酶,标记探针,样品核酸和阵列探针,该条件是当标记探针在样品核酸上邻接阵列探针时,标记探针与阵列探针连接;和测定已经与阵列连接的标记探针。
18.权利要求17的方法,进一步包括在温育步骤后去除未连接的标记探针的步骤。
19.权利要求18的方法,其中核酸具有已知的序列并且多个探针用标记物来标记。
20.权利要求19的方法,其中标记物选自放射性同位素,荧光分子和EML。
21.权利要求18的方法,其中用多个不同的标记来标记多个探针,借此通过与探针附着的不同的标记将探针相互区分。
22.权利要求21的方法,其中多个不同的标记是多个不同的放射性同位素。
23.权利要求21的方法,其中多个不同的标记是多个不同的荧光分子。
24.权利要求21的方法,其中多个不同的标记是多个不同的EMLs。
25.分析多个核酸的方法,包括下面的步骤获得包括多个核酸的样品,其中靶核酸至少以一份对九十九份与靶物同源,且至少一个核苷酸与靶物不同的核酸的比例存在;选择一套将鉴定靶核酸的探针;在使一个碱基失配区分于完全配对的条件下混合样品和探针;鉴定探针是否在样品中形成核酸的完全配对。
26.分析核酸的仪器,包括第一阵列核酸;第二阵列核酸;防止第一阵列中的核酸与第二阵列中的核酸混合的,在第一阵列和第二阵列之间放置的材料。
27.权利要求26的仪器,其中第二阵列中的核酸是标记的寡核苷酸探针。
28.权利要求27的仪器,其中第一阵列中的核酸是多个样品核酸。
29.分析靶核酸的方法,包括下面步骤提供与基质固定的已知序列的结合探针的阵列;提供已知序列的标记探针的阵列;提供防止结合的和标记探针阵列中的探针混合的,在结合的和标记探针的阵列之间放置的材料;向标记探针加入靶核酸;去除结合的和标记探针之间的材料,在使一个碱基失配区分于完全配对的条件下,标记探针结合的探针和靶核酸混合在一起;连接与靶核酸中邻接位点杂交的结合的和标记探针;检测已经与结合的探针阵列连接的标记探针。
30.分析靶核酸的方法,包括下面步骤提供与基质固定的已知序列的结合的探针的阵列;提供已知序列的标记探针的阵列;提供防止结合的和标记探针阵列中的探针混合的,在结合的和标记探针的阵列之间放置的材料;去除结合的和标记探针之间的材料,使得标记探针和结合的探针混合在一起;在使一个碱基失配区分于完全配对的条件下,向标记探针和结合探针加入靶核酸;连接与靶核酸中邻接位点杂交的结合的和标记探针;检测已经与结合的探针阵列连接的标记探针。
31.分析靶核酸的方法,包括下面步骤提供与基质固定的已知序列的结合的探针的阵列,其中一些结合的探针与多个靶核酸第一部分互补;提供已知序列的标记探针的阵列,其中一些标记探针与多个靶核酸第二部分互补并且其中特异第二部分与特异第一部分邻接;提供防止结合的和标记探针阵列中的探针混合的,在结合的和标记探针的阵列之间放置的材料;向标记探针加入靶核酸;去除结合的和标记探针之间的材料,使得标记探针结合探针和靶核酸在使一个碱基失配下区分于完全配对的条件下混合在一起;连接在靶核酸中特异第一和第二部分处结合的结合的和标记探针;检测连接结合的探针阵列的标记探针。
32.分析靶核酸的方法,包括下面步骤提供与基质固定的已知序列的结合的探针的阵列,其中一些结合的探针与多个靶核酸第一部分互补;提供已知序列的标记探针的阵列,其中一些标记探针与多个靶核酸第二部分互补并且其中特异第二部分与特异第一部分邻接;提供防止结合的和标记探针阵列中的探针混合的,在结合的和标记探针的阵列之间放置的材料;去除结合的和标记探针之间的材料,使得标记探针和结合的探针混合在一起;在使一个碱基失配下区分于完全配对的条件下,向标记的和结合的探针加入靶核酸;连接在靶核酸中特异第一和第二部分处结合的结合的和标记探针;检测连接结合的探针阵列的标记探针。
33.分析靶核酸的方法,包括下面步骤提供结合的靶核酸的阵列;提供已知序列的标记探针的阵列;提供防止靶核酸和标记探针混合的,在结合靶物和标记探针的阵列之间放置的材料;去除结合靶物和标记探针之间的材料,使得标记探针和结合靶核酸在使一个碱基失配下区分于完全配对的条件下混合在一起;检测哪一个标记探针已经和靶DNA形成完全配对。
全文摘要
本发明提供测定靶核酸种类的方法,包括下面的步骤:提供附着基质的探针和多个标记探针的阵列,其中选择各个标记探针使具有与靶核酸第一部分互补的第一核酸序列并且其中至少一个附着基质的探针的核酸序列与靶物核酸序列的第二部分互补,这第二部分邻接第一部分;在合适的条件下将靶核酸应用到阵列,使探针序列与互补序列杂交;将标记探针引入阵列中;附着基质的探针与靶核酸杂交;标记探针与靶核酸杂交;标记探针附着于阵列中邻接杂交的探针;和检测阵列中附着于探针的标记探针。
文档编号G01N33/566GK1250485SQ98803399
公开日2000年4月12日 申请日期1998年1月14日 优先权日1997年1月16日
发明者R·德尔马纳克 申请人:希斯克有限公司