专利名称:用于切割修饰的dna的组合物、方法和相关用途的利记博彩app
用于切割修饰的DNA的组合物、方法和相关用途
背景技术:
与甲基转移酶相关的DNA切割酶广泛存在于原核基因组中。DNA切割酶通常由限制性内切核酸酶——其通过在限定位点切割DNA来保护宿主细胞不受侵入DNA(例如,噬菌体)的侵袭——和DNA甲基转移酶——其通过甲基化限制性内切核酸酶位点内的特定碱基来保护宿主DNA不被降解——组成(Roberts等人,Nucleic Acids Res 35: D269-270(2007))o因此,这些限制性内切核酸酶被称为甲基化敏感性的。虽然原核生物和噬菌体DNA中的修饰碱基在保护基因组不受限制性内切核酸酶切割方面起作用,但是甲基化胞嘧啶(m5C)参与哺乳动物基因组的基因表达。用于鉴定甲基化DNA的技术是繁琐的,并且在实验上,难于以可再现的方式实施该技术。两种方法经常被使用。一种涉及限制酶如HpaII和MspI的使用,所述限制酶对胞嘧啶甲基化作用敏感程度不同。例如,HpaII内切酶被CCGG识别位点内两个胞嘧啶中的任意一个的甲基化作用所阻遏,但是其同切点酶(isoschozimeiOMspI,仅当外侧C被甲基化时才被阻遏。当内侧胞嘧啶被修饰时,其将切割DNA。第二种方法涉及未甲基化的胞嘧啶残基的亚硫酸氢盐修饰,然后选择性扩增和测序剩余DNA。在该方法中,甲基化胞嘧啶对该处理具有抵性。该方法不容易被优化,并且涉及复杂的化学修饰步骤,然后使用复杂的引物组进行扩增。在不存在更简单的可选方法的情况下,广泛使用该方法。
发明内容
在本发明的一个实施方式中,提供通过大DNA的酶切割可获得的双链寡核苷酸片段组,其中大DNA包含一种或多种修饰核苷酸,并且其可来自哺乳动物细胞,更具体地, 来自人细胞。该组中的至少50%的片段应优选是大小相似的,并且优选包含中心定位 (centrally positioned)的修饰核苷酸。一个或多个片段可从该组分离。大DNA的长度可为至少100个核苷酸;例如,修饰核苷酸可为修饰胞嘧啶,如甲基化胞嘧啶或羟甲基化胞嘧啶,修饰胞嘧啶可接近鸟嘌呤,以形成CpG或CNG。然而,可选地,修饰胞嘧啶可位于另一个胞嘧啶、腺嘌呤或胸苷的下一个。该组中的寡核苷酸片段可优选为小于60个核苷酸长度, 例如为观-36个核苷酸;和/或修饰核苷酸,特别是胞嘧啶,可位于距该片段的任意末端的 30个核苷酸内。在本发明的一个实施方式中,提供了酶制剂,其特征在于,一种或多种识别DNA中的修饰核苷酸的酶,以便每种酶都能在与修饰核苷酸相距非随机距离的位点处切割DNA。更具体地,在切割位点和修饰核苷酸之间的非随机距离可以为酶的特征,以致产生上述类型的片段组。所述一种或多种酶进一步以N-末端保守结构域为特征,该N-末端保守结构域与WXD⑴1(1YXGD具有大于90%的氨基酸序列同源性,更具体地,与WXD⑴6G⑴3YXGD⑴ 5GN⑴2LX1(1_2(1PX3F具有大于90 %的氨基酸序列同源性。在本发明的一个实施方式中,酶制剂中的一种或多种酶进一步由单一可读框内的识别结构域和切割结构域来确定。切割结构域可具有如此氨基酸序列,该氨基酸序列与 FEX20_30DX2_4DX19_22(Q/E)XK具有大于90%的氨基酸序列同源性。另外,酶中的至少一种可与确定为SEQ ID NOS :7-22的序列的任一种具有大于90%的氨基酸序列同源性。此外,一种或多种酶可共价或非共价地与蛋白质亲和标签或其他标签连接或融合。合适的亲和标签的例子包括壳多糖结合结构域、麦芽糖结合结构域、抗体以及组氨酸标签。另外,所述一种或多种酶可由对包括WXD (X)ltlYXGD的氨基酸序列具有结合特异性的抗体识别。此外,该制剂可包括激活DNA。在本发明的一个实施方式中,提供了酶制剂,其包括一种或多种识别DNA中的修饰核苷酸的酶,以便每种酶都能在与修饰核苷酸相距非随机距离的位点处切割DNA,更具体地,其中在切割位点和修饰核苷酸之间的距离是酶的特征,由此产生片段组。如果该DNA在双螺旋的每条链上、在大约相对的位置处包含修饰核苷酸,则该片段组可大小相似,或者对于半修饰DNA,该片段组可大小不同。所述一种或多种酶可进一步以N-末端保守结构域为特征,该N-末端保守结构域与WXD⑴1(IYXGD具有大于90 %的氨基酸序列同源性。在本发明的一个实施方式中,提供能够识别和结合上述酶的N-末端结构域的抗体。在本发明的一个实施方式中,提供了一种方法,该方法包括用上述组合物切割包含一种或多种修饰核苷酸的大DNA,并获得寡核苷酸片段组。该方法可进一步包括将该寡核苷酸片段组与未切割的DNA分离,此外,该方法可包括从分离的片段组测序至少一个片段, 以确定包含在至少一个片段内的一种或多种修饰核苷酸的位置。该方法可包括通过测序或其他方法来分析寡核苷酸片段的一些或所有以找出大DNA中一种或多种修饰核苷酸的存在和位置,并在基因组或甲基化组图谱上标示该序列,以确定修饰核苷酸的位置。在本发明的一个实施方式中,提供了一种用于鉴定如上所述的酶的方法,该方法包括利用选自SEQ ID NO :7-22以及其变体的序列搜索序列数据库,并鉴定附加序列,该附加序列具有以共有序列WXD(X)ltlYXGD为特征的N-末端区域。该方法可包括进一步的步骤 鉴定包含具有共有序列FEX2(i_3(iDX2_4DX19_22 (Q/E) XK的催化结构域的C-末端,更具体地,具有 FE (X) 2A (X) 15_18T/SX4DGGXDX2G/LX15_20E/QAKo在本发明的一个实施方式中,提供了一种用于从DNA片段的混合物分离包含一种或多种修饰核苷酸的那些DNA片段中的方法,该混合物由包含至少一种修饰核苷酸的大 DNA的酶切割而产生。该方法可包括向该混合物中加入固定化或标记的亲和结合分子,该分子能够选择性地结合包含修饰核苷酸的那些片段。可选地,包含修饰核苷酸的那些片段可被根据大小与那些不包含修饰核苷酸的片段分离。亲和结合分子的例子为上述酶制剂,其中酶制剂中的一种或多种酶已经经过突变而失去酶切割活性,并且其中突变酶被固定在固相表面上,以便结合包含一种或多种修饰核苷酸的DNA片段。亲和结合分子的其他例子包括细胞蛋白质例如DNMTl的抗体、失活的T4葡糖基转移酶以及甲基结合结构域。这些分子可又与例如壳多糖结合结构域、麦芽糖结合结构域或生物素分子的任何一个融合,并因此结合到合适的柱上。在本发明的另一个实施方式中,提供了用于根据修饰核苷酸模式来鉴定细胞制品或组织样本中现存或未来的表型属性的方法。该方法包括用上述酶制剂将来自细胞制品或组织的大DNA切割成片段;以及将片段中修饰核苷酸的位置与对照DNA中修饰核苷酸的模式相比较,以确定现存或未来的表型属性。在本发明的另一个实施方式中,上述方法进一步包括将切割片段与能够结合修饰核苷酸的亲和结合分子相接触,或通过电泳或现有技术中已知的能够实现大小分离的其他方法。结合部分可包括上述酶制剂,其中已经通过传统方法使酶切割活性失活。因此,具有修饰核苷酸的片段可以与没有修饰核苷酸的片段分离。上述方法还可包括在甲基化组或基因组上鉴定固定化切割片段中一种或多种修饰核苷酸的位置。该位置可通过测序分离片段来确定。在本发明的另一个实施方式中,提供了一种用于确定大DNA中至少一种修饰核苷酸的位置的方法。该方法包括用上述酶制剂切割大DNA ;获得包含至少一种修饰核苷酸的寡核苷酸切割产物组;以及通过例如测序该寡核苷酸切割产物组来确定该大DNA的序列中至少一种修饰核苷酸的位置。该组中用于测序的寡核苷酸片段的数量可取决于该组是否来自克隆DNA或来自重复序列(repeats),其中测序片段亚组可能是足够的,或取决于该组是否预期包含单一序列,其中测序该组中基本上所有片段是可取的。在本发明的实施方式中,提供了一种用于获得包含一种或多种修饰核苷酸的片段的纯化制剂的方法,该方法包括将其中一个或多个片段包含至少一种修饰核苷酸的DNA片段的混合物与能够与DNA片段共价或非共价地结合的固定化亲和结合蛋白接触。亲和结合蛋白的例子为上述酶制剂中的突变酶,其中酶切割活性已被失活。该方法可进一步包括将包含至少一种修饰核苷酸的一个或多个片段与结合蛋白结合;以及获得包含一种或多种修饰核苷酸的片段的纯化制剂。在本发明的实施方式中,提供用于产生包含修饰核苷酸的寡核苷酸片段的试剂盒,该试剂盒包括在容器中的上述酶制剂,和使用说明书。该试剂盒可进一步包括激活剂分子。
图 1A-1B 示出 MspJI RM 系统。图IA示出编码MspJI RM系统的分枝杆菌属某种(Mycobacterium sp. )JLS的基因组片段。对可读框的NCBI注释为Mjls0821,推定的解旋酶;Mjls0822 (MspJI),限制性内切核酸酶;Mjls0823(V. MspJIP),DNA 错配内切核酸酶 vsr ;Mjls0824(M. MspJI),DNA 胞嘧啶
甲基转移酶。图IB示出MspJI酶家族的示意性的结构域结构。这里,N-末端结构域被定义为剩余C-末端结构域上游的大约50%的蛋白质序列。图IC示出N-末端结构域中的保守模体。图ID示出C-末端结构域中的保守模体。图2A示出MspJI的修饰依赖性(modification-d印endent)酶活性。泳道1,只有pBR322 (dcm+) DNA ;夕永道 2,1 μ g 的 pBR322 (dcm+) +0. 8 μ g MspJI ;泳道3,1 μ g 的 pBR322 (dcm+) +0. 8 μ g MspJI+10 单位的 BstNI ;泳道4,只有pBR322 (dcm+) +10 单位的 BstNI ;泳道5,只有pBR322 (dcm-) DNA ;以及泳道 6,1 μ g 的 pBR322 (dcm-) +0. 8 μ g MspJI。所有的反应都在37°C下温育1小时,并在的琼脂糖凝胶上分离(解析,resolve)。泳道3和4示出MspJI不剪切(切割)任何没有被BstNI剪切的位点。因此, 在该CmC A/T GG处被甲基化的底物上,只有修饰的Dcm位点被MspJI所剪切。所有的Dcm 位点都被对Dcm甲基化作用不敏感的BstNI所剪切。 图2B示出对在其他位点处甲基化的pBR322 (dcm-)的MspJI消化。所有的反应都以50μ 1的体积,在37°C进行2小时,并在的琼脂糖凝胶上分离。在所有反应中,使用 0. 8μ g 的 MspJI。泳道 1,1 μ g 的 M. MspI (CmCGG)修饰的 pBR322 ;泳道2,1 μ g 的 M. HaeIII (GGmCC)修饰的 pBR322 ;泳道3,1 μ g 的 M. HpaII (CmCGG)修饰的 pBR322 ;泳道4,1 μ g 的 M. HhaI (GmCGC)修饰的 pBR322 ;以及泳道5,1 μ g 的 M. AluI (AGmCT)修饰的 pBR322。图2C示出对含羟甲基胞嘧啶的DNA的MspJI消化。所有的反应都以50 μ 1的体积,在37°C进行1小时。泳道1,具有葡糖基化羟甲基胞嘧啶的1 μ g的T4野生型(wt) DNA ;泳道2,具有羟甲基胞嘧啶的T4gt DNA ;泳道3,1 μ g 的 T4wt DNA+10 单位的 McrBC ;泳道4,1 μ g 的 T4gt DNA+10 单位的 McrBC ;泳道5,1 μ g 的 T4wt DNA+20 单位的 MspI ;泳道6,1 μ g 的 T4gt DNA+20 单位的 MspI ;泳道7,1 μ g 的 T4wt DNA+0. 8 μ g 的 MspJI ;以及泳道8到11,1 μ g的1Mgt DNA和以1. 6μ g(泳道8)开始的两倍系列稀释的 MspJI ()。图2D示出不同量的DNA激活剂对MspJI活性的影响。从泳道1至5,每个反应包含1 μ g(0. 35pmol)pBR322和1. 6pmol MspJI。泳道1-4示出包含甲基化的CCffGG位点的 DNA激活剂的滴定G0、20、10、5pmol)。泳道5示出使用不含DNA激活剂的MspJI的pBR322 消化。泳道6示出使用BstNI (CCffGG)的pBR322消化。图3示出MspJI对完全甲基化的DNA的切割活性的示意图。双链切割可发生在该甲基化位点的任意一侧。该切割在所识别的甲基化碱基的3’端上。在该图中,当上链(top strand)甲基化胞嘧啶被识别时,MspJI在右侧切割;当下链(bottom strand)甲基化胞嘧啶被识别时,MspJI在左侧切割。从切割位点到所识别的甲基化胞嘧啶的距离是固定的。例如,当上链甲基化胞嘧啶被识别时,下链切割位点(nicking site)距其16个核苷酸,上链切割位点距其12个核苷酸。图4A-4D示出对完全甲基化和半甲基化的寡核苷酸底物(oligo substrate)的 MspJI切割,其在变性凝胶上分级。图 4A 示出在合成的双链寡核苷酸 TGGTAATAATAAGGTTGAGGACTTTTTCCGGATGCCCGGA ATGGGTTCAAAGG(SEQ ID NO 1)中预期的酶切割位点(命名为Rt,Rb,Lt,Lb)。上游链的3, 端或下游链的5’端用FAM标记,如4B中所述。图4B示出对完全甲基化和半甲基化的寡核苷酸底物的MspJI消化。泳道1,无甲基化作用,上游链被标记;
泳道2,无甲基化作用,下游链被标记;泳道3,上游链和下游链都被甲基化,上游链被标记;泳道4,上游链和下游链都被甲基化,下游链被标记;大小为8nt或7nt的切割产物提示下游链中的摇摆剪切(wobbling cut);泳道5,上游链被甲基化,上游链被标记;泳道6,上游链被甲基化,下游链被标记;与泳道4中一样,大小为Snt或7nt的切割产物提示下游链中的摇摆剪切;泳道7,下游链被甲基化,上游链被标记;以及泳道8,下游链被甲基化,下游链被标记。作为对照,标志在该凝胶的右侧上跑胶(rim)。图4C示出具有CpG和酶切割位点的寡核苷酸序列,其将产生在中心位置具有CpG 的片段。图4D示出在存在或不存在激活DNA的情况下,使用MspJI消化图4C所示的的寡核苷酸。反应以10μ 1,在37°C进行1小时。在每个反应中,寡核苷酸为lpmol,MspJI为 0.4yg。在使用激活剂的反应中,将Ιμ 的原液(15 μ Μ)加入10 μ 1反应中。5μ1的反应在不同的时间点开始和终止,并在20%天然聚丙烯酰胺凝胶上分离。泳道1,只有DNA;泳道2,30分钟下不加激活剂的消化反应;泳道3,30分钟下加入激活剂的消化反应;泳道4,1. 5小时下不加激活剂的消化反应;以及泳道5,1. 5小时下加入激活剂的消化反应。图5示出对不同m5C甲基化位点,MspJI切割位点位置的序列分析。用不同的甲基化转移酶将pBR322DNA(dcm-)甲基化。甲基化转移酶在标题为“甲基化酶”的一栏中示出。失控测序模式在“测序色谱图的例子”(SEQ ID NOS 2-6) 一栏中示出。推断的切割模式在“MspJI切割位点” 一栏中示出。图6A示出具有中心定位的修饰胞嘧啶的双链DNA,其是当大DNA用新的酶家族的成员切割时获得的寡核苷酸组的代表性片段。图6B示出聚丙烯酰胺凝胶上人基因组DNA的DNA样本,其中图6A所示的寡核苷酸片段组作为相关条带(coherent band)出现。32bp条带表示来自基因组的包含甲基化 CpG位点的短片段库。该库可被纯化并可直接放入下一代测序平台进行甲基化组分析。图6C示出由MspJI家族中不同成员酶产生的切割产物的比较。第一泳道包含DNA 标志。所有随后的泳道包含CpG甲基化海拉(Hela)基因组DNA的消化物,每条泳道具有不同的MspJI家族成员酶。泳道1-3以及5示出相应于大约32个核苷酸长度(箭头)的条带。在泳道4中,IUaI识别CCWGG并在识别位点的任意一侧上进行切割,以提供中心定位的修饰胞嘧啶。然而,该序列在于海拉基因组DNA中未见到。泳道1示出MspJI的切割产物;泳道2示出Frankia 5336的切割产物;泳道3示出Lpg 1234的切割产物;泳道4示出IUaI的切割产物;
泳道5示出AspBHI的切割产物;以及泳道6示出仅DNA。图7-1到图7-7示出酶的MspJI家族的代表性成员的氨基酸序列比对。该比对的在5或更多成员中的保守残基在首行中指出(“保守性”)。二级结构预测在底部列出(“共有序列”)。二级结构元件为e、β折叠;h、α螺旋。图8-1到图8-2示出三种生物中不同长度CG中心的序列的生物信息学分析。列出每种生物——人、小鼠以及拟南芥属基因组——的CG位点的全部数量。栏中报道了区别的(序列上不同)CG中心的序列的数量,单一的(以单拷贝发生)数量,单一的为全部这类 CG中心的序列的分数,以及为单一(单拷贝)的为区别的CG中心的序列的分数。实施方式详述已经发现修饰特异性(modification-specific)DNA切割酶的新家族,其中该家族成员识别双链DNA中的修饰核苷酸,并随后在与该修饰核苷酸相距非随机距离下游(3’ 方向)进行剪切。这些酶独特的特性之一是它们能够从包括基因组DNA的大DNA上直接释放包含修饰核苷酸的短DNA片段。当修饰核苷酸在每条链的相对位置上存在时,这些酶能够在DNA的两条链上产生双链断裂。当DNA只在一条链上包含修饰核苷酸时,双链断裂在修饰核苷一侧上发生。大DNA中修饰核苷酸的位置可因此通过克隆切割产物和/或通过测序进行推断。使用超高通量测序平台,有可能以可靠和快速的方式,鉴定并标示修饰核苷酸, 例如甲基化胞嘧啶或羟甲基化胞嘧啶。“修饰”核苷酸意欲是指包含额外化学基团例如5-羟甲基或5-甲基的任何核苷酸。例如,“修饰”胞嘧啶通常在哺乳动物基因组中作为CpG出现,在植物基因组中作为CNG出现,因为对称性,“使在两条链上相同位置处进行甲基化成为可能。羟甲基胞嘧啶已经被认为是人DNA的组成部分(Tahiliani等人,Science 324(5929) =930-5(2009); Kriaucionis and Heintz, Science 324(5929) :929_3(K2009))。“大DNA”意欲是指任何自然发生或合成的DNA,该DNA具有大于100个核苷酸的大
小,多至基因组大小。对于寡核苷酸片段“组”而言,“相似大小”意欲是指变化不超过大约士5个核苷酸长度的片段。然而,不同片段“组”可具有5-50个核苷酸的大小范围。“中心定位的”意欲相应于一条链上修饰核苷酸的位置,该位置大约位于双链片段的同一条链的中心。该位置通常位于通过从该片段的任意一端计数核苷酸确定的中心的5 个核苷酸内。“N-末端结构域”是指延伸至蛋白质的大约50%的氨基酸序列的区域。在本发明的实施方式中,N-末端结构域内的保守区域相应于SEQ ID NO :22 (MspJI)的氨基酸 81-224,C-末端结构域内的保守区域相应于氨基酸300至蛋白质的C-末端(SEQ ID NO 22 (MspJI))。由大双链DNA的切割获得的相似大小的“寡核苷酸片段组(一组寡核苷酸片段),, 指当修饰核苷酸位于一条链上与第二互补链上的另一个修饰核苷酸大体上相反位置时,由修饰核苷酸两侧上的大DNA的切割而产生的片段。“酶制剂”意欲指一种试剂,而不是在体内自然状态下存在的物质。如果切割由多个大DNA(例如,染色体)组成的基因组,则每个大DNA将产生相似大小的一组寡核苷酸片段。从人全基因组的切割获得的片段混合物可被认为多组寡核苷酸片段,每个组来自染色体,或者可被认为单组片段,这取决于上下文(context)。在实施方式中,该组寡核苷酸包括至少6个具有不同DNA序列的寡核苷酸片段。例如,该组寡核苷酸可包括至少10个具有不同序列的寡核苷酸或至少20个具有不同序列的寡核苷酸。在一个实施方式中,克隆的双链DNA可在靶核苷酸的一个位点上进行酶修饰,例如修饰双链的CpG 处的胞嘧啶。在该实施例中,由MspJI酶家族成员进行的双链切割将在在修饰胞嘧啶的两侧非随机距离处发生。该组寡核苷酸将由具有中心定位的修饰核苷酸的相似大小的片段组成。刚才描述的酶的MspJI家族成员已经由微生物源鉴定,尽管该家族中的酶不限于在微生物中发现的那些酶。BLAST搜索已经显示在DNA数据库中鉴定的序列数量相对较小, 该数据库包含来自所有生物源的的基因组,该基因组编码如本文限定的家族中的蛋白质。 16种同系物在图ICUD以及7-1到7-7中示出,它们的序列同一性百分比和同源性(相似性)百分比在表2中示出。已经发现能够识别修饰核苷酸并在与该修饰核苷酸相距非随机距离处切割DNA 的酶共享N-末端结构域中的序列模体。已经发现这些酶能够单一切割修饰核苷酸两侧上的DNA,从而产生非随机大小的片段。真核基因组中胞嘧啶的5位上的修饰(m5C)最通常与基因表达的调节相关联。本发明的实施方式可包括能够识别CpG位点的修饰胞嘧啶、胞嘧啶的环外N4位(mN4C)或非胞嘧啶例如腺嘌呤的修饰核苷酸,例如,腺嘌呤的环外N6位 (mN6A)的酶,其中,这样的酶在修饰的识别序列的任意一侧进行切割。本文由保守序列结构域和某些功能性特征限定的酶家族包括在识别和/或催化结构域之外或之内具有序列修饰的衍生酶或变体。此外,重组的衍生酶或酶变体包括在该家族中,其可与作为标记、标签或标志(美国专利5,643,758)的第二蛋白质融合,或其可包括作为标记的替代物,例如硒代半胱氨酸替代物(见专利号7,141,366)。除了上述的酶家族,也考虑其中催化结构域被修饰或缺失以便N-末端结构域作为甲基化DNA或羟甲基化 DNA结合结构域的衍生酶或酶变体。利用MspJI酶家族产生寡核苷酸片段组可依赖单个酶或可包括多个酶,其中一些酶或所有酶是MspJI家族的成员或是衍生自MspJI家族的成员。新限定的家族成员,在化学修饰或突变之前,可由以下面列举的一种或多种特征结构上限定。(a)非异数(non-heteromeric);(b)在单一可读框中的识别和切割功能;(c)编码序列和蛋白质序列不包含甲基化转移酶模体;(d)与在为WXD⑴1(1YXGD的N-末端结构域中的保守模体至少90 %的序列同源性; 以及(e)包括该保守模体的共同二级结构元件。图IB和图7-1到7-7示出该酶家族的实施方式,其中构建催化核的二级结构元件的全部顺序为螺旋(Hl)-螺旋(H2)-折叠(Si)-折叠(S2)-折叠(S3)-螺旋(H3)-折叠 (S4)-螺旋(H4)(见例如图7-1到7-7,其中h =螺旋,一系列的e表示β -折叠)。保守 FE在α -螺旋Η2中;第一保守天冬氨酸⑶在两个β折叠Sl和S2之间的铰链区中;第二保守天冬氨酸在β折叠S2中;保守(Q/E)XK在β折叠S3中。该家族中的成员可使用选自SEQ ID NO :7_22的序列或相关序列通过BLAST搜索进行鉴定。随后进一步搜索命中点(hit),以寻找上述的N-末端结构域中的共有序列, 同时任选地搜索命中点,以寻找共有序列FE)C2Q_3C1D)(2_4DX19_22(Q/E)XK的C-末端结构域中至少90%的序列同源性或同一性。任选地,该N-末端结构域中的保守序列可延伸至与WXD ⑴6G⑴3YXGD⑴1Q-15GN00 2LX1Q_2QP)(3F大于90 %的序列同源性和/或与FE⑴2A⑴15-18T/ SX4DGGXDX2G/LX15_20E/QAK 大于 90% 的序列同源性。然后,所选择的序列可通过现有技术中已知的技术进行表达,例如通过体外转录-翻译(PURExpress (TM),New England Biolabs, Inc. (NEB),Ipswich, MA))进行表达或通过克隆入缺少修饰碱基的微生物宿主,例如#ER2655进行表达(NEB Express, #C2523, NEB, Ipswich, MA),并分析DNA的切割,该DNA的切割包含产生限定大小的寡核苷酸片段的修饰核苷酸,和/或包含中心定位的修饰核苷酸。利用产生单克隆或多克隆抗体的标准技术,可针对新限定的酶家族(MspJI酶家族)的成员培养抗体。这些抗体或其片段可被用于原位标记与修饰的大DNA结合的MspJI 酶家族成员。可将该酶进行突变,以使切割功能失活或被去除。在这种情况下,然后可通过与能够抗体结合的亲和基质结合分离该片段。在功能上,MspJI被鉴定为数据库中邻近甲基化酶基因序列的DNA序列,并因此被称为内切核酸酶基因。然而,当其被表达为蛋白质时,用测定限制性内切核酸酶活性的标准分析发现其是失活的。这通常将会终止任何进一步的探究,但对于在此所述的偶然发现,当与来自大肠杆菌Dcm+菌株的DNA —起温育时,该酶被激活,而当对来自大肠杆菌Dcm-菌株的DNA进行测验时,该酶是失活的。当该酶与已知包含修饰胞嘧啶的真核DNA例如人基因组DNA —起温育时,在聚丙烯酰胺凝胶上观察到高分子量DNA的成片条带和清晰可见的条带,该条带包含相应于32个碱基对大小的片段(见图6Β)。鉴定相关的酶家族(图7-1到7-7),并且用人基因组DNA来测验通过这些酶的代表性例子进行的DNA切割。经测验的酶产生一组相似大小的大约32个核苷酸的寡核苷酸片段,如在图6C中的凝胶上所观察到的。在此所述的新限定的酶家族是特别受到关注的,原因包括这些酶识别在5位上被修饰的核苷酸残基的能力,以及产生一组寡核苷酸片段的能力,其中切割在DNA上酶识别位点下游的基本上固定的距离处进行(见图6Α、6Β和6C)。在本发明的实施方式中,距离修饰位点的切割距离遵守以下规则(1)对于靠得很近的双链上具有回文m5CpG或其他修饰核苷酸的双链DNA,双链断裂可在该修饰核苷酸的每一侧上产生,从而产生相似大小的片段。在一个实施方式中,发现一条链上的切割位点和修饰CpG之间的距离为12个碱基,并且发现从m5C到相反链上的切割位点的距离为16个碱基(MspJI),其包括4个碱基突出端,这产生了 32个碱基长度的寡核苷酸片段。(2)对于半修饰的双链DNA,双链断裂发生在该修饰核苷酸的3’下游的位置处。从同一条链上的切割位点到该修饰核苷酸的距离是恒定的(例如对于MspJI,该距离是12个碱基,从另一条链上的切割位点到该修饰核苷酸的距离为16个碱基)。DNA中半修饰的位点可通过将包含由MmeI样酶(例如Mmel,见美国专利号7,115,407)识别的位点的寡核苷酸与在距离该修饰核苷酸16个核苷酸的位点一侧处进行切割的半修饰DNA相连接进行检测。该寡核苷酸可在MmeI位点寡核苷酸的5’端包括4个简并核苷酸,以允许与下链上的 4碱基延伸(突出)进行退火。可选地,可使用平端寡核苷酸,以便利用标准分子生物学技术,对在4碱基延伸处的单链区域进行填充。MmeI样酶将切割18或19个上游核苷酸,这对于MspJI切割片段来说是修饰片段上游的大约2个核苷酸。可测序以这种方式产生的片段,并确定DNA中该半修饰核苷酸的位置。来自人、小鼠和拟南芥属的基因组中CpG位点的数量已经使用生物信息学进行了确定。如果这些生物的基因组随后被切割成包含中心定位的CpG的从M个碱基到60个碱基的不同长度片段,则根据增加的大小,在人类中,具有单一序列的这些片段表示71%和 91 %之间的全部单一序列,按照相同的标准,在小鼠中表示83 %到90 %的全部单一序列, 在拟南芥属中表示89%到95%的全部单一序列。如果具有区别序列(独特序列,distinct sequence)的那些限定长度的序列与全序列进行区别,并对那些序列单独地进行分析,则96% -98%的大小为M-60个核苷酸的片段将匹配人基因组中的单基因座。在图8-1到8-2提供的生物信息学分析中,如果片段长度是60个核苷酸,则有26,185,493个包含中心定位的CpG的片段,其中25,538,480个中心定位的CpG的片段具有区别序列,并且这些的98%匹配基因组中的单基因座(见图8-1 到 8-2)。因此,在通过新限定的家族中的酶产生的寡核苷酸片段组中具有重要的信息价值,其中该酶识别修饰核苷酸并在距修饰核苷酸一定距离处切割DNA,以优选产生相似大小的片段。数据显示,这些片段的大部分非常可能标示到基因组中的单基因座。这第一次使简单且有效的用于产生甲基化组的方法成为可能。因此,高通量的序列分析可快速且容易地产生大多数的——如果不是全部的话——实际修饰核苷酸在基因组中的位置。在本发明的实施方式中,描述了用于测定酶的修饰特异性切割活性的筛选分析 (见实施例1)。这些分析不是意欲进行限制。在一个实施方式中,用包含特定DNA甲基转移酶基因的质粒转化所选择的宿主细胞。所表达的甲基转移酶随后在特定位点将该宿主基因组甲基化。几百个具有不同的限定序列特异性的甲基转移酶已经在文献中描述(见例如 REBASE ,a publicly available online database maintained by New England Biolabs, Ipswich, MA) 0具有不同甲基化特异性的这些甲基转移酶中的任何一种都可用于筛选目的。相容性质粒的引入将减少或消除这些转化细胞的成活力,这导致了低转化铺板效率,其中该质粒表达了如此基因,该基因具有能够作用于宿主修饰模式的修饰依赖性切割活性。在用甲基化特异性内切核酸酶基因平行转化中,未甲基化的宿主将显示高铺板效率。因此,该试验将确定编码的基因产物的修饰依赖性切割特性。发现MspJI家族中的酶的活性在双链DNA激活剂存在的情况下能够得到提高,该激活剂优选具有小于16bp的长度,并包含修饰的dcm位点(例如,Ckm(CaiCWGG)位点)。在切割位点包含硫代磷酸键的30bp抗切割DNA激活剂也促进酶反应。确定DNA样本甲基化或羟甲基化的水平对外遗传研究是重要的。基因组的外遗传调节包括染色质重建,该染色质重建可通过向DNA——大多数情况下在CpG位点处——加入甲基来完成,从而将胞嘧啶转变为5-甲基胞嘧啶,并且其逆转可能通过羟甲基胞嘧啶。 真核基因组中胞嘧啶的甲基化可从一个亲代的种系保留至合子,标明染色体是从该亲代继承的(遗传印记)。另外,在结合后和在发育生物的组织中发生甲基化的大的变化(Morgan 等人,Hum MoI Genet 14 Spec No. 1 :R47-58 (2005)) 另外,响应环境因素,在基因组的一些区域中的甲基化可发生变化(Li,et al Cell 69(6) 915-926(1992)) 0甲基化模式的差异可成为例如胚胎干细胞的不恰当发育过程的关键指示(Brimner等人,Genome Research 19 :1044-1056(2009)) ο某些酶(例如DNMT1)对m5C具有高亲和性。如果该酶到达DNA的“半甲基化”部分(在此甲基胞嘧啶只存在于两条DNA链中一条上),那么该酶将对另一半进行甲基化。DNA甲基化在重复序列中发生,并有助于抑制转座因子的表达和转移(Slotkin, 等人,Nat Rev Genet. 8 (4) :272-85 Q007))。由于自发的脱氨作用,5_甲基胞嘧啶可转变为胸苷;因此,CpG位点被频繁地突变,并因此在基因组中变得稀少,除了在CpG位点保持未甲基化的CpG岛(island)之除。在这种情况下的脱氨作用将胞嘧啶转变为尿嘧啶。甲基化模式中的诊断变化具有检测增加的永久遗传突变频率的潜力。为了探究疗法的目的,已经在癌细胞中对人基因组的甲基化进行了研究(见例如Gargiulo,等人,The International Journal of Biochemistry & Cell Biology 41 :127-35(2009) ; L^l Gronbaek, ^A, Basic Clin Pharmacol Toxicol 103 :389-96 (2008)) 本发明的实施方式显著提高了在基因组中标示修饰核苷酸以产生图谱(甲基化组)的能力。人甲基化组将促进对整个生物体和个体细胞中人之间表型变异的研究,并能产生与发育、老化和疾病相关的有用信息。根据这些信息,甚至在病理出现前,就可能确定疾病例如癌症的易感性,并可能设计能提供有效诊断性试验和治疗剂的合适的治疗。鉴定具有新特性的酶家族和产生新寡核苷酸片段允许通过使一组或多组寡核苷酸片段分离来描述人甲基化组的状态,所述一组或多组寡核苷酸片段提供了一定浓度的在人基因组中发现的修饰碱基。通过凝胶电泳、固相亲和结合或其他方法,可以促进所述一组或多组寡核苷酸片段的分离。甲基化组分析可通过加入对照进行协助,所述对照可包括用 M. SssI处理基因组,其使基因组中基本上所有的CpG 二核苷酸甲基化aegnasubramanian 等人,Nucleic Acids Res 34 :el9 (2006))。从酶切割得到的所述一组或多组寡核苷酸片段可使用一类目前可行的、利用 Nextgen测序方法来鉴定和标示DNA中的修饰胞嘧啶核苷酸的高通量测序方法进行测序。 该方法极大地简化了任何大DNA或基因组例如哺乳动物基因组的甲基化组的产生。对于对基因组特殊区域的快速诊断方法而言,选择特定寡核苷酸切割产物可测定与疾病例如癌症相关的修饰胞嘧啶的异常存在或不存在。特定的寡核苷酸可被用于测定个体的特殊表型。 例如,将一组片段与在固态表面(阵列杂交)上存在的或在溶液中标记(反之亦然)的限定序列或一组序列杂交可显示与表征甲基化组的一组标准片段的差异。qPCR或阵列杂交也可用于查询一种或多种已知的关注位置的多度。修饰核苷酸或结合分子可用荧光或化学发光的标签标记或用其他本领域已知的标记方法进行标记,以方便检测。基因组中的修饰核苷酸可使用具有失活切割位点的新限定家族的突变酶成员进行原位鉴定。通过使该突变酶的结合位点可视化,可测定修饰核苷酸的位置。新限定的酶家族的成员可被基因工程化,以便形成用于大规模生产的重组蛋白。 可通过融合蛋白的形成以便该酶与具有附加用途的亲和标签结合,来促进重组蛋白的纯化。例如,如果该标签为生物素、组氨酸肽、壳多糖结合结构域、或麦芽糖结合蛋白或其他底物结合结构域,则该家族成员可通过其本身直接作为甲基结合结构域,或通过与抗体亲和基质结合,或通过亲和标签,在亲和基质上进行分离。可为了成像目的,将单独的、修饰的或与标签融合的重组蛋白进行荧光标记。在酶动力学是单周转(single turnover)、低转换或酶完全缺乏催化活性时,酶或酶融合蛋白在与包含修饰核苷酸的片段结合时也可直接与亲和基质结合,以将包含修饰核苷酸的寡核苷酸片段与剩余片段分离,用于测序或用于诊断性试验。以下提供的大部分是针对MspJI的实验性方案,其不是意欲进行限制的。本领域的技术人员能够对任何其他新限定的家族的成员使用以下提供的实验设计。本文引用的所有参考文献,包括在2008年12月23号提交的序列号为61/140,586 的美国临时申请和在2009年12月8号提交的序列号为61Λ67,617的美国临时申请,在此通过引用并入。
实施例实施例1 =MspTI酶家族的甲基化特异件DNA切割活件酶的牛产将重组MspJI酶家族成员在dcm-菌株ER2566中进行表达并利用多个层析步骤进行纯化,直到基本上均质(homogenous)。具有N-末端8XHis标签的酶首先在Hi1Trap肝素 HP 柱(GE,Piscataway,NJ)、随后在 HisTrap HP 柱(GE,Piscataway,NJ)、最后在 HiTrap SP柱(GE,PiSCataWay,NJ)上进行纯化。该纯化程序遵循制造商的推荐。酶部分的切割活性对λ DNA(其是部分dcm甲基化的)进行分析。为了进一步提高表达水平,可对该编码酶的DNA进行密码子优化。该分析可包括下列步骤中的一个或多个1.将合成或自然发生的大DNA中的靶核苷酸甲基化,该大DNA任选地具有已知的序列。例如,可以使用λ DNA,其在CmCWGG位点部分dcm甲基化,并且XP-12噬菌体基因组 DNA的胞嘧啶完全被5mC胞嘧啶所取代;2.使该大DNA与MspJI酶家族反应;3.例如用聚丙烯酰胺凝胶将切割产物进行大小分离;4.对一组相似大小的寡核苷酸片段测序,以测定修饰核苷酸的位置;以及5.任选地在该大DNA序列上标示该片段序列。步骤1的详述包括使用不同的大DNA制剂,该大DNA制剂已经与不同的甲基转移酶反应,以便在体外修饰该DNA。这些底物用于鉴定底物特异性。该产物可通过的琼脂糖凝胶电泳进行分析,并通过溴化乙锭进行可视化。例如,M. Hpall (NEB, Ipswich,MA)可产生CmCGG修饰的DNA。质粒DNA消化可通过1 %的琼脂糖凝胶电泳和使用溴化乙锭染色可视化进行监测。可选地,包含修饰位点的合成双链寡核苷酸可用于任何甲基化位点容易产生的情况——独立于甲基转移酶的可用性。在关注的回文位点上的修饰核苷酸包括例如NmCGN、mCNG、NGmCN、GNmC等,其中N为A、Τ、G或C。除了完全甲基化的寡核苷酸以外,具有半甲基化位点的寡核苷酸也可以以这种方式进行试验。 其他类型的修饰,例如5-羟甲基化胞嘧啶和5-葡糖基化-羟甲基化胞嘧啶,可在合成期间直接并入该寡核苷酸,或通过用噬菌体T4葡糖基转移酶对羟甲基化胞嘧啶残基进行进一步修饰进行。为了测定切割位点,用33P在底物寡核苷酸的5’端或3’端进行标记。切割产物在 7M-脲20%的聚丙烯酰胺变性凝胶上跑胶至单核苷酸分离,并进行分析。通过体内筛诜分析表征MSD TI酶家族成员具有内源性甲基化酶基因dcm的ER1992菌株与具有不含5_甲基胞嘧啶的dcm-基因型并且不进行甲基化特异性酶切割的ER2566 —起,用于筛选新重组限制性内切核酸酶的甲基化特异性活性,其中所述甲基化酶基因dcm将CCWGG位点中的内胞嘧啶甲基化为 CmCWGG,并且用作具有期望切割活性的酶的靶底物。通过体外分析测量Msd TI酶家族成员的活件使用仅包含通过11Λ的间插序列分开的2个甲基C’s的质粒。该切割产生了 3个片段,31Λ的质粒骨架、11Λ的插入片段以及两个32bp片段。当该消化接近完成时,未剪切的质粒消失,并且可容易地测量琼脂糖凝胶上随后出现的11Λ和骨架条带。该质粒被转化入dam-dcm-菌株,并作为分析底物进行纯化。这样的质粒在Mewart,F.,等人,Biological Chemistry 379:611-616(1998)中描述。■搬瓶寸膽齢麻丨丨域膽齢麻丨丨雕MSD TI成旧· 异件对各种甲基化或未甲基化的DNA底物进行MspJI的体外活性评估,对于dcm甲基化质粒DNA pBR322,如图2A所示。MspJI显示了内切核酸酶活性(图2A,泳道1和2),其中该内切核酸酶活性为DNA甲基化依赖性的。相反,MspJI不作用于没有dcm修饰的pBR322 (图 2k,泳道5和6)。通过使用对m5C甲基化不敏感的限制酶BstNI (CC丨WGG),在双消化分析中,MspJI在pBR322 (dcm+)上的切割位点被示出位于dcm位点处或接近dcm位点(图2A, 泳道2、3和4)。双消化没有改变BstNI模式,这提示MspJI没有在非BstNI位点进行切割。除了上述试验的m5C修饰的DNA之外,MspJI也没有对M. Taql-(TCGmA)或 dam-(GmATC)甲基化的pBR322 (dcm_)DNA显示内切核酸酶活性。这证实了 MspJI不靶向 m6-腺嘌呤甲基化DNA,这与MspJI基因可在dam+菌株(ER2566,NEB, Ipswich, ΜΑ)中保存和表达的事实相一致。另外,MspJI没有明显地作用于包含N4-甲基胞嘧啶的质粒0嫩,如通过使用Μ. BstNI (CCWGG,N4-胞嘧啶甲基化酶)甲基化的DNA可测定。分析MspJI酶家族成员对包含5-羟甲基胞嘧啶或5-葡糖基羟甲基胞嘧啶的DNA 底物的活件具有葡糖基化胞嘧啶的野生型Τ4噬菌体DNA和来自"Γ4 α gt57 β gtl4的DNA (具有缺损葡糖基转移酶的突变体,并因此在DNA中包含羟甲基化胞嘧啶,在下文中称为T4gt) 被用作底物(图2C,泳道1和2)。MspJI能够降解T4gt DNA (图2C,泳道8_11)并且对葡糖基化DNA是无活性的(图2C,泳道7)。出于比较,示出使用这些修饰DNA底物的另一种修饰依赖性内切核酸酶McrBC (图2C,泳道3和4)和典型的IIP限制酶MspI (图2C,泳道5 和6)的活性。McrBC也对包含羟甲基胞嘧啶的DNA显示核酸酶活性,但对T4野生型DNA没有显示核酸酶活性,其中McrBC识别通过40-3000碱基对分开的(A/G) mC对,而对于这两种底物,MspI都是无活性的。注意到与McrBC相比,MspJI能够更大程度上地降解T4gt DNA, 这可通过与McrBC相比,MspJI具有更广的识别序列进行解释。总之,显示出MspI特异性地靶向在嘧啶环上具有5-CH3或5-CH20H加入的胞嘧啶修饰的DNA。测定切割位点周围的底物序列对具有不同甲基化位点的MspJI消化的DNA样本进行毛细管测序,并从测序层析图中甲基化位点附近处峰高度降低的位置推断切割位点(在图5中示出的实施例)。切割位置出现在序列信号(峰)的高度减少的位置。在很多情况下,随着聚合酶失控DNA,加入非模板腺嘌呤,这样的“失控峰(runoff peak)”腺嘌呤的位置对于切割位置来说是一个附加证据。测序层析图数据上的一个观察为切割位点发生在远离甲基化位点的位点处。图5 也显示了在不同甲基化位点上所推断的MspJI的切割模式。另一个观察为测序峰的高度降低和不存在于底物中的腺嘌呤的加入通常存在于甲基化位点的两侧上。层析图中两侧上的反应说明MspJI切割DNA甲基化结合序列的每一侧。这与甲基化结合位点的对称性相一致。 两个失控峰的存在是同一条链上的两个独立切割事件的证据。结论是MspJI识别一条链上的m5C,并随后剪切了同一条链上3’下游的12个核苷酸和互补链上下游的16个核苷酸,留下4碱基的5’突出端。相似地,当互补链上的m5C 被识别时,观察到相同的切割模式,这证明相同识别位点周围的两个双链断裂释放在中间位置上具有甲基化位点的片段。该片段的精确长度取决于两条链上甲基之间的距离。在 HpaII甲基化位点(Cm5CGG)或Hhal甲基化位点(Gm5CGC)的情况中,从DNA底物切除的片段长度预期为包括2个4碱基的5’突出端的32个核苷酸。比较Msd TI酶家族成员对全甲基化DNA和半甲基化DNA的活件为了研究MspJI对半甲基化DNA底物是否具有活性——其可在复制期间出现,FAM 标记的合成底物被用于消化分析中(图4A)。图4A显示了预期的切割位点和产物大小,图 4B示出在7M脲20%的聚丙烯酰胺变性凝胶上分离的消化反应。查询的m5C位于寡核苷酸中的M. Hpall位点(CmCGG)处。对上链或下链的无甲基化、全甲基化和半甲基化进行试验, 并通过分别标记上链或下链,对上链或下链上的切割事件进行观察,如图4B所示。对全甲基化DNA,MspJI在甲基化位点的两侧上进行剪切。对上链,MspJI切割甲基化位点的任意一侧,产生了 40bp的片段(从切口 Lt)和11或12bp的片段(从切口 Rt) (图4B,泳道3)。对称地,在下链上,MspJI两次切割,并产生36nt的长片段(从切口 Lb) 和7或Snt的短片段(从切口 Rb)(图4B,泳道4)。对半甲基化底物,链甲基化状态指示了切割侧,以便双链断裂只发生在包含甲基化碱基的链的3’侧。例如,对于只具有上链甲基化的底物,每次切割事件在5mC的3’侧,从而只观察到较短的片段(图4B,泳道5和6)。同样情况应用到具有下链甲基化的底物时, 只能看到较长的片段(图4B,泳道7和8)。结果显示,每个m5C都与同一侧上的两个切口相关联,并且这种关联是对称的。因此,尽管不希望受到理论的束缚,但是提出MspJI分别识别全甲基化位点中甲基化位点的每一半,无论在上链或下链,并且这一半位点随后规定切割的定向性。用共享呆守DNA序歹U、二乡及序歹Illt体以及结合禾叶刀害伸争丨牛表ffiMsD.TI 矣成通过使用MspJI酶家族成员例如MspJI的氨基酸序列作为查询序列,针对基因库的 PSI-BLAST 搜索(Altschul 等人,Nucleic Acids Res 25:3389-3402(1997))检索到多于100个具有显著序列同源性的命中点(hit)。在整个序列长度上,最高命中点的16个基因与MspJI相比具有显著的相似性。在图ID中,在MspJI亚家族内的保守催化模体周围提供部分多序列比对。保守催化模体的重要性通过位点定向诱变实验示出,其中D334A和 Q355A的突变都完全破坏了 MspJI的催化活性。使用由PR0MALS网络服务器产生的多序列比对(Pei等人,Nucleic Acids Res 35 :W649-652 (2007))测定预测的MspJI家族的二级结构元件(图IB示出示意图,图7_1到 7-7为全比对)。催化C-末端结构域的结构核心具有3个连续链(图IB中的β 1 β 2 β 3), 以及在β3末端的模体(Q/E)xK和在β2起点的保守残基D(图7-1到7_7) (Wah等人, Proc Natl Acad Sci U S A 95 10564-10569 (1998))。两条螺旋和顺序为 β 1 β 2 β 3 之后 α 4-β 4-α 5-β 5的链形成单体之间的相互作用界面。测定激活剂在提高新限定的酶家族成员的切割活件中的作用对包含双链5-甲基胞嘧啶的激活剂二聚体(例如,1 Imer、15_mer、19mer和 23mer)进行试验,以测定由MspJI酶家族成员产生的消化是否可得到提高。通过将两个单链寡核苷酸退火或通过单寡核苷酸的发夹形成来构造这些二聚体。对该激活剂的分析包括在不同长度的中心构造包含5-甲基_C’s的自互补寡核苷酸。为了随后从反应中去除在5’端对寡核苷酸生物素化和进行3’氨基修饰,以便该寡核苷酸不能被连接或延长。随后分析激活剂在测序中,在链亲和素珠去除干扰之前和之后,提高切割的能力。实施例2在标示甲基化组中酶应用的证明为了分析小鼠或人基因组的甲基化组分析,1-2 μ g人或小鼠基因组DNA被用于以单核苷酸分离进行甲基化组分析。该基因组在任选地包含生物素的激活剂分子存在的情况下,用MspJI家族成员进行消化,随后用链亲和素磁亲和珠去除激活剂分子。消化的DNA使用NEBNext (NEB,Ipswich)末端修复分子进行末端修复、乙醇沉淀并溶解在适当体积的水中。用NEBNext 快速连接分子(NEB,Ipswich,MA)将消化的基因组DNA与条形编码的SOLiD 引物和Pl引物连接。连接的产物在10%的TBE聚丙烯酰胺凝胶上进行分离,并且在通过溴化乙锭染色可视化后切除大约为IlObp (在100-130bp之间)的连接产物。压榨(crush) 和浸泡或合适的洗脱方法被用于分离DNA,以进行SOLiD测序(Applied Biosystems, Inc., Life Technologies, Inc.,Carlsbad,CA)。例如,MspJI不区分甲基化和羟甲基化胞嘧啶残基,进行切割,因此,测序数据将产生整个甲基化组的分析。哺乳动物中5-羟甲基胞嘧啶的生物学作用的测定在小鼠胚胎干细胞(ES)分化期间,DNA甲基化的动态变化可使用新限义的酶家族来鉴定。以前的报告提示多达10%的修饰胞嘧啶为5-羟甲基胞嘧啶的形式。用目前涉及亚硫酸氢盐的方法将忽视这些。该修饰的加合物与鸟嘌呤互补,并在基于聚合酶的扩增中被读作胞嘧啶。其他模式生物的甲基化组的探究MspJI酶家族不仅作用于mCpG,而且能够识别和切割其他类型的甲基化位点。例如,存在于拟南芥属基因组DNA中的mCNG是MspJI的天然底物。这提供了分析任何生物内修饰碱基存在性的简单方法。例如,用MspJI消化整个基因组DNA给出了 32bp的片段,该片段可容易地与聚丙烯酰胺凝胶分离。随后用酶的标准混合物将该片段消化成单核苷酸, 并且整个消化由HPLC和/或质谱分析进行检验,以鉴定修饰的碱基。通过本文描述的方法对多种生物以及已知包含某些罕见修饰的基因组进行了研究,其中多种生物例如拟南芥属 (Arabidopsis)、爪蟾属(Xenopus)、斑马鱼、鸡、粗糙链孢菌(Neurospora crass),某些罕见的修饰为例如在动基体原生动物(kinetoplastid protozoan)例如锥虫(Trypanosomes) 中发现的碱基J(Cross et a 1. EMBO J. 18:6573-6581(1999))。一旦证实了外因基因组,用已建立的人的方案,可对消化的条带进行高通量测序。表1 :MspJI亚家族的基因组背景分析
权利要求
1.由大DNA的酶切割可获得的双链寡核苷酸片段组,所述大DNA包含一种或多种修饰核苷酸,所述组包括片段,其中至少50%大小相似,并具有中心定位的修饰核苷酸。
2.根据权利要求1所述的组,其中所述片段中的一个或多个从所述组分离。
3.根据权利要求1或2所述的寡核苷酸片段组,其中所述大DNA为至少100个核苷酸长度。
4.根据权利要求1-3中任一项所述的寡核苷酸片段组,其中所述大DNA为哺乳动物基因组DNA。
5.根据权利要求1-4中任一项所述的寡核苷酸片段组,其中所述大DNA为人基因组DNA。
6.根据权利要求1-5中任一项所述的寡核苷酸片段组,其中所述中心定位的修饰核苷酸为胞嘧啶。
7.根据权利要求1-6中任一项所述的寡核苷酸片段组,其中所述中心定位的修饰胞嘧啶接近鸟嘌呤。
8.根据权利要求1-7中任一项所述的寡核苷酸片段组,其中所述修饰胞嘧啶为甲基化或羟甲基化胞嘧啶。
9.根据权利要求1-8中任一项所述的寡核苷酸片段组,其中所述片段的大小为小于60 个核苷酸。
10.根据权利要求1-9中任一项所述的寡核苷酸片段组,其中所述片段具有在观-36个核苷酸范围内的相似大小。
11.根据权利要求1-10中任一项所述的寡核苷酸片段组,其中至少一种所述修饰核苷酸位于距所述片段一端的30个核苷酸内。
12.—种酶制剂,其包括至少一种酶,所述酶识别DNA中修饰核苷酸,并在远离所述修饰核苷酸的位点切割所述DNA,由此产生如权利要求1所述的片段组,所述至少一种酶进一步以N-末端保守结构域为特征,所述N-末端保守结构域与WXD (X) 10YXGD具有大于90 %的氨基酸序列同源性。
13.根据权利要求12所述的酶制剂,其中所述至少一种酶在与所述修饰核苷酸相距非随机距离处切割所述DNA。
14.根据权利要求12或13所述的酶制剂,其中所述至少一种酶具有N-末端保守结构域,所述N-末端保守结构域与WXD(X)6G(X)3YXGD(X) 10_15GN (X) 2LX10_20PX3F具有大于90%的序列同源性。
15.根据权利要求12-14中任一项所述的酶制剂,其中所述至少一种酶包括由单一可读框编码的识别结构域和切割结构域。
16.根据权利要求12-15中任一项所述的酶制剂,其中所述至少一种酶具有C-末端保守结构域,所述C-末端保守结构域与FEX2(1_3(1DX2_4DX19_22 (Q/E) XK具有大于90 %的氨基酸序列同源性。
17.根据权利要求12-16中任一项所述的酶制剂,其中所述至少一种酶具有如此氨基酸序列,所述氨基酸序列与选自SEQ ID NOS :7-22的蛋白质序列具有大于90%的序列同源性。
18.根据权利要求12-17中任一项所述的酶制剂,其与亲和标签相融合。
19.根据权利要求12-18中任一项所述的酶制剂,其中所述亲和标签选自壳多糖结合结构域、麦芽糖结合结构域以及组氨酸标签。
20.根据权利要求12-19中任一项所述的酶制剂,其进一步包括激活DNA。
21.根据权利要求12-20中任一项所述的酶制剂,其中所述至少一种酶的所述N-末端结构域能够被抗体识别。
22.—种如权利要求21所定义的抗体。
23.一种酶制剂,其包括一种或多种酶,所述酶识别DNA中修饰核苷酸,并在与修饰核苷酸相距非随机距离的位点处切割所述DNA,所述一种或多种酶进一步以N-末端保守结构域为特征,所述N-末端保守结构域与WXD (X) 10YXGD具有大于90%的氨基酸序列相似性。
24.一种获得如权利要求1所述的寡核苷酸片段组的方法,其包括a.酶切割包含一种或多种修饰核苷酸的大DNA;以及b.获得所述寡核苷酸片段组。
25.根据权利要求M所述的方法,进一步包括将所述寡核苷酸片段组与未切割的DNA 分离。
26.根据权利要求对或25所述的方法,进一步包括从分离的片段组测序所述片段组中至少一个片段,以确定包含在所述至少一个片段内的一种或多种修饰核苷酸的位置。
27.根据权利要求M-26中任一项所述的方法,进一步包括分析一些靶寡核苷酸片段以找出所述大DNA中一种或多种修饰核苷酸的存在和位置。
28.根据权利要求M-27中任一项所述的方法,进一步包括测序所述寡核苷酸片段组中基本上所有片段,并在基因组图谱上标示所述序列,以确定修饰核苷酸的位置。
29.一种鉴定根据权利要求12所述的酶制剂中的一种或多种酶的方法,包括a.利用选自SEQID No 7-22以及其变体的序列搜索序列数据库;以及b.鉴定附加序列,所述附加序列具有以共有序列WXD⑴6G⑴3YXGD⑴1(1_15GN⑴2LX1(1_2(1 PX3F*特征的N-末端区域。
30.根据权利要求四所述的方法,其中鉴定的附加序列具有C-末端,所述C-末端包括具有共有序列FE)C2Q_3C1D)(2_4D)(19_22 (Q/E)XK的催化结构域。
31.一种用于从混合物分离包含一种或多种修饰核苷酸的DNA片段的方法,包括a.向所述混合物中加入根据权利要求12所述的酶制剂,其中至少一种酶已经经过突变而失去酶切割活性,其中突变酶被固定在固相表面上;以及b.从所述混合物中分离与固定化酶结合的所述DNA片段。
32.一种测定大DNA中至少一种修饰核苷酸的位置的方法,包括a.用根据权利要求12所述的酶制剂切割大DNA;b.获得寡核苷酸切割片段组,每个片段包含至少一种修饰核苷酸;以及c.通过测序所述寡核苷酸切割产物组中一种或多种寡核苷酸,来测定所述大DNA的序列图谱中的所述至少一种修饰核苷酸的位置。
33.一种根据修饰核苷酸模式来鉴定细胞制品或组织样本中现存或未来的表型属性的方法,所述方法包括a.用权利要求12中所述的酶制剂,将来自细胞制品或组织的大DNA切割成片段;以及b.将所述片段中修饰核苷酸的位置与对照DNA中修饰核苷酸的模式相比较,以确定现存或未来的表型属性。
34.根据权利要求33所述的方法,其中(a)进一步包括通过以下步骤,从将具有一种或多种修饰核苷酸的片段与缺少修饰核苷酸的片段分离(i)将具有与包含所述一种或多种修饰核苷酸的片段相结合的分子的所述切割片段与亲和结合蛋白的固定化制剂接触;或 ( )根据大小进行分离。
35.根据权利要求33或34所述的方法,其中所述亲和结合蛋白衍生自于根据权利要求 12所述的酶制剂,其中所述至少一种酶的酶切割活性已被失活。
36.根据权利要求33-35中任一项所述的方法,其中(a)进一步包括在甲基化组或基因组上鉴定固定化切割片段中所述一种或多种修饰核苷酸的位置。
37.一种用于获得包含一种或多种修饰核苷酸的片段的纯化制剂的方法,包括a.将其中一个或多个所述片段包含至少一种修饰核苷酸的DNA片段的混合物与亲和结合分子的固定化制剂接触;b.将包含至少一种修饰核苷酸的所述一个或多个片段与所述亲和结合分子结合;以及c.获得包含一种或多种修饰核苷酸的片段的纯化制剂。
38.根据权利要求37所述的方法,其中所述亲和结合分子为根据权利要求12所述的酶制剂,其中至少一种酶的酶切割活性已被失活。
39.根据权利要求37或38所述的方法,其中在所述酶制剂中的所述至少一种酶与结合部分相关联。
40.一种试剂盒,包括容器中的根据权利要求12所述的酶制剂,和使用说明书。
41.根据权利要求40所述的试剂盒,其进一步包括激活剂分子。
全文摘要
提供涉及切割修饰的DNA的组合物、方法和相关用途。例如,描述了通过大DNA的酶切割可获得的DNA片段组,其中至少50%大小相似,并具有中心定位的修饰核苷酸。另外,提供了一种酶制剂,该酶制剂包括一种或多种酶,该酶识别DNA中的修饰核苷酸,并在与该修饰核苷酸相距非随机距离的位点切割该DNA。所述一种或多种酶进一步以N-末端保守结构域为特征,该N-末端保守结构域与WXD(X)10YXGD具有大于90%的氨基酸序列同源性。相关用途包括创建甲基化组,纯化包含修饰核苷酸的DNA片段的方法以及诊断应用。
文档编号C07K14/00GK102264900SQ200980152333
公开日2011年11月30日 申请日期2009年12月22日 优先权日2008年12月23日
发明者R·J·罗伯茨, 郑钰 申请人:新英格兰生物实验室公司