全基因组且靶向的单体型重构的利记博彩app
【专利摘要】本发明涉及用于单体型确定的方法,且具体的是在全基因组水平的单体型确定以及靶向单体型确定。
【专利说明】全基因组且卽向的单体型重构
[0001] 对相关申请的交叉引用
[0002] 本申请要求2013年7月19日提交的美国临时申请号61/856,486和2013年9月4日提 交的美国临时申请号61/873,671的优先权。所述申请的内容通过提述W其整体并入本文。 发明领域
[0003] 本发明设及用于单体型确定,且特别是在全基因组水平的单体型确定,W及祀向 单体型确定的方法。
[0004] 发明背景
[0005] DNA鸟枪法测序技术的快速进步使得能够系统性鉴定个体的遗传变体(Wheeler 等,化 1:ure 452,872-876(2008);化shkarev等,Nature Biotechnology27,847-850(2009); Kitzman等,Science Translational Medicine 4,137ral76(2012);和Levy等,Plos Biology 5,e254(2007))。然而,由于人类基因组由同源的两组染色体组成,了解个体真正 的遗传组成要求描绘遗传材料的母本和父本拷贝,或单体型化aplotype)。在个体中获得单 体型的效用可W有几重:首先,单体型在临床上对于器官移植中供体-受体匹配结果的预测 有用(Crawford等,Annual Review Of Medicine 56,303-320(2005)和化tersdorf等,PLoS Medicine 4, e8(2007))并越来越多地用作检测疾病相关性的方法(Studies等,Nature 447,655-660(2007);Cirulli等,Nature Reviews.Geneticsll,415-425(2010);和Ng等, Nature Genetics 42,30-35(2010))。第二,在表现出复合杂合性(compound heterozygosity)的基因中,单体型提供了关于两种有害变体是否定位于相同的或不同的 等位基因上的信息,运极大地影响了运些变体的遗传是否有害的预测(Musone等,化ture Genetics 40,1062-1064(2008);和 Elrythematosus 等,Nature Genetics 40,204-210 (2008);和Zschocke'Journal of Inherited Metabolic Disease 31,599-618(2008))。在 复杂的基因组(例如人)中,复合杂合性可能设及在非编码顺式调节位点处的遗传或表观遗 传变异,所述非编码顺式调节位点定位于远离它们调节的基因(Sanyal等,Nature 489, 109-113(2012)),运强调了获得染色体跨度(chromosome-span)的单体型的重要性。第S, 来自个体组的单体型提供了关于群体结构的信息(International化pMap,C.等,化ture 449,851-861(2007);Genomes Project,C.等,Nature 467,1061-1073(2010);和Genomes Project,C.等,Nature 491,56-65(2012)),W及人种的进化史(Meyer等,Science 338, 222-226 ( 20 12 ))。最后,最近描述的基因表达中普遍的等位基因失衡(allelic imbalances )提示等位基因之间的遗传或表观遗传差异可能促成表达的定量差异 (Gime化rant等,Science 318,1136-1140(2007) ;Kong等,化Uire 462,868-874(2009) ;Xie 等,Cell 148,816-831 (2012);和McDaniell等,Science 328,235-239(2010))。因此,对单 体型结构的理解对于描绘促成运些等位基因失衡的变体机制将是关键的。总的来说,个体 中完全单体型结构的知识对于推进个体化医疗至关重要。
[0006] 认识到单体型的重要性,几个小组已经寻求扩展在群体和个体水平两者上对单体 型结构的理解。诸如International化pmap工程和1000基因组工程等倡导已经尝试着通过 连锁不平衡测量(linkage disequiUbrium measures)基于无关个体群体测序数据或通过 家庭S人组(family hios)的基因型分析(genotyping)系统性重构(reconstruct)单体 型。然而,使用该方法产生的准确定相(phased)的单体型的平均长度被限制为约300kb(化n 等,Nature Biotechnology 29,51-57(2011)和Browning等,American Journal of Human Genetics 81,1084-1097(2007))。也开发了许多实验方法来促进对个体的单体型定相,包 括LFR测序,配偶配对(mate-pair)测序,fosmid测序,W及基于稀释的测序化evy等,PLoS Biology 5,e254( 2007) ;Bansal等,Bioinformatics24,1153-159(2008) ;Kitzman等, Na1:ure Biotechnology 29,59-63(2011);S址等,Genome Research 21,1672-1685(2011); Duitama等,Nucleic Acids Resea;rch40,2041-2053(2012);和Kaper等,Proc 化tl Acad Sci USA 110,5552-5557(2013))。运些方法最多可W重构范围在几千碱基到约百万碱基的 单体型,但没有一个能够达到染色体跨度的单体型。使用基于巧光辅助细胞分选(FACS)的 测序,染色体分离及随后的测序,W及基于染色体微切割(micro-dissection)的测序完成 了全染色体单体型定相(Fan等,Nature Biotechnology 29,51-57(2011) ;Yang等, Proceedings of the National Academy of Sciences of the United States of America 108,12-17(2011);和Ma等,化ture Methods 7,299-301(2010))。然而,运些方法 是低分辨率的,因为它们只能对个体中一部分的杂合变体进行定相,更重要的是,它们的执 行在技术上具有挑战性,或要求专业的仪器。最近,使用来自精子细胞的基因型分析,已经 进行了全基因组单体型分析化irkness等,Genome Research 23,826-832(2013))。虽然该 方法可高分辨率产生基因组跨度的单体型,但它不适用于普通人群,并需要复杂的减 数分裂重组模式的解卷积(deconvolution)。
[0007] 与全基因组单体型分析一起,祀向单体型分析(targeted haplotyping)也是重要 的。特别地,对化A(人白细胞抗原)基因座的祀向单体型分析可W帮助用于器官移植的受 体-供体匹配W及阐明顺式调节元件在基因活性中的作用。
[0008] 计算分析已经表明,来自先前建立的DNA鸟枪法测序方法的单体型重构中的重要 因素是经测序的基因组片段的长度(Tewhey等,Nature Reviews .Genetics 12,215-223 (2011))。例如,与常规的基因组测序相比(片段或插入物大小约500bp),通过配偶对测序 (mate pair sequencing)可W获得较长的单体型(片段或插入物大小约化b)。然而,对于运 些片段可W多长存在技术限制。例如,克隆比使用fosmid克隆获得的DNA片段更长的DNA片 段是困难的。因此,使用现有的鸟枪测序方法,难W产生超过1百万个碱基的单体型区块 (block),即使是在超涂度测序覆盖。
[0009] 因此,对于在全基因组水平重构单体型的方法,W及祀向单体型分析的方法存在 需要。
[001日]发明概述
[0011] 本发明通过提供在全基因组水平重构单体型的方法W及在基因组的祀向区域重 构单体型的方法,解决了上述未满足的需求。
[0012] 因而,本发明的特征在于用于对生物体全染色体单体型分析的方法。所述方法包 括提供所述生物体的细胞,其含有具有基因组DNA的染色体组(a set of C虹omosomes);将 所述细胞或其核与固定试剂(fixation agent)解育一段时间并使用限制酶限制固定的 DNA,从而允许基因组DNA的原位临近连接(proximity-ligation of the genomic DNA in situ),从而形成连接的基因组DNA;使所述连接的基因组DNA片段化(fragmenting) W形成 具有第一基因组DNA片段和第二基因组DNA片段的临近连接的复合物;获得多个临近连接的 DNA片段W形成文库;对所述多个临近连接的DNA片段测序W获得多个序列读出,并组装所 述多个序列读出W构建一个或多个染色体的染色体跨度的单体型。
[0013] 本发明还提供用于对生物体的祀向单体型分析的方法。所述方法包括提供所述生 物体的细胞,其含有具有基因组DNA的染色体组;将所述细胞或其核与固定试剂解育一段时 间并使用限制酶限制固定的DNA,W允许基因组DNA的原位临近连接从而形成连接的基因组 DNA;使所述连接的基因组DNA片段化W形成具有第一基因组DNA片段和第二基因组DNA片段 的临近连接的复合物;使所述邻接连接的DNA片段与一个或多个寡核巧酸接触,所述寡核巧 酸与所述临近连接的片段的子集的预选择区域杂交,W提供与所述寡核巧酸杂交的临近连 接的片段的子集,将所述临近连接的片段的子集与所述寡核巧酸分离;对所述临近连接的 DNA片段的子集测序W获得多个序列读出,并组装所述多个序列读出W构建祀向单体型。在 一个实施方案中,所述寡核巧酸是固定化的。
[0014] 在某些实施方案中,所述方法进一步包括在解育步骤之前从所述细胞分离细胞 核。分离细胞核的方法是本领域已知的。例如,用于从植物细胞分离核的方法由Lee等, (2007)The Plant Cell 19:731-749公开。
[0015] 在一些实施方案中,所述方法进一步包括在片段化步骤之前纯化连接的基因组 DNA。在其它实施方案中,所述方法进一步包括,在片段化步骤之后,使用标志物标记所述第 一基因组DNA片段或所述第二基因组DNA片段;将所述第一基因组DNA片段和所述第二基因 组DNA片段连接,使得所述标志物位于其间W形成标记的嵌合DNA分子;W及剪切标记的嵌 合DNA分子W形成标记的、临近连接的DNA片段。
[0016] 在上述方法中,可W通过本领域已知的多种方法进行所述片段化步骤。例如,其可 W通过酶促剪切进行,包括由限制酶,DNA酶,或转座酶介导的。在一个实施方案中,通过使 用限制酶消化连接的基因组DNAW形成消化的基因组DNA片段来进行该步骤。可W使用任意 适合的限制酶(例如,BamHI,EcoRI,HindIII,NcoI,或XhoI)或两种或更多运些限制酶的组 合。所述固定试剂可W包含甲醒,戊二醒,或福尔马林。可W通过使用标记有标志物(例如生 物素)的核巧酸填充所述第一或第二基因组DNA片段的末端来进行所述标记步骤。在该情况 下,可W使用链霉亲合素进行所述获得步骤,所述链霉亲合素可W粘附到珠。对于连接步 骤,它可W通过使用连接酶连接所述第一基因组DNA片段和第二基因组DNA片段来进行。所 述连接步骤可W在溶液中或固体基质上进行。在固体基质上连接在本文中称为"栓系染色 体捕获(tethered chromosomal capture)"。对于测序,它可W使用配对末端测序(pair- end sequencing)进行。
[0017] 在本发明的一个实施方案中,每个配对末端测序读出片段长度的长度可W是至少 20bp,例如长度为 20-1000bp 或优选20-150bp (例如,长度为 20,25,30,40,50,60,60,80,90, 100,110,120,130,140,或15化P)。对于每个染色体的单体型分析,文库含有至少15x序列覆 盖,例如25-20X序列覆盖。优选的是,所述第一基因组DNA片段和第二基因组DNA片段在同一 条染色体上或为顺式。优选的是,所述第一基因组DNA片段和第二基因组DNA片段在原位相 距至少lOObp,例如 100-100MB(例如,lOObp,化b,lOkb,1Mb,10Mb,20Mb,30Mb,40Mb,50Mb, 60Mb,70Mb,80Mb,90Mb,或 100Mb)。
[0018] 所述方法可w用于多种生物体,包括原核生物和真核生物。所述生物体包括真菌, 植物和动物。在一个优选的实施方案中,所述生物体是植物。在另一个优选的实施方案中, 所述生物体是哺乳动物或哺乳动物胚胎,或人或人胚胎。在一个实施方案中,所述人是器官 的供体或受体。在运种情况下,所述器官在移植到具有匹配单体型的受体之前,可W使用本 发明的方法进行单体型分析。本发明的方法可W用于二倍体细胞,非整倍体细胞,或多倍体 细胞,例如,某些癌性细胞。
[0019] 本发明的一个或多个实施方案的详细说明列于W下说明书中。本发明的其它特 征,目的W及优势将从说明书和权利要求变得显而易见。
[0020] 附图简述
[0021] 图la-c是一组示出化ploSeq与其它用于重构生物体的单体型的方法比较的图: (a)图概述了几种用于对单体型定相的方法;(b)来自常规全基因组测序(WGS),配偶对和 化-C的插入物大小的频率分布;(C)图显示了临近连接读出在构建染色体跨度的单体型中 的作用。
[0022] 图2a-c是一组示出临近连接产物主要是单体型内(intra-haplotype)的图;(a)全 基因组相互作用频率热图;(b)任意两个片段之间相互作用频率(logio比例)作为线性距离 的函数;(C)比较h-反式相互作用化-trans interaction)概率作为插入物大小的函数。
[0023] 图3a-d是一组示出化ploSeq允许精确的、高分辨率、W及染色体跨度的单体型重 构的图:(a)起源于129个等位基因的化-C读出(上和下棒)的图,所述129个等位基因跨越第 18号染色体的约30Mb,并用于将变体连接到单个染色体跨度单体型中;(b)CASTxJ129系统 中基于化-C的单体型定相的结果的表格;(C)通过模拟产生完全单体型的单体型定相方法 的比较;(d)对单体型定相的经调整跨度(ad jus ted span,AS)的分析。
[0024] 图4a-d是一组示出了使用化ploSeq在人GM12878细胞中单体型重构的图:(a)图证 明了小鼠(CASTX129)和人(GM12878)之间在Hoxdl3/H0XD13基因上变体频率的差异;(b)表 格描述了在CASTXJ129系统中在低变体密度的情境下使用化ploSeq分析的单体型重构的完 全性("MVP区块中跨越的染色体%"),分辨率("MVP区块中定相的变体%" ),W及精确度 r'MVP区块中定相的变体的精确度%" ); (c)GM12878细胞中基于化ploSeq的单体型重构的 结果的表格;(d化i-C产生的种子单体型(seed haplotype)跨越中着丝粒染色体的着丝粒。 [00巧]图5a-d是一组示出了HaploSeq分析与局部条件定相(local conditional phasing)结合允许在人中高分辨率单体型重构的图:(a)图描述了进行局部条件性定相的 能力;(b)表格证明了GM12878细胞中局部条件性定相后使用化ploSeq的单体型定相的分辨 率W及整体精确度;(C)图证明了在不同读出长度和覆盖的参数下,完成染色体跨度的种子 单体型(seed haplotypeKMVP区块)的能力;(d)点示出了读出长度和覆盖的不同组合产生 高分辨率种子单体型的能力。
[0026] 图6的图示出了每条CASTXJ129染色体的h-反式相互作用的概率,其绘制为插入物 大小的函数。
[0027] 图7a-d是一组示出了单体型定相中完整性,精确度,W及分辨率的图形解释的图, (a)核巧酸碱基代表杂合SNP,而代表没有变异性(variability) ;(b)MVP区块的单体型 定相表明分辨率;(C)先验已知的真实单体型和此知识帮助测量预测的从头单体型(de- novo haplotypes)的精确度,并且不精确的变体定相示于灰色方框位置;(d)不同的度量。
[00%]图8a-b是一组示出了限制的化pCUT模型的图,所述模型仅允许到特定最大插入物 大小(maxis)为止的片段,其中在较高的maxis, MVP区段的分辨率(a)较高但含有较高的精 确度化)。
[0029] 图9是示出了捕获-HiC实验方案的图表。
[0030] 图lOa-b示出了捕获-HiC探针设计:(a)人类HLA基因座化gl9)的UCSC基因组浏览 器(Genome化owser)拍摄(shot)和(b)HLA-DQBl基因放大的UCSC基因组浏览器拍摄,W证 明探针祀向方法。
[0031] 发明详述
[0032] 高通量DNA测序技术的快速进步加速了个体化医疗研究的步伐。虽然用于全基因 组测序(WGS)数据组的变体发现和基因型分析的方法已经很好地建立了,但将染色体上的 变体连接成单个的单体型仍然是一项挑战。
[0033] 全基因组单体型分析和重构
[0034] 本发明提供用于单体型分析的新方法,其包括临近连接和DNA测序技术及用于单 体型组装化aplotype assembly)的概率算法(Dekker等,Science 295,1306-1311 (2002); Lieberman-Aiden等,Science 326,289-293(2009) ;Ka化or等,Na1:ure Biotechnology 30, 90-98(2012);和Bansal等,Bioinformatics 24,1153-159(2008))。称为'haploSeq"(表示 。使用临近连接和测序的单体型分析(些plotyping using Proximity-ygati啤and ^uencing)")的方法通过利用临近连接和DNA鸟枪法测序重完全单体型或祀向i体型。 如本文所公开的,已经在先验已知完全单体型的杂种小鼠胚胎干细胞系和人类类淋己母细 胞细胞系中实验证实了化ploSeq。本文证明了使用化ploSeq,可W在小鼠中完成染色体跨 度的单体型的重构,W约99.5%的精确度连接超过95%的等位基因。在人细胞系中,使用仅 17x覆盖的基因组测序,将化ploSeq与局部条件性定相结合,从而在约81 %分辨率上W约 98%精确度获得染色体跨度的单体型。运些结果建立了临近连接和测序用于人群中单体型 分析的效用。
[0035] 本发明的化ploSeq方法的一个实施方案示于图1中。简单的说,图la描述了 化ploSeq和其它用于重构个体单体型的方法的比较。该图概述了几种用于定相单体型的方 法。与W前的方法不同,临近-连接联系空间上靠近的远端DNA片段。接着将运些片段从细胞 分离并测序。
[0036] 图化示出了来自常规WGS,配偶对(Gne;rre,S.等,Proceedings of the 化tional Academy of Sciences of the United Sl:ates of America 108,1513-1518(2011))和Hi- C的插入物大小的频率分布。X轴为碱基对(logio比例)。图代表1-22号染色体间从对GM12878 细胞先前的发表取得的数据点的随机子集。在fosmid的情况下化idd等,化化re 453,56-64 (2008)),示出了比对后推断的克隆的大小分布。Hi-C插入物大小得自发明人的实验室所生 成的文库。插入物和克隆的大小与重构较长单体型的能力相关。在运些方法中,仅基于临 近-连接的化-C产生了丰富的长片段。
[0037] 图Ic显示了临近-连接读出在建立染色体跨度单体型中的作用。顶部和底部的序 列代表两个同源染色体的区域,其中代表无变异性而核巧酸代表杂合SNP。杂合SNP和插 入缺失(indel)可W用于区分所述同源染色体。可W从短的插入物测序读出(i)建立局部单 体型区块("区块1"和"区块2"),运与常规的WGS或配偶对测序中的发生相似。考虑到变体之 间的距离,运些小的单体型区块相对于彼此仍然是未定相的。可w使就线性序列而言远离 定位的区域原位紧密接近(ii)。运些联系将通过临近-连接保存。大的插入物大小的临近- 连接测序读出帮助将较小的单体型区块合并为单个染色体跨度的单体型(iii)。
[003引 Hi-C技术是本领域已知的,且相关的方案可W在US20130096009和Lieberman- Aiden等,Science 326,289-293(2009)中找到,其内容通过提述并入本文。在一个实施方案 中,所述化-C方法包括纯化连接产物,接着进行大规模平行测序。在一个实施方案中,Hi-C 方法允许对跨越整个基因组的染色质相互作用的无偏爱(unbiased)鉴定。在一个实施方案 中,所述方法可W包括W下步骤,其包括但不限于使用甲醒交联细胞;使用限制酶消化DNA, 留下5'-突出端(5'-0乂6^1曰11旨);填充所述5'-突出端,其包括生物素化的残基;^及在有利 于交联的DNA片段之间的连接事件的稀释条件下连接平端片段。在一个实施方案中,所述方 法可W产生含有连接产物的DNA样品,所述连接产物由核中最初紧密空间靠近的片段组成, 在接合处使用生物素残基标记。在一个实施方案中,所述方法进一步包括创建文库(即例 如,Hi-C文库)。在一个实施方案中,通过剪切DNA和使用链霉亲合素珠子选择含有生物素的 片段来创建所述文库。在一个实施方案中,接着,使用大规模平行DNA测序分析所述文库,产 生相互作用片段的目录(catalog)。见图la。
[0039] 如本文所公开W及图2所示,通过本发明的方法获得的临近-连接产物主要是单体 型内(intra-haplotype)。为了该目的,图2a示出了全基因组相互作用频率的热图。基于亲 本菌株已知的单体型结构,区分起源于CAST("c")或J129("j")基因组的化-C读出。使用 10Mb二进制大小(bin size)计算每条染色体的每个等位基因之间的相互作用频率。每条染 色体的CAST或J129等位基因主要W顺式相互作用,确认了个体等位基因发生在化-C数据中 看到的染色体领域(C虹omosome territories)。插图示出了 12到16号染色体的CAST和J129 等位基因的放大视图。此外,图化示出了任意两个片段间相互作用频率(logio比例)作为线 性距离的函数。根据先前的单体型信息,读出对(read-pair)区分为顺式(顶部)和h-反式 (底部)相互作用。顺式的相互作用频率可W比h-反式更常见几个数量级。值得注意的是,在 大的基因组距离上OlOOMbp),顺式的相互作用频率接近h-反式的相互作用频率,且观察 到<2%的总体h-反式相互作用。使用来自CASTXJ129系统中1-19号染色体的数据生成了 图。最后,图2c示出了作为插入物大小的函数的h-反式相互作用概率的比较。使用来自 CASTXJ129系统中的1-19号染色体的数据生成了图。W2%平滑(smoothing)进行L0WESS拟 合。在30MbW下,读出是h-反式相互作用的概率《5% (虚线)。因此,运一截留值用作最大插 入物大小用于进一步分析。
[0040] 本发明的化ploSeq方法允许精确的,高分辨率,W及染色体跨度的单体型重构。图 3a示出了自129个等位基因产生的化-C读出的图,所述129个等位基因跨越18号染色体的总 共约30Mb,并用于将变体连接为单个的染色体跨度的单体型。W黑色文本示出了化-C读出 的序列,其中变体位置W红色和下划线示出。参考基因组的序列为灰色。在变体位置W及基 于化-C数据预测的单体型处,使用了每种基因型先验的CAST和J129单体型。在运四个碱基 处,在鉴定已知的单体型结构方面化-C生成了完美的匹配。接着化pCUT可W使用运些杂合 变体作为节点和运些重叠读出作为边缘W形成图形结构。
[0041] 图3b中的表格示出了 CASTXJ129系统中基于化-C的单体型定相的结果。"染色体的 可定相跨度"栏列出了可定相碱基的数量(第一个和最后一个杂合变体之间的碱基对差)。 "MVP区块中跨越的变体"栏中列出了每条染色体通过MVP区块跨越的杂合变体的总数,其为 完全性的替代测量,并用作估算分辨率的分母。"MVP模块中跨越的染色体%"栏中列出了由 预测的单体型跨越的可定相碱基的百分比。"MVP区块中定相的变体%"栏中列出了MVP区块 中跨越的变体间定相的所有杂合变体的百分比。在最后一栏中列出的是每个定相的杂合变 体的精确度。对于每一条染色体,发明人生成了完全的(跨越>99.9%的碱基),高分辨率的 (定相的> 95 %杂合变体),W及精确的(正确定相> 99.5 %的杂合变体)单体型。
[0042] 图3c进一步示出了通过模拟产生完全单体型的单体型定相方法的比较。发明人W 20x覆盖模拟了常规鸟枪法测序(平均数= 400, sd= 100),配偶对(平均数= 4500, sd = 200) 和fosmicK平均数=35000,sd = 2500)的75个碱基对配对末端测序数据(19号染色体)。尽管 第一个读出随机置于基因组中,但是基于上述的正态分布参数选择第二个读出。发明人二 次采样(sub-sampled) 了CASTXJ129数据W生成20x Hi-C片段,其用于HaploSeq分析。Y轴代 表MVP区块的跨度作为19号染色体可定相跨度的函数。化ploSeq中MVP区块跨越了整个染色 体,而其它方法中MVP区块仅跨越了染色体的一部分。发明人还将每种方法的20x测序覆盖 与20x常规WGS数据组合,总共为40x覆盖W在较高的覆盖上比较方法。
[0043] 图3d示出了对单体型定相的调整跨度(AS)的分析。所述AS定义为该区块中定相的 杂合变体的跨度和分数的乘积。通过每个模块中定相的杂合变体的数量对单体型区块排序 (X轴为排序的)并将整个染色体中累积的AS表示于y轴上。在化ploSeq的情况中,单独MVP区 块跨越了 100%的染色体并含有90%的定相变体。在其它方法中,百分比定相随着发明人纳 入非MVP模块而累积地增加。虚线表示通过如上文所讨论与WGS数据组合增加的40X覆盖。
[0044] 本发明的化ploSeq方法还允许进行人类细胞(例如GM12878细胞)中的单体型重 构。为此,图4a证明了小鼠(CASTx 129)和人(GM12878)之间在Hoxd 13/H0XD13基因中变体频 率的差异。还示出了运些基因座中化-C读出覆盖(logio比例)DHi-C读出在高SNP密度(小鼠) 的情况下更可能含有变体(显示为"覆盖SNP的读出")。运继而允许运些变体更容易连接到 MVP区块。在低变体密度的情况下(人类),情况不是运样,因此存在"缺口 ",其中变体相对于 MVP区块仍然未定相。
[0045] 此外,图4b中的表格示出了在CASTxJ 129系统中在低变体密度的情况下使用 化ploSeq分析的单体型重构的完全性("MVP模块中跨越的染色体%"),分辨率("MVP区块中 定相的变体%" ),W及精确度r'MVP区块中定相的变体的精确度%")。在CASTX129基因组中 对变体二次取样,W具有每1500个碱基的1个杂合变体,并如上文所述进行定相。发明人继 续产生了完全(> 99 %染色体跨度)和精确(> 99 %精确度)的单体型。然而,在低变体密度 的情况下,定相的变体的分辨率有减少(约32% )。数字四舍五入到=位小数。
[0046] 另外,图4c中的表格总结了 GM12878细胞中基于化ploSeq的单体型重构的结果。所 述结果示出了完全性("MVP模块中跨越的染色体%")和分辨率("MVP区块中定相的变 体%")。发明人能够生成染色体跨度的单体型(>99%),尽管分辨率较低(约22%)。在 GM12878细胞中,在与CASTXJ129系统中的约30x比较时,发明人产生了约17x覆盖。因此,发 明人观察到了在与低密度CASTxJ129(32%)相比时更低的分辨率(22%)。数字四舍五入到 =位小数。
[0047] 如图4d所示,本发明的方法允许产生种子单体型,其跨越中着丝粒染色体的着丝 粒。示出了 2号染色体着丝粒任一侧的两个区域。运两个化-C产生的种子单体型任意命名为 "A"和"B"。从S人组测序(trio sequencing)获悉的GM12878个体的实际单体型示于下方, 任意命名为"A"和"B"。化-C产生的种子单体型在着丝粒的两端都匹配实际单体型。值得注 意的是,实际单体型中的一些变体仍然是未定相的,因此促成了种子单体型中的"缺口"。另 夕h实际单体型不含所有的变体,因为=人组测序W低深度进行,因此种子单体型含有不在 实际单体型中的一些定相变体(例如,见AAK1区域中的第=个变体)。
[0048] 化ploSeq分析可W与其它技术共同使用,例如局部条件定相W允许人类中的高分 辨率单体型重构。图5a)示出了进行局部条件性定相的能力。X轴是通过模拟产生的染色体 跨度的种子单体型分辨率。顶部图组示出了使用未校正的(上方)和邻域校正的定相(下方, 窗口大小=3)两者的局部条件性定相的误差率。由于邻域校正,一些变体不能局部地推断。 底部图组示出了由于邻域校正(nei曲borhood)仍然未定相的变体百分比,其作为分辨率的 函数。所有的模拟在GM12878的1号染色体中完成。
[0049] 图化中的表格证明了GM12878细胞中,在局部条件性定相后使用化ploSeq的单体 型定相的分辨率W及总体精确度。使用局部条件性定相,平均而言本发明人将分辨率从约 22%增加到了约81%。该表格也描述了由于邻域校正(NC)所致的分辨率丢失,其平均仅约 3%。发明人使用窗口大小为3个种子单体型定相变体来检测局部定相的性能。除提高的分 辨率外,发明人也得到了精确的单体型,具有总体精确度约98%。此处的精确度反应了初始 化plpSeq分析的MVP区块的误差和来自局部条件性定相的误差。对于一些染色体,由于较低 的覆盖,精确度较低(见下文表1)。
[0050] 图5c中的图也证明了在不同读出长度和覆盖参数时完成染色体跨度的种子单体 型(MVP区块)的能力。在所有情况下,使用约15x可用覆盖可W获得染色体跨度的种子单体 型。所有模拟在GM12878的1号染色体中完成。相似地,图5d中的图示出了读出长度和覆盖的 不同组合产生高分辨率种子单体型的能力。在运种情况下,较长的读出长度有助于化-C生 成的种子单体型的较高的分辨率。所有的模拟在GM12878的1号染色体中完成。
[0051] 发明人在本文中描述了一种重构生物体的染色体跨度的单体型的新策略。与从鸟 枪法测序读出重构完全单体型的其它单体型分析方法相比,本文公开的方法可W生成染色 体跨度的单体型(Fan等,化ture Biotechnology 29,51-57(2011);化ng等,Proceedings of the National Academy of Sciences of the United States of America 108,12-17 (2011);和Ma等,化Uire Methods 7,299-301 (2010))。该方法最适合用于临床和实验室环 境,因为化ploSeq需要的试剂和仪器容易得到。此外,所述方法比基于精子细胞的基因型分 析的方法更灵敏(aptKKirkness等,Genome Research 23,826-832(2013)),因为其可 W从 任意个体或细胞系的完整细胞产生全基因组单体型。因此,化ploSeq在个体化医疗中具有 极好的效用。在个体中对单体型的确定鉴定新的单体型-疾病关联,其中一些已经在较小规 模鉴定化e等,American Journal of Human Genetics 92,667-680(2013) ;Zeng等, Genetic Epidemiology 28,70-82(2005);和畑 apman 等,Human Heredity 56,18-31 (2003))。另外,对于理解基因表达中的等位基因偏好,完全单体型将至关重要,其将有助于 群体中的遗传和表观遗传多态性及其在分子水平的表型结果(Gimelbrant等,Science 318,1136-1140(2007);Kong等,Nature 462,868-874(2009);和McDaniell等,Science 328,235-239(2010))。此外,化ploSeq可W用于鉴定癌细胞中的遗传多态性,其导致对癌症 治疗药物的抗性,或是对癌症治疗药物的抗性的标志物。最后,虽然在W下实施例中,所述 方法w二倍体细胞示例,但是实验和计算的改进允许在具有更高倍性的细胞中的单体型重 构,例如癌细胞。运可W有助于理解遗传改变的结果,其经常在肿瘤发生中看到。
[0化2] 先前,临近-连接用于研究染色体的空间构造化ieberman-Aiden等,Science 326, 289-293(2009)),而不是全基因组水平的单体型确定。如本文所公开的,它也是一种在研究 个体的遗传构成中有价值的工具。如本文中表明,基于临近-连接的方法不仅可W告知哪个 顺式调节元件与哪个祀基因物理相互作用,也能告知运些中的哪些等位基因在同一条染色 体上相连。临近-连接数据也可和WGS同样的方式用于基因型分析。虽然远离限制酶切 割位点的变体不太可能进行基因型分析,运是由于邻接-连接方法例如化-C的偏爱,但是可 W补充进行未基因型分析的变体的基于群体的归因 (population based imputation) (Browning等,American Journal Of Human Genetics 81,1084-1097(2007))?完成增加 的基因型调用(call)。由于所有运点可W使用单次实验完成,HaploSeq可W用作全基因组 分析的一般工具。
[0053] 祀向单体型分析和重构
[0054] 化ploSeq也可W用于对不同区域的祀向单体型分析。一旦进行了连接步骤,且得 到了临近连接的片段的文库,定制设计的寡核巧酸(其可W固定化到固体表面上)引入到溶 液中的文库。运些寡核巧酸"祀向"特定的临近-连接片段并与运些临近-连接片段杂交。分 离与运类寡核巧酸杂交的临近-连接片段W提供新的文库。此文库现在含有临近连接的片 段的子集,其能够被定制的寡核巧酸捕获。将运些片段测序并组装W产生定向的单体型。运 一方法对于不同区域的定向单体型分析有用。例如,对HLA区域(也称为人类主要组织相容 性复合基因座或人类白细胞抗原基因座)(其为约3.5Mb)的定向单体型分析可W通过该方 法进行。运种对HLA区域的定向单体型分析在器官移植中在预测供体-受体匹配的结果中有 用。
[0055] 图9中示出的是此祀向单体型分析的示意性例子。首先,将细胞交联并固定,从而 捕获空间上临近的DNA元件(顶部左边)。接着,使用例如化ndin消化细胞,并使用生物素化 的核巧酸填充片段化的末端,接着如化-C方案中所进行的那样再连接消化的末端(顶部中 间)。对化-C片段进行PCR扩增后,最终的化-C文库由化-C双标签组成,其可W被生物素化的 RNA探针祀向,所述探针已经经设计来捕获特异性化-C片段(顶部右边)。接着,使用寡核巧 酸捕获技术(0CT),可W进行RNA探针和化-C文库的溶液杂交。运里,一些化-C片段已经被两 种RNA探针祀向,而其它片段仅被一种祀向,并且所有的非祀向序列将不被RNA探针结合(底 部右边)。接着,使用链霉亲合素包被的珠子来结合生物素化的RNA: DNA双链体(底部中间), 从而从化-C文库中提取祀向化-C片段,并创建捕获-HiC文库。珠子结合的化-C文库接着进 行PCR扩增,纯化,并进行下一代测序(底部左边)。
[0056] 在下文的实施例中,上述方法用于单体型分析人类HLA区域,其为约3.5Mb。图10中 示出了本实施例中使用的捕获-HiC探针设计。首先使用SureDesign软件集(Agilent)计算 地产生探针序列。图10a中示出了人类中HLA基因座化gl9)的UCSC基因组浏览器拍摄。图10b 示出了HLA-DQB1基因放大的UCSC基因组浏览器拍摄,W证明该探针祀向方法。在运种情况 下,发明人祀向限制酶切割位点附近的+/-400bp,所述限制酶用于制备化-C文库,在此情况 中是Hindlll ("祀向区域"追踪)。对于祀向区域,W4X铺盖密度(tiling density)设计探 针,其目标在于使得祀向序列的每个核巧酸被高达4个探针序列覆盖。还应当注意的是,探 针自身不与化ndlll切割位点重叠("HLA探针"追踪)。它也选择为不祀向在祀定区域内的任 意序列,其被RepeatMasker称为含有重复序列("错过区域"和"RepeatMasker"追踪)。
[0057]本文所讨论的祀向单体型分析方法,例如,所述捕获-HiC方法,提供了将整个HLA 基因座定相到单个单体型区块的机会,使得能够更好地在细胞W及器官移植方案中预测 HLA型匹配。几项研究已经掲示了大量疾病相关的非编码变体,其与特定的HLA基因或等位 基因关联(Trowsdale等,Annual Review Of Genomics And Human Genetics 14,301-323, (2013)和Trowsdale,Immunology letters 137,1-8,(2011))。因此,通过描绘HLA的单个单 体型结构,可W系统地去卷积遗传变异在HLA关联的疾病和表型中的作用。
[005引如本文所证明的,捕获-HiC方法通常保留常规化-C实验检测的染色质相互作用测 量。因此,捕获-HiC可W用作在特定基因座获得长距离相互作用的方法。例如,利用捕获- HiC可W掲示基因组印记(imprinting)背后的单体型解决的长距离相互作用机制。虽然几 个小组目前使用4C和5C技术来研究祀向染色质相互作用(Simonis等,Nature Genetics 38,1:348-1354,(2006),和Dostie等,Genome Research 16,1299-1309,(2006)),捕获-HiC 提供了更灵活的方法学。具体地,4C被限制为使用单个视点(viewpoint)对相互作用分析, 而5C被复杂的引物设计,有限的通量,W及仅分析连续的基因组区域所限制。或者,捕获- HiC可W应用于在单次实验中检测成几千个视点的相互作用,并能够W无偏爱的方式检索 区域和定制的3D相互作用频率。特别地,捕获-HiC提供了经改编W捕获任意散布的基因组 元件的能力,鉴于所述元件与限制酶切割位点相对临近,因此可W应用到一般情况。例如, 通过将捕获-HiC应用到基因组范围的启动子或其它基因组元件,可空前的分辨率和相 对低的成本生成基因组范围的3D调控相互作用图谱。
[0化9] 最近已经证明了化-C方案在从头组装基因组中有用((IkLTton等,化t Biotechnol 31,1119-1125 ,(2013)和Kaplan等,Nat Biotechnol 31,1143-1147 ,(2013))。由于捕获- HiC获得了高质量的染色质相互作用数据组,与化-C相似,运一方法学可W用于生成人类或 其它大型基因组的复杂区域的二倍体组装,例如T细胞受体be化(Trcb)基因座(Spicuglia 等,Seminars in Immunology 22,330-336,(2010))。此外,在群体规模中进行高度杂合化八 基因座的二倍体组装可W允许检测到新的结构变体并使得能够精确的描绘人类迁移模式 W及进行关联研究W发现个体化医疗用于多种疾病状态。类似的,最近化-C也被用于宏基 因组学研究来去卷积复杂的微生物组混合物中存在的物种(Beitel等,PeerJ,doi: 10.7287/pee;rj .preprints. 260vl(2014)和Bu;rton等,Species-Level Deconvolution of Metagenome Assemblies with Hi-C-Based Contact Probability Maps .G3,doi: 10.1534/g3.114.011825(2014))。随着捕获-HiC的出现,可W捕获不同的基因座,其是提供 信息且有分辨力的,足W基于捕获的化-C片段描绘物种混合物。总的来说,本文公开的捕 获-HiC和其祀向定相的应用W及其它应用使得能够在个体化临床基因组学W及生物医药 研究中启用新的途径。
[0060]术语"标志物"或"接合标志物",如本文所使用的,指代任意化合物或化学部分,其 能够被整合到核酸中并可W提供用于选择性纯化的基础。例如,标志物可W包括但不限于, 标记的核巧酸接头,标记的和/或修饰的核巧酸,切口平移,引物接头,或有标签的接头。术 语"标记的核巧酸接头"指代一类包含任何核酸序列的标志物,所述核酸序列包含渗入(例 如连接)另一个核酸序列中的标记。例如,所述标记可W用来选择性纯化核酸序列(即例如, 通过亲和色谱法)。运种标记可W包括但不限于生物素标记,组氨酸标记(即6化s),或FLAG 标记。
[0061] 术语"标记的核巧酸","标记的碱基",或"修饰的碱基"指代包含与标志物附着的 任何核巧酸碱基的标志物,其中所述标志物包含对于配体具有独特亲和力的特异性部分。 或者,结合伴侣可W具有对接合标志物的亲和力。在一些例子中,所述标志物包括但不限于 生物素标记,组氨酸标记(即細is ),或FLAG标记。例如,可W认为dATP-生物素是标记的核巧 酸。在一些例子中,片段化的核酸序列可W使用标记的核巧酸进行平端化(blunting),接着 平端连接。
[0062] 术语"标记"或"可检测标记"如本文所使用的,指代任意组合物,其可W通过光谱 学,光化学,生物化学,免疫化学,电学,光学或化学手段检测。运样的标记包括用于用标记 的链霉亲合素缀合物染色的生物素,磁珠(例如,Dynabeads?),巧光染料(例如,巧光素,德 克萨斯红(texas red),罗丹明(rhodamine),绿色巧光蛋白等),放射性标记(例如,3H,i25I 严S,i4C,或32p),酶(例如,辣根过氧化物酶,碱性憐酸酶W及其它通常用于化ISA中的酶), 和热量标记,例如胶体金或有色玻璃或塑料(例如,聚苯乙締,聚丙締、胶乳等)珠。本发明中 考虑的标记可W通过许多方法检测。例如,可W使用胶片或闪烁计数器检测放射性标记,可 W使用光检测器W检测发射光来检测巧光标志物。通常可W通过向酶提供底物并检测通过 所述酶作用于所述底物产生的反应产物,来检测酶促标记,并通过仅可视化有色标记来检 测热量标记。
[0063] 术语"片段"指代比衍生它的序列短的任何核酸序列。片段可W是任意大小的,范 围从几百万碱基和/或几千碱基到仅几个碱基长。实验条件可W决定预期的片段大小,包括 但不限于,限制酶消化,超声处理,酸解育,碱解育,微流化等等。
[0064] 术语"染色体",如本文所使用的,指代天然发生的核酸序列,其包含一系列称为基 因的功能区域,其通常编码蛋白。其它的功能区域可能包括microRNA或长的非编码RNA,或 其它调控元件。运些蛋白可能具有生物学功能或它们直接与相同或其它染色体相互作用 (即,例如,调控染色体)。
[0065] 术语"基因组区域"或"区域"指代任意确定长度的基因组和/或染色体。例如,基因 组区域可W指代多于一条染色体之间的关联(即,例如,相互作用)。或者,基因组区域可W 指代完全染色体或部分染色体。此外,基因组区域可W指代染色体上特定的核酸序列(即, 例如,阅读框和/或调控基因)。
[0066] 术语"片段化"指代任意过程或方法,通过所述过程或方法,化合物或组合物被分 离为较小的单元。例如,所述分离可W包括,但不限于,酶促剪切(即,例如,转座酶介导的片 段化,作用于核酸的限制酶或作用于蛋白的蛋白酶),碱水解,酸水解,或热诱导的热脱稳定 化。
[0067] 术语"热图"指代数据的任意图形表示,其中二维图中的变量采用的数值W颜色表 示。热图已经广泛地用于表示许多可比较的样品中许多基因的表达水平(例如,不同状态的 细胞,来自不同患者的样品),如从DNA微阵列获得的。
[0068] 术语"基因组"指代任意的染色体组和它们含有的基因。例如,基因组可W包括但 不限于,真核细胞基因组和原核细胞基因组。
[0069] 术语"固定","固定化"或"固定的"指代任意的方法或过程,其固定化任意和所有 的细胞过程。因此,固定的细胞在固定的时候准确维持了细胞内组分之间的空间关系。许多 化学物能够提供固定,包括但不限于,甲醒,福尔马林,或戊二醒。
[0070] 术语"交联"指代两个化合物之间任意合适的化学关联,使得它们作为一个单元进 一步处理。运种稳定性可W基于共价和/或非共价键合。例如,核酸和/或蛋白可W通过化学 试剂交联(即,例如,固定剂),使得它们在常规的实验室方法(即,例如,提取,洗涂,离屯、等 等)过程中维持它们的空间关系。
[0071] 术语"联接"是两个核酸序列通过接合标志物的独特连接。运种连接可W通过W下 过程产生,其包括但不限于,片段化,使用标记的核巧酸填充,W及平端连接。运种联接反映 了两个基因组区域的临近,从而提供了功能性相互作用的证据。为了促进测序分析,可W选 择性地纯化包括接合标志物的联接。
[0072] 术语"连接的"如本文所使用,指代两个核酸之间的任意连接,其通常包括憐酸二 醋键。所述连接通常在辅因子试剂和能源(即例如,S憐酸腺巧(ATP))的存在下,通过催化 酶的存在(即例如,连接酶)而促进。
[0073] 术语"限制酶"指代任意蛋白,其在特定的碱基对序列处剪切核酸。
[0074] 术语"选择性纯化"指代任意过程或方法,通过它们可W将特定的化合物和/或复 合体从混合物或组合物中去除。例如,运种过程可能基于亲和色谱法,其中待去除的特定化 合物与所述混合物或组合物的剩余物相比,对于所述色谱底物具有更高的亲和力。例如,通 过使混合物通过包含链霉亲合素的色谱柱,可W从所述混合物中选择性纯化使用生物素标 记的核酸,所述混合物包含没有使用生物素标记的核酸。
[0075] 术语"纯化的"或"分离的"指代下述的核酸组合物,其已经经历处理(例如,分级 (fractionation)) W去除各种其它组分,且该组合物基本保持了其表达的生物学活性。在 使用术语"基本纯化"的情况下,此名称将指代下述组合物,其中核酸形成所述组合物的主 要组分,例如组成所述组合物的约50%,约60%,约70%,约80%,约90%,约95%或更多(即 例如,重量/重量和/或重量/体积)。术语"纯化至同质"用于包括已经纯化至"表观同质",使 得存在单个核酸序列(即例如,基于SDS-PAGE或HPLC分析)的组合物。纯化的组合物不意图 表示可W保留一些微量杂质。术语"基本纯化"指代从其天然环境中取出,分离或分开,并且 至少60%不含,优选75%不含,更优选90%不含与它们天然相关的组分的分子(核酸或氨基 酸序列)。因此,"分离的多核巧酸"指代基本纯化的多核巧酸。
[0076] "核酸序列"或"核巧酸序列"指代寡核巧酸或多核巧酸,W及其片段或部分,并指 代基因组或合成来源的DNA或RNA,其可W是单链或双链的,并表示有义或反义链。
[0077] 术语"分离的核酸"指代任意下述的核酸分子,其已经从其天然状态取出(例如,从 细胞取出,在优选的实施方案中,不含其它基因组核酸)。
[0078] 术语核巧酸的"变体"指代与参照寡核巧酸的不同之处在于具有缺失,插入和取代 的新的核巧酸序列。运些可W使用多种方法(例如,测序,杂交测定法等等)检测。"缺失"定 义为下述的核巧酸或氨基酸序列中的变化,其中分别缺少一个或多个核巧酸或氨基酸残 基。"插入"或"增加"是下述的核巧酸或氨基酸序列中的变化,其已经导致增加一个或多个 核巧酸或氨基酸残基。"取代"源自一个或多个核巧酸或氨基酸分别被不同的核巧酸或氨基 酸置换。
[0079] 术语"同源性"或"同源"如本文所使用的,就核巧酸序列而言指代达到与其它核巧 酸序列互补性的程度。可w有部分同源性或完全同源性(即同一性)。与核酸序列部分互补, 即"基本同源"的核巧酸序列是至少部分抑制完全互补序列与该祀核酸序列杂交的序列。可 W使用杂交测定(Southern或Nodhern印迹,溶液杂交等等)在低严格性条件下检查对完全 互补序列与祀序列杂交的抑制。在低严格性条件下,基本同源的序列或探针将竞争并抑制 完全同源序列与祀序列的结合(即,杂交)。
[0080]术语"癌症治疗药物"用于本文指代所有的化疗试剂,癌细胞可W对随时化疗剂获 得化学抗性。例子包括JAK/STAUW制剂,P13激酶抑制剂,mTOR抑制剂,ErbB抑制剂,拓扑异 构酶抑制剂,等等。 实施例
[0081 ]实施例1 一般方法和材料
[0082] 本实施例描述了用于W下实施例2-9中的一般方法和材料。
[0083] 细胞培养和实验方法
[0084] F1 代小家鼠 (Mus musculus castaneus)x S129/SvJae(F123系)是来自Edith Heard实验室的赠品,且先前已经描述于Gribnau等,Genes&Development 17,759-773 (2003)。在含有敲除血清替换物化nockOut Serum R邱lacement)的小鼠 ES细胞培养基中培 养运些细胞:DMEM 85%,15%敲除血清替换物(11^1付〇肖日11),青霉素/链霉素,1)(非必需氨 基酸(GIBCO)aX GlutaMax,1000U/mL LIF(MILLIPORE),O.4mM0-琉基乙醇。F123小鼠 ES细 胞最初在0.1%明胶包被的平板上培养,所述平板具有丝裂霉素-C处理的小鼠胚胎成纤维 细胞(Millipore)。在收获前,细胞在0.1%明胶包被的不含饲养者(feeder)的平板上传代 两次。GM12878细胞(C0RIE化)在补充有15%胎牛血清和IX青霉素/链霉素的85%RPMI培养 基中悬浮培养。
[0085] 在悬液中(GM12878)或在膜蛋白酶处理后(F123小鼠 EX细胞川欠获细胞。甲醒固定 和化-C实验如先前描述于Lieberman-Aiden等,Science 326,289-293(2009)中那样进行。 [00化]基因型分析
[0087] 从DePristo等,化ture Genetics 43,491-498(2011)下载GM12878的变体调用和 基因型,并且运些用于单体型重构。从1000基因组工程(Genomes Pro ject,C.等,Nature 467,1061-1073(2010))下载GM12878的定相信息。1000基因组工程对GM12878的定相利用了 低覆盖测序,因此仅覆盖该个体基因组中~约65 %的经基因型分析的杂合变体(DePri sto 等,化化re Genetics 43,491 -498 (2011))。值得注意的是,"GMl2878"是类淋己母细胞系的 名称,而"NA12878"是衍生该细胞系的个体的标识符。在此处的整个实施例中,为了一致和 清楚,使用GM12878。
[0088] 为了生成杂种CASTXJ129细胞的基因型调用,从公众可用的数据库下载了亲本基 因组测序数据。对于小家鼠,从欧洲核巧酸档案化uropean Nucleotide Archive)下载基因 组序列(登录号ERP000042)。从序列读出档案(Sequence ReadArchiveK登录号SRX037820) 下载了5129/5¥化日基因组测序数据。使用齡¥0日11旨11(丽¥.]10¥0^日的.(30111)并使用3日1]11:0〇18 (Li等,Bioinformatics 25,2078-2079(2009))将读出与mm9基因组比对,并且将未定位的 读出和PCR重复过滤掉。使用Genome Analysis Toolkit(GATK)(McKenna et al.,Genome Research 20,1297-1303(2010))处理最终比对的数据组。特别地,进行了插入缺失再比对 和变体再校准。GATK化ified Genotyper用于产生SNP和插入缺失调用。发明人过滤掉了不 满足GATK质量过滤器或称为杂合变体的变体,因为基因组测序在纯合亲本近交系小鼠中进 行。亲本中的基因型调用都用于确定顺式相对于h-反式的相互作用程度,W及用于获知先 验的杂种CASTXJ129细胞定相到单体型重构。
[0089] Hi-C读出比对
[0090] 对于化-C读出比对,将化-C读出与mm9 (小鼠)或hgl8 (人)基因组比对。在每种情况 下,掩饰小家鼠或S129/Svjae(对于小鼠)或GM12878(对于人)中在基因组中基因型分析为 SNP的任何碱基。为了减少参考偏爱定位假象(reference bias mapping a;rtifacts),运些 碱基被掩饰为"N"。使用Novoali即将化-C读出作为单末端读出重复比对。特别的,对于重复 比对,首先将整个测序读出与小鼠或人的基因组比对。接着,将未定位的读出修整(trim)5 个碱基对,并再次比对。重复运一过程,直到读出与基因组成功比对或者直到修整的读出长 少于25个碱基对。重复比对对于化-C数据有用,因为某些读出跨越临近-连接的接合,并且 由于缺口和错配而不能成功与基因组比对。当修整将跨越连接接合的读出的部分去除时, 重复修整的未定位的读出允许运些读出与基因组的成功比对。在作为单末端的读出的重复 比对完成后,使用内部脚本将读出手动配对。去除未定位的和PCR重复读出。然后,比对的数 据组最终经过GATK插入缺失再比对和变体再校准。
[0091 ]同源染色体之间相互作用频率的分析
[0092] 当比对化-C数据时,配对末端读出可W具有被定位到同一条染色体上(染色体内) 或定位到不同染色体(染色体间)的两个末端。然而,Hi-C数据的最初定位利用单倍体参考 基因组且不区分单个测序读出定位到染色体的两个同源拷贝的哪一个。结果,最初定位为 "染色体内"的读出对被分解为发生于同一条同源染色体上的读出(其真正为顺式)和定位 于两个同源对之间的读出(其被定义为"h-反式")。
[0093] 为了确定相对于h-反式为顺式的读出的程度,首先区分个体读出定位到哪个等位 基因。运是通过鉴定与基因组中变体位置重叠的读出,并接着确定所述变体位置处测序的 碱基对应哪个等位基因来完成的。一旦获得了该信息,可W确定相对于h-反式而言区域W 顺式相互作用的频率(见图2c和6)。
[0094] 如通过染色体内和染色体间读出定义的可用覆盖
[0095] 对于使用化pCUT的定相,可W利用染色体内和染色体间读出两者。对于染色体间 读出,可W将每个染色体间读出对考虑为两个单末端读出,因为运些读出的配对信息不可 用于定相。相反,考虑所有的染色体内读出用于定相。单个读出含有多于一个变体的概率很 小,特别是在人类中,其中变体的密度相对较低。运与仅配对的染色体内读出将具有大的插 入物大小的实情组合,意味着有助于单体型定相的成功的绝大部分读出是染色体内读出。 因此,"可用覆盖"定义为仅源自染色体内读出的基因组覆盖。
[0096] 化-C实验在CASTXJ129中生成约22%的染色体间读出,而GM12878中约55%的读出 是染色体间的。换句话说,CAS1XJ129中795M中的620M配对末端读出是有用的,具有可用覆 盖为30x。在人类中,577M中的262M配对末端读出是有用的,导致可用覆盖为17x。因此,尽管 测序的读出总数相对类似,但人类中具有较低的可用覆盖。W发明人的经验,Hi-C实验中相 对于染色体间为染色体内的所有读出的分数可W在实验间和细胞类型间变化。
[0097] 使用化 pCUT 的化 ploSeq
[0098] 使用化pCUT算法来进行化ploSeq的计算方面,其细节先前描述于Bansal等, Bioinformatics 24,1153-159(2008)。化pCUT最初设计为作用于常规基因组测序(WGS)或 配偶对数据。HapCUT构建具有杂合变体作为节点W及节点之间由相同片段覆盖的边缘的图 表。因此,仅具有至少两个杂合变体的片段对于单体型定相是有用的。化pCUT使用分选方法 将运种"单体型信息性"片段从协调分选的BAM文件中提取,所述分选方法将每个潜在的单 体型信息性读出储存在缓存中,直到看到其配偶。缓存大小经定制W允许化pCUT处理大的 插入物大小的临近-连接读出。
[0099] 化pCUT使用贪婪最大切割试探法(greedy max-cut heuristic)W鉴定用于在MEC 得分函数下具有最低得分的图中的每个连接组分的单体型解决办法。具体地,最初的 化pCUT算法使用0(n)重复来寻找最佳切割。由于化-C数据产生具有单个大连接组分的染色 体跨度的单体型,该默认方法花费几天的计算时间来定相CASTXJ129基因组。为了减少计算 时间,评估了减少重复数量对定相的精确度的影响。对于CAST*129系统,观察到将重复数量 增加到超过1000没有显著改善精确度。对于GM12878,允许高达100,000个重复。将该解决方 案重复多次,且在CASTXJ129中最多使用了 21次重复和GM12878中101次。与小鼠的数据相 比,考虑到较低的变体密度和减少的序列覆盖,GM12878细胞中的参数允许化pCUT获取较高 的精确度。
[0100] 最大插入物大小分析
[0101] 如先前所提到的,相对于h-反式而言化-C读出为顺式的概率作为两个读出对之间 距离的函数变化(图2c)。在较短的基因组距离,染色体内读出为h-反式的概率非常低。在大 的距离(>30Mbp),运一概率大大提高且理论上更可能将错误的化pCUT连接引入相中。考虑 至岐一点,使用了CASTXJ129数据中的1号,5号,10号,15号和19号染色体的Hi-C数据,且重 复单体型重构,运允许可变的最大插入物大小值。插入物大小比可允许的最大插入物大小 更大的任意读出被排除。该分析使用低变体密度情况进行,对于此分析因为较低的密度最 适合用于人类应用(图8a-b)。该步骤导致化ploSeq分析增加的精确度伴随分辨率的中度降 低。
[0102] 插入物大小依赖概率修正
[0103] 化pCUT算法的一个有用的特征是,为了计算潜在单体型的得分,其负责变体位点 的基础质量得分。换句话说,如果在连接两个变体的测序读出中并且一个变体位点的基础 质量较低,则此读出在产生其最终单体型调用中被化pCUT给予相对较低的权重。因此, 化pCUT可W使用该信息来试着忽略来自产生错误的单体型连接的潜在测序误差。如先前所 提到的,在化-C数据中,误差也可能由于h-反式相互作用而产生,其比测序误差频繁得多, 且表现出距离依赖性行为。因此,尝试基于两个读出之间的距离,解决相对于h-反式而言相 互作用为顺式的可能性。CASTX129化-C数据用于鉴定顺式或h-反式的读出。将插入物大小 二进制化(binned)成50Kb二进制中,并评估读出为h-反式的可能性(拙-反式/(#c i S+拙-反 式)。接着,W2%平滑使用局部回归化0WESS似预测任意给定插入物大小的h-反式概率。对 于每个染色体内读出,将顺式概率(1-h-反式)乘W基础质量来得到该染色体内读出为同源 反式相互作用的几率。作为结果,在鉴定单体型解决办法中,对于更可能是h-反式的读出, 化pCUT给出较低的权重。
[0104] 增加 h-反式相互作用概率中度增加化ploSeq精确度,而对分辨率没有任何影响。 作为比较,30Mb的19号染色体maxis具有1.1 %的误差率(图8b)。在增加了h-反式概率后,误 差率为0.9% (图4b),其中误差率定义为1-精确度。
[0105] 局部条件性定相模拟
[0106] 为了研究W不同的分辨率百分比进行局部定相的能力,进行了逐步分析。首先,W 不同的分辨率生成种子单体型。接着,使用Beagle(v4.0) (Browning等,Genetics 194,459- 471(2013))在种子单体型的指导下进行局部定相。最后,局部定相的精确度通过将其与来 自1000基因组计划的先验已知的定相信息比较来检查。
[0107] 为了 W不同分辨率模拟种子单体型,首先模拟种子基因型。使用读出长度和覆盖 的不同组合来获得不同分辨率的种子基因型。具体地,来自H1和H1衍生细胞的化-C染色体 内读出起始位点(未发表数据)用于生成给定读出长度和覆盖的读出对。运允许维持化-C数 据结构和模拟数据中观察到的插入物大小的分布。为了生成种子基因型,发明人构建了具 有节点和边缘的图,其中所述节点表示GM12878Q号染色体)中的杂合变体,所述边缘对应 覆盖多个变体的读出。该图基本上是基因型图,因为该定相还未知。因此,该图的整个点是 基于分辨率和化-C数据结构,提供变体的子集,其为种子基因型的一部分,或不是通过局部 定相推断的缺口。W要求的读出长度和覆盖参数生成种子基因型,来达到特定的分辨率。运 些种子基因型用于局部定相(图5a) W研究用于产生足够分辨率的种子单体型的最低要求 (图5c-d)。运两种分析独立进行并在运两种情况中,生成种子基因型和下游分析重复10次 来记录平均结果。
[0108] 为了进行局部条件性定相,需要先验的单体型系统来检查局部条件性定相的精确 度。因为来自=人组的先验单体型信息仅覆盖约65%的杂合变体,决定仅在所述=人组子 集上进行局部定相模拟。特别地,条件为作为种子基因型或"缺口 "的一部分的每个变体应 当是1000基因组定相的S人组的一部分。使用S人组信息将种子基因型转化为种子单体 型,同时使"缺口"变体保持未定相。接着,使用Beagle将种子单体型上的局部定相条件用于 推断缺口变体的定相。允许同源变体辅助Beagle来从隐藏Markov模型获得更好的预测。
[0109] 为了对种子单体型未定相变体进行邻域校正,发明人收集了在种子单体型中定相 的各在上游和下游的3个变体。接着检查在种子单体型中存在的定相和由Beagle预测的定 相之间是否存在100%相关性。运给出了 Beagle能够在该"局部区域"表现得多好的信屯、。如 果存在100%匹配,认为所述变体是条件性定相的。如果不是100%匹配,在最终的单体型中 忽略未定相的变体。尝试了其它窗口大小,例如5和10,并且没有发现精确度的改进。
[0110] 人GM12878细胞中的局部条件性定相
[0111] 发明人将化ploSeq分析和局部条件性定相偶联W增加 GM12878细胞中的分辨率。 如早前所描述的对GM12878(ref.44)和群体样品之间共同的基因型进行了局部条件性定 相。另外,由于所述种子单体型不是100%准确的,发明人标记了与局部定相不一致的种子 单体型定相的变体。使运些标记的变体"未定相",因为它们可W是潜在的错误。因此,除了 使用用于决定缺口变体是否需要局部定相的邻域校正外(如在模拟中),本发明人还使用了 运一信息来标记种子单体型中可能是潜在错误的变体。运允许局部定相后精确度的小幅增 加 (见表1)。
[0112] 总体化ploSeq精确度估算为局部定相后MVP区块中正确定相的杂合变体的分数 (图加和表1)。具体地,发明人仅使用在S人组中定相的变体来评估精确度。对于ch巧中的 局部定相,发明人使得雄性单倍体基因型为纯合。
[0113] GM12878细胞具有比CASTXJ129低的变体密度,并且较低的覆盖增加了对预测模型 的更多限制,当与低密度CASTX129情况中的0.8%相比,导致相对较高的化ploSeq误差率 2%"25-30x的可用覆盖(如图5c-d中所示)可W帮助增加精确度,并潜在地覆盖种子单体型 中更多的稀有变体。目前,约16%的变体没有局部定相,运是由于它们在群体中的缺乏。运 些可W通过额外的化-C数据或甚至常规基因组测序数据(其可W潜在地将缺口变体连接到 种子MVP区块中的变体)定相。化ploSeq分析的一个重要方面是形成种子染色体跨度的单体 型的能力,其不能从常规基因组测序或配偶对或fosmid产生。
[0114] 化31111(1 模拟
[0115] 为了模拟基于fosmid的测序(图4b和C),发明人模仿了作为配对末端测序的 fosmid克隆,其具有接近40化的插入物大小。发明人推理该方法较容易模拟,并仍然保持 fosmid添加到单体型重构的数据结构。作为证据,如由其他组报道的,所述模拟在人类中产 生大小高达1Mb的单体型区块化itzman等,化ture Biotechnology 29,59-63(2011);Suk 等,Genome Research 21,1672-1685(2011);和Duitama等,Nucleic Acids Research 40, 2041-2053(2012))。
[0116] 为了该目的,对于GM12878的1号染色体,模拟的l(K)bp配对末端读出为各种测序覆 盖。使用随机起始位点模拟读出,其具有提到的平均插入物大小和平均值的10%标准偏差。 化smid插入物表示使用吁osmid大小"的插入物的模拟,W精确定点(pinpoint)运些大型片 段产生较长单体型的能力。500bp偏态混合(skewed mix)插入物含有70%的5(K)bp插入物大 小,20 %的配偶对插入物和10 % 40000bp插入物。40000bp偏斜(skew)含有70 %的40000bp插 入物和10%5(K)bp插入物。N50定义为50%的含有N50跨度的单体型区块的跨度。模拟重复10 次并在Y轴中记录平均N50。结果表明,单独的较高覆盖不能形成较长的单体型。此外,运些 数据证明了较长的插入物大小片段生成较长的单体型。
[0117] 实施例2:化ploSeq的实验策略
[011引在化ploSeq中,发明人首先基于先前建立的化-C实验方案进行了临近-连接测序 化ieberman-Aiden等,Science 326,289-293(2009))。与其他单体型分析方法中纯化的基 因组DNA相反,在从细胞分离DNA之前,首先原位进行临近-连接(图la)。特别地,空间临近的 基因组区域原位交联,使用限制酶消化,再连接W形成人工片段,其接着被分离(图la)。如 此分离的纯化的DNA片段可W捕获两个不同的基因组基因座,其在体内3D空间中圈在一起 (Dekker等,Science 295,1306-1311 (2002);Lieberman-Aiden等,Science 326,289-293 (2009);和Ka化or等,NaUire Biotechnology 30,90-98(2012))。确实,在对所得的DNA文库 进行鸟枪DNA测序后,配对末端读出具有从几百个碱基对到数千万碱基对的范围的"插入物 大小",而其它方法倾向于生成范围从几百个到数万个碱基对的"插入物"(图la-b)。理论 上,化ploSeq中的实验方法保留了单体型信息,因为其允许同一条染色体上线性相距远的 两个区域连接为短且连续的DNA片段(图la)。虽然化-C实验中生成的短片段可W形成小的 单体型区块,但长片段最终可W将运些小区块连接到一起(图1C)。使用足够的测序覆盖,运 种方法允许连接不连续区块中的变体,并将每个运样的区块组装为单个单体型。因此,使用 基于临近-连接的方法来制备DNA测序文库,可W重构染色体跨度的单体型区块。
[0119]待考虑的一个因素是临近-连接可W捕获个体等位基因中的顺式相互作用和同源 与非同源染色体之间的反式相互作用两者。虽然不同染色体之间的非同源的反式相互作用 不影响定相,但同源染色体之间的反式相互作用(此后称为h-反式)可W使单体型重构复杂 化,如果h-反式相互作用与顺式相互作用一样频繁。因此,发明人着手确定临近-连接测序 数据中,h-反式相对顺式相互作用的相对频率。为了完成运一目的,发明人使用杂种小鼠胚 胎干细胞化S)系,其衍生于两个近交纯合品系(小家鼠(CAST)和129S4/SWae(J129))之间 的杂交,对于所述细胞,亲本近交系全基因组序列(WGS)公开可用。作为结果,该细胞系中母 本和父本单体型的知识作为育种结构的产物是先验已知的,且然后,等位基因之间的相互 作用频率可W明确地检测。从运些杂种ES细胞,发明人进行了化-C实验并生成了超过6.20 亿个可用的75碱基对配对末端读出,对应基因组的30x覆盖。
[0120] 为了确定单体型内(顺式)相对于单体型间化-反式)相互作用的程度,发明人使用 先前的单体型信息来区分来自CAST和J129等位基因的读出。为了检查h-反式相互作用模 式,发明人首先可视化地检查了每个等位基因之间的相互作用模式(图2a)。先前的化-知开 究已经确认了长久W来建立的染色体领域的概念,尽管没有对每个染色体的两个等位基因 之间进行区分(Xieberman-Aiden等,Science 326,289-293(2009);和Kalhor等,Nature Biotechnology 30,90-98(2012))。发明人观察到每条染色体的CAST和J129等位基因形成 单独的染色体领域(图2a)。此外,在与顺式相互作用相比时,发明人观察到<2%的h-反式 相互作用,表明绝大多数的化-C读出真正是顺式(图化)。另外,相对h-反式而言DNA读出是 顺式的概率似乎作为读出对之间插入物大小的函数而变化(图2c,和图6)。如图6所示,每个 点描绘了lowess平滑曲线,而黑色的点源自于组合所有的染色体。运表明每条染色体遵循 相似的h-反式相互作用概率的模式。运些观察表明,h-反式相互作用是罕见现象。
[0121] 实施例3在杂种小鼠 ES细胞中W高分辨率精确重构染色体跨度的单体型
[0122] 存在罕见的h-反式相互作用读出和诸如在变体位点处的测序误差等现象可导致 同源配对之间错误的连接并引起单体型重构的冲突。为了克服运些问题,发明人将化pCUfs 软件整合到化ploSeq分析中W在概率上预测单体型。具体的是,化pCUT构建了具有杂合变 体作为节点和由重叠片段所阐明的边缘的图表。由于测序误差和h-反式相互作用,该图表 可能含有几个假的边缘。HapCUT使用最大切割算法来预测简约的(parsimonious)解决方 案,其最大地与输入测序读出组提供的单体型信息一致(图3a)。因为临近-连接比常规基因 组测序或配偶对产生更大的图表,发明人修改了HapCUTW减少其计算时间,使其可用于 化ploSeq分析。为了测试化pCUT从临近-连接和测序数据生成单体型区块的能力,发明人再 次利用了 CASTx 129小鼠 ES细胞化-C数据。在运种情况下,发明人没有先验区分测序读出属 于哪一个等位基因。取而代之,发明人允许化pCUT从头重构杂合变体的单体型区块。接着, 本发明人利用CAST和J129等位基因的已知单体型信息来评估算法的性能。发明人使用了完 全性,分辨率,W及精确度的度量来评估化ploSeq分析在单体型重构中的成功(图7)。
[0123] 在图7a中,将杂合SNP考虑为节点,且在属于相同片段的节点之间产生边缘。该图 系统从头建立了两条同源染色体(或单体型)。然而,可W有形成的多个区块,且在本实施例 中发明人已经鉴定了一个跨越96.15%的大型MVP组分W及不能被连接到MVP区块的另一个 小型区块(示于黑色边缘的方框中)。
[0124] 通过就跨越的碱基对的数目而言生成的单体型区块的大小或者通过每个区块跨 越的杂合变体的总数测量单体型定相的完全性。一般来说,根据杂合变体连接,对于每条染 色体,,HapCUT将生成各种大小的几个单体型区块。含有定相的最杂合变体(most hetero巧gous variant phased) (MVP)的单体型区块通常是最感兴趣的,因为它经常是跨 度最大的模块。另外,可W将少数杂合变体分配到较小的区块,由于它们不能与MVP区块连 接。在运种情况下,MVP区块跨越了每条染色体的超过99.9%的可定相碱基对(图3b),证明 使用化-C数据的化ploSeq分析可W生成完全的染色体跨度的单体型。
[0125]虽然完全性定义为MVP区块的碱基对跨度,但分辨率被表示为定相的杂合变体相 对于MVP区块中跨越的总变体的分数(图7)。对于每条染色体,生成的运些MVP区块具有高分 辨率,因为发明人可W定相任意给定染色体上约95%的杂合变体(图3b)。不能将剩下的5% 的杂合变体连接似乎是因为不存在覆盖运些变体的测序片段,或不能将运些杂合变体连接 到MVP变体模块。作为结果,尽管跨越了绝大部分的染色体,MVP区块在定相的变体中含有约 5%的缺口。
[01%]为了评估MVP区块中杂合变体的精确度,发明人将通过化ploSeq分析从头生成的 预测的单体型与CAST和J129等位基因的已知单体型比较。发明人将精确度定义为MVP区块 中正确定相的定相杂合变体的分数(图7)。在分配到MVP单体型模块的变体中,在区分两个 已知的单体型中发明人观察到了 >99.5%的精确度(图3b)。
[0127]最后,由于发明人先前已经证明了h-反式相互作用概率随着分开两个测序读出的 基因组距离而增加(图2c),本发明人将h-反式相互作用概率整合到化pCUT算法中,并将测 序读出的最大插入物大小加帽于3000万碱基对。运些条件不牺牲发明人生成的单体型的完 全性。相反,发明人观察到MVP模块中变体进一步改进的精确性,伴随着定相的变体分辨率 的中度下降(图8a和b)。
[01%]如运些图所示,限制性化pCUT模型仅允许直到特定最大插入物大小(maxis)的片 段。最低的maxis为500万碱基,在运之下MVP区组中形成染色体跨度的单体型的能力丧失。 在较高的maxis, MVP区块的分辨率(a)高但含有较高的精确度(b)。因此,选择了3000万碱基 作为maxis W允许可接受水平的分辨率和精确度。该模拟在低变体密度的情况下,在 CASTXJ129系统中的不同染色体中进行,因为运更接近人类应用。该分析没有整合h-反式概 率,使得实现了 maxis单独的效果。
[0129] 总之,运些结果证明了对于所有的常染色体,化ploSeq分析产生完全的,高分辨率 和精确的单体型。
[0130] 实施例4化ploSeq与其他单体型定相方法比较
[0131] 为了将本文公开的方法与先前建立的单体型分析方法比较,发明人模拟了常规配 对末端鸟枪法DNA测序(WGS),配偶对测序,fosmid和临近-连接的20x覆盖DNA测序数据来评 估每种方法重构单体型的能力。发明人观察到仅使用临近-连接的化ploSeq分析可W生成 染色体跨度的MVP区块,而其它方法产生显著较小的MVP区块并因此具有片段化的单体型结 构(图3c)。具体地,基于配偶对和fosmid的测序方法分别生成几十万碱基和约百万碱基大 小的区块。发明人将WGS数据和配对,fosmidW及邻近连接组合,W增加覆盖并增加数据结 构中的变异性,然而生成较长单体型的能力没有显著变化(图3c)。为了比较运些方法的分 辨率,发明人检查了排名前100的经变体定相的单体型区块的累积调整跨度(图3d),其中调 整的跨度表示为完全性和分辨率的乘积。化ploSeq中获得的单独MVP区块是完全的,并具有 约90%的分辨率。相反,当将所有区块累积性考虑时,常规鸟枪法测序,配对和fosmid仅能 覆盖5%,65%,和90 %的染色体。与MVP区块的大小相比,累积完全性具有较少的潜在应用, 因为不同区块中的变体彼此依然是未定相的。较高的覆盖(图3d,虚线)没有显著改变累积 跨度模式。运表明为了生成染色体跨度的单体型模块,总测序覆盖似乎相比用于定相的方 法不那样重要。
[0132] 实施例甜aploSeq的表现依赖于变体密度
[0133] CASTXJ129ES细胞系的一个区别特征是整个基因组中存在高密度的杂合变体。平 均每150个碱基存在一个杂合变体,其比人类中频繁7-10倍(Wheeler等,化化re 452,872- 876(2008)和化shkarev等,Nature Biotechnology 27,847-850(2009))。为了起始测试 化ploSeq在人细胞中生成单体型的可行性,发明人对CASTxJ129系统中的杂合变体进行了 二次采样,使得变体密度模拟人群中的变体密度。发明人接着测试了多么低的变体密度影 响化ploSeq重构单体型的能力。虽然降低的变体密度快速的降低了片段含有杂合变体的能 力,但通过化ploSeq获得精确且完全的单体型区块的能力没有改变(图4b)。发明人仍然观 察到了每个染色体里的完全单体型,而平均精确度仅少量降低,在低变体密度的情况下从 约99.6%降到约99.2% (图4b)。然而,较低的变体密度的确导致了较少的可用读出,其继而 提供较少的机会用于预测模型来解决单体型。作为结果,与高密度条件相比,使用"人类"变 体密度生成的MVP区块具有较低的分辨率和较少的定相变体。现在MVP区块中约32%的杂合 变体被定相(图4b),而不是高密度情况下的95% (图3b)。总的来说,低变体密度不影响完全 性或精确度,但确实影响化ploSeq分析的染色体跨度的单体型的分辨率。
[0134] 实施例6对人类个体的化ploSeq分析
[0135] 为了实际地评估本文的方法在人类中定相单体型的能力,发明人在GM12878类淋 己母细胞细胞系中进行了化ploSeq。该细胞系的完全单体型已经由1000基因组计划从家庭 S人组WGS确定1S。发明人生成了超过2.62亿个可用的100碱基对配对末端读出,其对应约 17x覆盖。在GM12878细胞中,化ploSeq成功地在所有的近端着丝粒染色体和18个中着丝粒 染色体中的17个中生成了染色体跨度的单体型(图4c-d)。值得注意的是,先前尝试在人类 中单体型重构的方法不能重构跨越中着丝粒染色体的高度重复的着丝粒区域的单体型 (Levy等,PLoS Biology 5,e254(2007);Kitzman等,Nature Biotechnology 29,59-63 (2011);Suk等,Genome Research 21,1672-1685(2011);Duitama等,Nucleic Acids Research 40,2041-2053(2012);和Kaper等,Proc Natl Acad Sci USA 110,5552-5557 (2013))。使用化ploSeq,发明人生成了跨越除9号染色体外所有中着丝粒染色体的着丝粒 的单体型,在9号染色体中错误的连接导致了着丝粒处单体型调用的切换。除了具有大型的 15Mbp不充分定位的着丝粒区域外,9号染色体具有相对较低的可用覆盖(13.7x)。发明人假 设额外的覆盖可W提供跨越着丝粒的较好机会。因此,在9号染色体中,发明人将化-C数据 与先前生成的化-C和TCC数据组合,运将其覆盖增加到约15X。栓系染色体捕获(TCC)与化-C 相似,其中交联的DNA片段在固体表面栓系并连接到一起。TCC生成与化-C实验相似的数据, 具有稍微好一点的能力来捕获真正的长距离染色质相互作用(Kalhor等,Nature Biotechnology30,90-98(2012))。使用该组合的数据组,发明人能够精确地定相整个9号染 色体。总的来说,从化ploSeq分析的仅17X基因组覆盖,发明人生成了所有人染色体(包括X 染色体)的完全的,染色体跨度的单体型,尽管W降低的约22%分辨率(图4c)。
[0136] 实施例7通过组合化ploSeq和局部条件性定相完全且高分辨率的单体型定相
[0137] 虽然化ploSeq生成完全的染色体跨度的单体型,由于人类群体中的低变体密度, 其不能达到高分辨率的定相的变体。运导致了 "缺口",其中杂合变体相对于MVP单体型区块 仍然未定相。发明人推理使用衍生于群体规模测序数据的连锁不平衡模式(linkage disequi 1 ibrium patterns),可W将运些缺口变体W概率连接到MVP模块。为了运一目的, 发明人使用Beagle(v4.0) (Browning等,Genetics 194,459-471 (2013))软件和来自 1000基 因组计划的测序数据(Genomes Pro ject,C.等,化ture 491,56-65(2012)。发明人使用了 化ploSeq生成的染色体跨度的单体型作为"种子单体型指导局部定相。作为结果,发明 人能够从相对于MVP区块仍然未定相的"缺口"变体的连锁不平衡(LD)测量生成局部定相预 测。
[0138] 为了首先调查该方法的有效性,就MVP区块中定相的变体的数量而言,发明人W不 同的分辨率百分比在GM12878基因组中模拟了染色体跨度的种子单体型。该模拟结果表明 发明人可W甚至W低分辨率种子单体型输入时精确地推测局部定相(10%种子单体型分辨 率时3%的误差,图5a中的上面曲线)。由于复杂的群体结构,来自Beagle预测的局部单体型 和化ploSeq种子单体型的定相预测之间发生偶尔的错配。为了修正运种现象,发明人检查 了包围每个待推测杂合变体的临近窗口区域,并分析种子单体型和局部定相之间定相的一 致。通过仅当它们具有100%的一致性时接受变体相对于所述种子单体型定相,不论单体型 分辨率如何,发明人能够将误差率降低到约0.7% (图5a,下面的曲线)。由于该原因,发明人 能够推测局部定相的杂合变体的分数随着较大的种子单体型分辨率而增加(图5a,底部图 组)。发明人使用3个定相的种子单体型变体的邻域窗口大小,而窗口大小的增加不显著增 加精确度。
[0139] 基于运些结果,发明人使用来自化ploSeq分析生成的MVP染色体跨度的单体型作 为种子单体型并进行了局部条件性定相。总体上,发明人W平均约98%的精确度生成了具 有约81%分辨率的染色体跨度的单体型(图5b)。值得注意的是,在不能局部定相的19%的 杂合变体中,约16%是由于它们不存在于群体样品中而约3%是因为邻域校正,其仅少量地 影响分辨率(图化)。因此,通过组合化ploSeq分析和局部条件性定相,发明人能够在人类中 完成高分辨率和精确的染色体跨度的单体型。
[0140] 实施例8通过化ploSeq获得精确和高分辨率的染色体跨度的单体型的要求
[0141] 从局部条件性定相分析,发明人推导具有约20-30%分辨率的种子单体型足W获 得精确和高分辨率的染色体跨度的单体型。因此,接下来的问题是完成具有约20-30%分辨 率的染色体跨度的种子单体型的最小实验要求是什么。为了研究运点,发明人生成了模拟 的临近-连接测序数据,其具有不同的读出长度和测序覆盖。基于模拟,为了首先完成染色 体跨度的单体型,依赖于获取约15x的可用测序覆盖而不论读出长度如何(图5c)。在获得染 色体跨度的单体型后,完成所需的约20-30%的分辨率的分数将要求约25-30X可用覆盖,其 具有100个碱基对配对末端读出(图5d)。该模拟还强调对较长读出长度的需要,因为较长的 读出长度显著增加种子单体型分辨率。另外,该模拟不考虑精确度,且从对GM12878的分析, 发明人能够推导重构精确单体型的能力依赖于可用覆盖。例如,低覆盖染色体例如17号和 19号具有相对较低的精确度。具体的是,较低的覆盖可能导致许多变体W较少的边缘连接, 其继而可W传播(propagate)高度误差的结构到整个染色体跨度的单体型。见W下表1。
[0142] 表1示出了 MVP区块的覆盖和精确度之间的关系。低覆盖影响临近-连接完成精确 单体型的能力,正如在17号,19号和20号染色体中看到的。局部条件性定相化CP)后,分辨率 从22%增加到81% (图加)而不进一步降低精确度。实际上,基于邻域校正看到了精确度的 少量增加。如图化中还示出的,最后一栏反映总体精确度。
[0143] 此外,虽然对于任意一个染色体,发明人没有达到约25X的可用覆盖,发明人仍然 能够达到平均约~98%的精确度。额外的覆盖可W甚至进一步增加精确度,正如在低密度 CASTXJ129系统中观察到的。因此,具有100个碱基对的配对末端读出的25-30X可用覆盖足 W完成具有约20-30%分辨率的染色体跨度的单体型,并允许使用化ploSeq分析精确的局 部条件性定相。
[0144] 表1
[0145]
[0146]实施例9对人类个体的化ploSeq分析
[0147]在本实施例中,使用来自四个人类个体的样品进行化ploSeq分析。为了该目的,在 甲醒交联之前,将人组织样品急速冷冻并研磨。接着,如Lieberman-Aiden等,Science 326, 289-293(2009)所述在样品上进行化-C。使用先前描述的化ploSeq方法进行单体型分析 (Selvaraj等,化t Biotechno 1.2013Dec;31 (12) :1111-8)。简单的说,为了生成单体型预 巧。,来自每个供体的Hi-C读出用作对HapCUT软件的输入测序(Bansal等, Bioinformatics.2008Aug 15;24( 16): il53-9)。对于最终单体型调用,将Hi-C数据与供体 基因组的WGS配偶对数据组合。因为化-C数据仅能定相一些SNP,通过利用来自1000基因组 工程的群体测序数据进行局部条件性定相方法。对于每条染色体,化ploSeq生成两个单体 型,对于母本等位基因为1个,对于父本等位基因为1个。一个等位基因命名为P1(亲本1),而 另一个等位基因命名为P2(亲本2),因为关于每个供体基因组中的来源亲本的信息不可用。
[0148] 对于四个不同的组织供体,在每个组织供体中发明人能够生成跨越整个染色体的 单体型,其具有平均99.5%的完全性(单体型解决的基因组区域的覆盖),W及范围从78% 至89%的平均分辨率(定相的杂合SNP的覆盖)。通过比较预测的单体和属于相同配对末端 读出的SNP的一致(concordance),验证单体型预测的精确度。对于册K27ac化IP-seq读出, 一致率为99.7%而对于mRNA-seq读出为98.4%,表明高度的精确度。
[0149] 实施例10使用捕获-HiC和测序的祀向单体型分析
[0150] 在本实施例中,具有寡核巧酸探针的捕获-HiC用于捕获染色质相互作用,用于对 整个人HLA基因座的祀向单体型分析。
[0151] 为了生成化-C文库,将GM12878(C0RffiLL)细胞在使用15%FBS和IX青霉素/链霉素 补充的85%的RPMI培养基中悬浮培养。收获GM12878细胞,甲醒固定,并经过如Lieberman- Aiden等,Science 326,289-293,(2009)中所述Hi-C实验方案,在捕获测序前使用一些修 改。在将11 lumina衔接头(adapter)连接到Hi-C片段上后,文库经历14个PCR扩增循环,接着 使用高保真(Fusion)聚合酶捕获杂交。可W根据需要多少DNA用于下游捕获杂交反应,修改 预捕获PCR循环的数量。在运种情况下,使用少量珠子结合的Hi-C文库输出W14个循环进行 几个平行的PCR反应W最大化PCR产出和获得足够的材料用于可再生捕获-HiC实验。为了检 查文库质量和为了提供内部深度匹配的对照用于捕获-HiC文库,在预捕获(14个循环)文库 上进行NGS。
[0152] 使用上文所述的实验方案,首先生成了具有足够材料的常规化-C文库,W使得能 够进行基于寡核巧酸探针的整个HLA区域的捕获(图9和图10a)。
[0153] 为了获得人HLA基因座的祀向单体型分析,计算生成寡核巧酸探针序列并祀向HLA 基因座中靠近化ndlll切割位点的非重复+/-400bp区域(图10)。为此,进行了单体型分析表 现模拟。简单的说,根据单体型分析分辨率(Y轴)作为测序覆盖(X轴)的函数模拟化ploSeq 表现。进行了该研究来更普遍提问如果在文库中仅存在含有化ndlll切割位点相邻序列的 化-C片段,化ploSeq将表现得多好。理论上来说,捕获-HiC文库将仅含有其中至少一个读出 末端起源于化ndlll切割位点相邻序列的化-C片段。因此,使用内部的常规化-C数据组,使 用所有定位的化-C读出进行化ploSeq分析,而没有限制任何读出(Resolution_Nores)。可 用读出也被限制为仅那些含有在化ndlll切割位点的5(K)bpW内(Resolution_pm500)或切 割位点的250bpW内(Resolution_pm250)的至少1个读出末端。该模拟的结果表明,虽然单 体型分析分辨率有约20 %的降低,该分辨率仍然足够用于单体型分析的目的。该结果还表 明,无论将读出限制到靠近化ndlll切割位点的250bp还是5(K)bp,分辨率存在少量差异。相 应地,选择40化P用于勒1向方法。
[0154] 使用SureDesign参数,W4X铺盖密度在祀向区域处设计探针,W优化捕获效率和 因此最大化单体型分析分辨率和精确度。更具体的是,为了生成RNA诱巧,使用SureDesign 软件包(AGILENT TECHNOLOGIES)设计探针。使用hgl9基因组构建(chr6 :29689001- 33098938),定制设计祀向靠近Hindlll切割位点的上游和下游40化p,跨越MHC基因座。将 SureDesign参数设置为4X铺盖密度,最大探针加强(boosting),W及最大重复序列掩盖。尽 管不临近化ndlll切割位点,发明人也W2X铺盖密度,平衡加强,W及最大重复元件掩盖祀 向HLA基因外显子。通过SureDesign使用本文所述的参数,总共计算生成了 12,298个探针。 [01巧]接着,通过CustomArray Inc合成了单链DNA(ssDNA)寡聚物。ssDNA寡聚物含有通 用的正向和反向引发序列。正向引发序列包含截短的SP6RNA聚合酶识别序列。反向通用引 发序列含有BsrDI识别序列,用于体外转录前3'剪切。为了将寡聚物转化为生物素化的RNA 诱巧,稀释寡聚物并接着使用高保真DNA聚合酶(KAPA)进行PCR扩增,并接着柱纯化 (PR0MEGA)。该PCR反应也用于填充到SP6识别序列的剩余部分。接着,通过使用BsrDI (化W 化gland Biosciences)消化dsDNA去除反向引发序列并再次纯化W去除消化的片段。最后, 根据制造商的方案(AMBI0N)在生物素化的UTP化PICENTRE)存在下进行体外转录(IVT)。接 着,柱纯化RNA(QIAGEN),稀释到工作浓度(500ngAil)并在使用前储存在-80°C。
[0156] 为了富集化-C文库用于将化-C片段定位到HLA基因座,主要根据化stomArray实验 方案和一些修改进行捕获杂交W及接着PCR扩增。简单的说,将500ng化-C文库在65°C与 500ng生物素化的RNA探针解育过夜。因为祀向序列(约320kb)仅为基因组的约0.01%,发明 人每个实验进行了 16个平行的杂交反应,并在测序前将最终杂交产物汇集。接着,使用链霉 亲合素包被的珠子(INVITR0GEN)下拉RNA: DNA杂交体,未结合的DNA片段被洗掉,并洗脱捕 获的产物。在捕获的产物被洗脱后,将它们在QIAGEN Mi址lute柱上脱盐,并使用11个循环 PCR扩增(FUSION)。在该实验方案中,对于每个杂交反应,所有的步骤独立地进行。换句话 说,在脱盐的捕获片段上进行几个平行的捕获后PCR反应,且每种捕获后PCR产物使用 AMPure XP珠子(Beckman Coulter)独立地纯化。接着,汇集PCR产物并接着使用真空离屯、蒸 发浓缩器(3966(1-¥曰(3)浓缩。得到的捕获-化(:文库,接着在11111111;[]13化5692500上进行下一 代测序。
[0157] 更具体的是,在制备捕获化-C文库后,所得的文库W约IX测序深度测序,使用配对 末端lOObp读出长度。理论上来说,该测序深度将足够覆盖基因组中的每个碱基一次。接着 计算整个HLA基因座中的覆盖(包括跨越基因座的所有非祀向序列)并确定为约32. IX。为了 计算HLA基因座富集,将HLA覆盖除W基因组覆盖。将所有来自捕获-HiC测序数据的单克隆 定位读出二进制化到100化二进制全基因组。运里,将落在HLA基因座W及6号染色体上靠近 的脱祀区域的每个二进制中的读出总数作图。发现祀向HLA基因座为约29M至33.4M,其相对 于6号染色体上的非祀向靠近区域表现出显著的富集。
[015引总的来说,通过在化-C文库上进行上述的捕获测序,生成了 GM12878人类类淋己母 细胞细胞系化化)的捕获-HiC文库,在HLA基因座上W约1. IX测序深度W约30倍的富集生 成。
[0159]由于单体型分析效率取决于3D染色体接触的保真度,调查了与常规化-C文库相 比,在相同的基因座捕获-HiC数据组是否保留了相对接触频率。为了该目的,将来自捕获 化-C的染色质相互作用与先前发表的来自GM12878细胞的HLA基因座的化-C数据比较。简单 的说,使用来自GM12878的捕获-HiC数据(顶部),W及来自GM12878的发表数据(Se 1 vara j 等,化t Biotechnol.2013Dec;31(12):llll),W20化二进制生成了 HLA基因座中的接触矩 阵。在生成接触矩阵前,每个数据组通过读出深度标准化,其简单地W每个矩阵值(I,j)除 W定位到基因座的读出的总数。发现在运些数据组中存在高度显著的一致性(p<〇.01)。
[0160] 除了检查捕获-HiC数据中是否保留了相对3D接触频率外,也进行了测定W更接近 的检查化-C片段的特性。首先,使用所有的捕获-HiC数据(包括通过所述实验捕获的脱祀序 列),发明人比较了捕获和常规化-C文库中的染色体内(顺式)和染色体间(反式)读出的比 例,并发现顺式:反式的比例彼此一致。第二,如果每个数据组被限制到仅定位到HLA基因座 的读出,再次发现每个数据组含有大体相同的顺式:反式比例。第S,由于化ploSeq关键地 取决于同一条同源染色体中高频率的顺式接触化-顺式)(~99%),探索了捕获-HiC数据中 的h-顺式率。发现捕获-HiC数据也含有绝大多数(约98%)的h-顺式化-C片段,因此能够进 行有效的化ploSeq分析。该分析掲示了常规化-C和捕获-HiC文库一般具有可比的顺式:反 式比率且捕获-HiC具有相似的同源性-反式相互作用,因此保留了单体型内接触频率,其对 于使用化ploSeq保持高单体型分析精确度至关重要。
[0161] 另外,进行了对捕获-HiC RNA探针灵敏度的分析。作为评价捕获-HiC探针表现的 指标,发明人分析了每个探针序列中的读出密度W及具有至少1个捕获的化-C片段的探针 总分数。为了该目的,将读出密度(Y轴)相对于每个独特的RNA探针序列(X轴)作图W生成柱 状图。该柱状图中每个垂直线代表单个独特的探针。发现在总共7885个独特探针中,7650个 (~97%)具有至少一个读出定位到由该探针祀向的序列。运提供了捕获测序方法的总体灵 敏度的某些意义。
[0162] 总的来说,W上结果示出了捕获-HiC实验方案数据是高质量数据,因此能够对单 体型模型进行精确的分析。
[0163] 接着,使用化pl〇Seq(Selvaraj等,化t Biotechnol.2013Dec;31(12):llll-8WP LCP实验方案从捕获-HiC数据进行了单体型重构。首先,从先前公开的数据获得了 GM12878 的定相信息(Genomes Project,C.等,Nature 467,1061-1073,(2010))。接着,利用 化ploSeq和局部条件性定相化CP)实验方案来生成HLA基因座里的单个单体型结构,并定相 GM12878中~95%的等位基因。将化ploSeq分析的单体型结果总结于W下表格中。接着,将 预测的单体型结构与先前报道的单体型结构比较并估算捕获-HiC的精确度为~97.7% (见 W下表2)。
[0164] 表2 [01 化]
[0166]
[0167] 如该表格中所示,在化pCUT后,发明人生成了化A基因座的完全单体型结构,并W 约96 %精确度定相了约46 %的所有杂合SNPdLCP后,W约98%精确度定相了约95 %的所有 的杂合SNP。在最终的单体型结构中,发现由化pCUT和LCP定相的SNP的精确度分别为约96% 和 99 %。
[0168] 值得注意的是,本文公开的方法是首次证明了跨越整个化A基因座的高质量单体 型分析,在单一单体型结构中不仅定相高度不同的主要和次要HLA等位基因基因座,而且还 定相一起跨越基因座的其它重要的免疫学基因和非HLA基因座。更广泛的说,运种方法学是 首次实现了使用者确定的祀向基因座的完全单体型结构化aper等,Proc化tl Acad Sci USA 110,5552-57(2013))。通过对于95%的等位基因完成精确的单体型(约98%),运一方 法可W用于个体化基因组学和群体遗传学。
[0169] W上实施例和优选实施方案的说明应当认为是说明性的,而不限制如权利要求所 确定的本发明。如将容易理解的是,可W利用上述特征的众多变化和组合而不脱离如权利 要求中所阐明的本发明。运些变化不视为脱离本发明的范围,且所有运些变化意图包括在 W下权利要求的范围内。本文引用的所有参考文献W其整体并入本文。
【主权项】
1. 一种用于对生物体全染色体单体型分析的方法,包括: 提供所述生物体的细胞,其含有具有基因组DNA的染色体组; 将所述细胞或其核与固定试剂孵育一段时间以允许所述基因组DNA原位交联,并且从 而形成交联的基因组DNA; 片段化所述交联的基因组DNA,并连接临近定位的交联并片段化的基因组DNA以形成临 近连接的复合物,所述复合物具有第一基因组DNA片段和第二基因组DNA片段; 剪切所述临近连接的复合物以形成临近连接的DNA片段; 获得多个所述临近连接的DNA片段以形成文库; 对所述多个临近连接的DNA片段测序以获得多个序列读出,和 组装所述多个序列读出以构建一个或多个染色体的染色体跨度的单体型。2. -种用于生物体的靶向单体型分析的方法,包括提供所述生物体的细胞,其含有具 有基因组DNA的染色体组;将所述细胞或其核与固定试剂孵育一段时间以允许所述基因组 DNA的原位交联,并且从而形成交联的基因组DNA;片段化所述交联的基因组DNA,并连接临 近定位的交联并片段化的基因组DNA以形成临近连接的复合物,所述复合物具有第一基因 组DNA片段和第二基因组DNA片段;剪切所述临近连接的复合物以形成临近连接的DNA片段; 使所述临近连接的DNA片段与一个多个寡核苷酸接触,所述寡核苷酸与所述临近连接的片 段的子集的预选择区域杂交,以提供与所述寡核苷酸杂交的临近连接的片段的子集,将所 述临近连接的片段的子集与所述寡核苷酸分离;对所述临近连接的DNA片段的子集测序以 获得多个序列读出,并组装所述多个序列读出以构建靶向单体型。3. 权利要求2的方法,其中所述寡核苷酸固定化到固体基质上。4. 权利要求1或2的方法,进一步包括在孵育步骤前从所述细胞分离细胞核。5. 权利要求1或2的方法,进一步包括在片段化步骤前纯化连接的基因组DNA。6. 权利要求1或2的方法,进一步包括在片段化步骤后, 使用标志物标记所述第一基因组DNA片段或所述第二基因组DNA片段; 连接所述第一基因组DNA片段和所述第二基因组DNA片段,使得所述标志物在它们之间 以形成标记的嵌合DNA分子;和 剪切所述标记的嵌合DNA分子以形成标记的、临近连接的DNA片段。7. 权利要求1或2的方法,其中通过使用限制酶消化所述连接的基因组DNA以形成消化 的基因组DNA片段进行所述片段化步骤。8. 权利要求1或2的方法,其中所述固定试剂包括甲醛,戊二醛,或福尔马林。9. 权利要求6的方法,其中通过使用标记有所述标志物的核苷酸填充所述第一和第二 基因组DNA片段的末端进行所述标记步骤。10. 权利要求9的方法,其中所述标志物是生物素。11. 权利要求10的方法,其中使用链霉亲合素进行获得步骤。12. 权利要求11的方法,其中所述链霉亲合素固定到珠。13. 权利要求6的方法,其中通过使用连接酶连接所述第一基因组DNA片段和所述第二 基因组DNA片段进行连接步骤。14. 权利要求13的方法,其中在溶液中进行连接。15. 权利要求13的方法,其中在固体基质上进行连接。16. 权利要求1或2的方法,其中使用配对末端测序片段的配对末端测序进行测序。17. 权利要求16的方法,其中每个配对末端测序读出片段的长度为至少20bp。18. 权利要求16的方法,其中每个配对末端测序读出片段的长度为20-150bp。19. 权利要求16的方法,其中每个配对末端测序读出片段的长度为20,25,30,40,50, 60,70,80,90,100,110,120,130,140,或150bp。20. 权利要求1或2的方法,其中对于每条染色体,所述文库含有至少15x序列覆盖。21. 权利要求20的方法,其中对于每条染色体,所述文库含有至少25-30x序列覆盖。22. 权利要求18的方法,其中所述第一基因组DNA片段和所述第二基因组DNA片段在同 一条染色体上。23. 权利要求22的方法,其中所述第一基因组DNA片段和所述第二基因组DNA片段原位 相距至少l〇〇bp。24. 权利要求23的方法,其中所述第一基因组DNA片段和所述第二基因组DNA片段原位 相距 100bp-100Mb。25. 权利要求24的方法,其中所述第一基因组DNA片段和所述第二基因组DNA片段原位 相距 1 OObp,1 kb,1 Okb,1Mb,10Mb,20Mb,30Mb,40Mb,50Mb,60Mb,70Mb,80Mb,90Mb,或 100Mb。26. 权利要求1或2的方法,其中所述生物体是真核生物。27. 权利要求1或2的方法,其中所述生物体是真菌。28. 权利要求1或2的方法,其中所述生物体是植物。29. 权利要求1或2的方法,其中所述生物体是动物。30. 权利要求1或2的方法,其中所述生物体是哺乳动物或哺乳动物胚胎。31. 权利要求1或2的方法,其中所述生物体是人或人胚胎。32. 权利要求31的方法,其中所述人是器官的供体或受体。33. 权利要求32的方法,其中在将所述器官移植到具有匹配单体型的受体前对所述器 官进行单体型分析。34. 权利要求1或2的方法,其中所述细胞是二倍体细胞。35. 权利要求1或2的方法,其中所述细胞是非整倍体细胞。36. 权利要求1或2的方法,其中所述细胞是癌性细胞。
【文档编号】C12Q1/68GK106062207SQ201480051354
【公开日】2016年10月26日
【申请日】2014年7月18日
【发明人】B.任, S.塞尔瓦拉, J.狄克逊, A.施米特
【申请人】路德维格癌症研究有限公司