用于确定拷贝数变异的系统和方法

文档序号:9602531阅读:551来源:国知局
用于确定拷贝数变异的系统和方法
【技术领域】
[0001] 本发明总体上涉及包括用于确定拷贝数变异的系统和方法的核酸测序领域。
[0002] 相关申请
[0003] 本申请涉及2013年3月6日提交的美国临时申请第61/773,584号,其以全文引 用的方式并入本文中。
【背景技术】
[0004] 在完成人类基因组项目(Human Genome Project)后,测序行业的一个焦点已转移 到发现较高通量和/或较低成本核酸测序技术,有时称为"下一代"测序(NGS)技术。在使 得测序通量更高和/或更便宜中,目标为使得技术更可获得。这些目标可以通过使用对具 有显著复杂度的样品提供样品制备、并行地对较大数目的样品测序(例如通过使用条码和 多重分析)和/或有效处理大量信息且以及时方式完成分析的测序平台和方法达到。进化 形成各种方法,如合成测序、杂交测序和连接测序来迎接这些挑战。
[0005] 并入NGS技术的超高通量核酸测序系统通常产生大量短序列读数。序列处理方法 应合意地快速且有效地装配和/或映射大量读数,以使得使用的计算资源最小化。举例来 说,由对哺乳动物基因组测序产生的数据可以产生数千万或数亿读数,所述读数通常需要 在其可以另外经分析以确定其生物、诊断和/或治疗相关性之前经装配。
[0006] NGS技术的示例性应用包括(但不限于):基因组变异体检测,如插入/缺失、拷贝 数变异、单核苷酸多态性等;基因组重测序;基因表达分析;和基因组剖析。
[0007] 拷贝数变异(CNV)可以指示大规模染色体重排,如大型插入或缺失,其可以通常 发现于癌组织中。在一些情况下,整个染色体可以损失或复制(非整倍体),其为基因病症, 如唐氏综合症(Down syndrome)(第21对染色体三体症)、猫眼综合症(第22对染色体三 体症)、威廉姆斯综合症(Williams syndrome)(第7对染色体单体症)和各种其它病症的 常见病因。鉴别拷贝数变异可以帮助理解和判断癌症和非整倍体基因病症。
[0008] 从前文应了解的是需要可以确定拷贝数变异的系统和方法。
【附图说明】
[0009] 为了更完整地理解本文所公开的原理和其优点,现在参考下文结合附图进行的描 述,其中:
[0010] 图1为说明根据各种实施例的示例性计算机系统的框图。
[0011] 图2为根据各种实施例重构核酸序列的例示性系统的示意图。
[0012] 图3为根据各种实施例的示例性基因分析系统的示意图。
[0013] 图4为说明根据各种实施例的鉴别拷贝数变异的示例性方法的流程图。
[0014] 应理解,图式不一定按比例绘制,图式中的物件也不一定关于彼此按比例绘制。图 式为打算使得对本文所公开的设备、系统和方法的各种实施例明晰和理解的描绘。在可能 的情况下,将在整个附图中使用相同的参考数字来指代相同或类似的部分。此外,应了解, 附图并不打算以任何方式限制本发明教示的范围。
【具体实施方式】
[0015] 用于检测低频变异体的系统和方法的实施例描述于本文中。
[0016] 在各种实施例中,鉴别拷贝数变异读数的方法可以包括将读数映射到参考基因 组、对于多个图像块计算覆盖度和基于跨越所述多个图像块的覆盖模式对于图像块正规化 覆盖度。所述方法可以进一步包括对于在多个倍性状态下的所述多个图像块确定评分、跨 越图像块和贯通倍性状态确定最大评分路径以及基于最大似然路径提供拷贝数确定值。
[0017] 在各种实施例中,覆盖模式可以关于GC偏移校正。在各种实施例中,倍性状态下 的图像块的评分可以基于正规化覆盖度与调整到探索倍性状态的按比例缩放基线覆盖度 之间的差异。
[0018] 在各种实施例中,评分可以是似然函数。似然性可以使用方程式L = N(S_C,0, Sd) 确定,其中S为图像块的正规化样品覆盖度,C为图像块的按比例缩放基线覆盖度,且Sd为 覆盖度差异的标准差。
[0019] 在各种实施例中,最大评分路径可以使用动态编程算法确定。在各种实施例中,所 述方法可以进一步包括确定最大评分路径与预期倍性状态的评分比率。在各种实施例中, 所述方法可以进一步包括确定最大评分路径与最可能相邻状态的评分比率。
[0020] 在各种实施例中,鉴别重复读数的系统可以包括映射引擎和拷贝数分析模块。映 射引擎可以可操作以将读数映射到参考基因组以确定基因组起始位置和流动终点位置。拷 贝数分析模块可以包括处理引擎和拷贝数变异体主叫。处理引擎可操作以确定图像块的覆 盖度且基于覆盖模式和GC含量偏移正规化覆盖度。拷贝数变异体主叫可操作以确定以多 个倍性状态存在的图像块的评分,且跨越图像块、贯通倍性状态确定最大评分路径。
[0021] 在各种实施例中,评分可以是似然函数。倍性状态下的图像块的似然性可以基于 正规化覆盖度与按比例缩放到倍性状态的按比例缩放基线覆盖度之间的差异。似然性可以 使用方程式L = N(S_C,0, Sd)确定,其中S为图像块的正规化样品覆盖度,C为图像块的按 比例缩放基线覆盖度,且Sd为覆盖度差异的标准差。
[0022] 在各种实施例中,最大评分路径使用动态编程算法确定。在各种实施例中,拷贝数 分析模块可以进一步包括可操作以确定最大评分路径与预期倍性状态的评分比率的后处 理模块。在各种实施例中,拷贝数分析模块可以进一步包括可操作以确定最大评分路径与 最可能相邻倍性状态的评分比率的后处理模块。
[0023] 在各种实施例中,鉴别拷贝数变异读数的方法可以包括对样品进行多个扩增来产 生一组样品扩增子,和对匹配对照物进行多重扩增来产生一组对照扩增子。所述方法可以 进一步包括将具有第一条码序列的衔接子接合到样品扩增子以创建样品库,将具有第二条 码序列的衔接子接合到对照扩增子以创建对照库,和实质上同时对样品和对照库测序以避 免运行内测序变异来产生多个读数。另外,该方法可包括基于第一或第二条码序列的存在 将读数鉴别为样品读数或对照读数,和将样品读数和对照读数映射到参考基因组。另外,该 方法可包括基于映射到图像块的样品读数对于多个图像块计算样品覆盖度,基于映射到图 像块的对照读数对于图像块计算基线覆盖度,和基于跨越所述多个图像块的样品覆盖模式 或对照覆盖模式对于图像块正规化样品覆盖度和基线覆盖度。在各种实施例中,样品覆盖 模式和对照覆盖模式可以关于GC偏移校正。所述方法可以进一步包括基于图像块的正规 化样品覆盖度和基线覆盖度确定多个倍性状态下的所述多个图像块的评分,跨越图像块和 贯通倍性状态确定最大似然路径;和基于最大似然路径提供拷贝数确定值。
[0024] 在各种实施例中,倍性状态下的图像块的评分是基于正规化覆盖度与调整到探索 倍性状态的按比例缩放基线覆盖度之间的差异。评分为似然函数。似然性使用方程式L= N(S-C,0,Sd)确定,其中S为图像块的正规化样品覆盖度,C为图像块的按比例缩放基线覆 盖度,且Sd为覆盖度差异的标准差。
[0025] 在各种实施例中,所述方法可以进一步包括确定最大评分路径与预期倍性状态的 评分比率。在各种实施例中,所述方法可以进一步包括确定最大评分路径与最可能相邻状 态的评分比率。
[0026] 本文中所用的章节标题仅用于组织目的并且不应理解为以任何方式限制所描述 的主题。
[0027] 在各种实施例的此详细描述中,出于解释的目的,阐述许多特定细节以提供所公 开的实施例的透彻理解。但是,所属领域的技术人员将了解,这些各种实施例可以在具有或 不具有这些特定细节的情况下实践。在其它情况下,结构和装置以框图形式显示。此外,所 属领域的技术人员可以容易地了解的是呈现和进行方法的特定顺序为说明性的且预期顺 序可以改变且仍保持在本文所公开的各种实施例的精神和范围内。
[0028] 本申请中引用的所有文献和类似材料(包括(但不限于)专利、专利申请、文章、 书籍、论文和因特网网页)出于任何目的明确以全文引用的方式并入。除非另外描述,否则 本文中所用的所有技术和科学术语具有与本文所描述的各种实施例所属领域的一般技术 人员通常所了解相同的含义。
[0029] 应了解,在本发明教示中论述的温度、浓度、时间、碱基数目、覆盖度等之前存在隐 含的"约",使得略微和非实质偏差在本发明教示的范围内。在本申请中,除非另外明确陈 述,否则单数的使用包括复数。此外,"包含(comprise/comprises/comprising) "、"含有 (contain/contains/containing) ',和''包括(include/includes/including) ',的使用并不 打算是限制性的。应理解,以上一般描述和以下详细描述均仅是示例性和解释性的并且并 不限制本发明教示。
[0030] 如本文所用,"一(a/an) "也可指"至少一"或"一或多"。另外,使用的"或(or) " 为包含性的,使得当"A"真实、"B"真实,或"A"和"B"两者真实时,短语"A或B"真实。
[0031] 此外,除非上下文另外需要,否则单数术语应包括复数并且复数术语应包括单数。 一般来说,本文中所述的与细胞和组织培养、分子生物学以及蛋白质和寡核苷酸或聚核苷 酸化学和杂交结合使用的命名法和技术为所属领域中众所周知并常用的命名法和技术。 标准技术用于例如核酸纯化和制备、化学分析、重组核酸和寡核苷酸合成。酶促反应和纯 化技术根据制造商的说明书或如所属领域中通常所实现或如本文中所述来执行。本文中 所述的技术和程序通常根据所属领域中众所周知以及如本发明的说明书通篇中所引用和 论述的各种一般性和较特定的参考文献中所述的常规方法来执行。参看例如萨姆布鲁克 (Sambrook)等人,《分子克隆实验指南》(Molecular Cloning:A Laboratory Manual)(第三 版,冷泉港实验室出版社(Cold Spring Harbor Laboratory Press),纽约州冷泉港(Cold Spring Harbor,N. Y.) 2000)。结合本文中所述的实验室程序和技术使用的命名法是所属领 域中众所周知并且常用的命名法。
[0032] 阐述一组组分的"系统"(真实或抽象)包含一个整体,其中每一组分与整体内的 至少一个其它组分相互作用或与其相关。
[0033] "生物分子"可指通过生物有机体产生的任何分子,包括大聚合分子,如蛋白质、多 糖、脂质和核酸(DNA和RNA)以及小分子,如初级代谢物、次级代谢物和其它天然产物。
[0034] 短语"下一代测序"或NGS是指相比于传统的基于桑格(Sanger
当前第1页1 2 3 4 5 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1