基因组预定区域核酸测序文库的构建方法及装置的制造方法
【技术领域】
[0001] 本发明涉及生物技术领域,特别是测序技术领域,具体地涉及基因组预定区域核 酸测序文库的构建方法及装置,更具体地,涉及构建基因组预定区域核酸测序文库的方法、 确定基因组预定区域核酸序列的方法、用于构建基因组预定区域核酸测序文库的装置以及 用于确定基因组预定区域核酸序列的系统。
【背景技术】
[0002] SNP (Single Nucleotide Polymorphism),B卩单核苷酸多态性标记,又称单核苷酸 多态性,指DNA序列中单个碱基的差别。一个SNP的含义是给定的一个群体中,超过1%的 个体在给定的遗传区域内发生一次核苷酸改变,是一个物种中不同个体表型的主要遗传来 源。SNP具有数量多、分布广泛、适于快速规模化筛查、易于基因分型等优点,因此,SNP标记 成为目前最常用的第三代遗传标记。近些年来,SNP在疾病的基因诊断、制作生物高密度遗 传连锁图谱、分子标记辅助育种、数量性状位点定位等方面得到了广泛的应用。
[0003] 然而,目前的SNP检测分型方法仍有待改进。
【发明内容】
[0004] 本发明旨在至少解决现有技术中存在的技术问题之一。为此,本发明的一个目的 在于提出一种能够对SNP位点进行快速、准确、有效的检测分型,且检测特异性好、灵敏度 和覆盖度高、重复性好,成本低、操作简单、易推广的方法。
[0005] 需要说明的是,本发明是基于发明人的下列发现而完成的:
[0006] 发明人对目前常用的SNP位点检测分型技术进行了深入分析,分析结果如下:
[0007] 基因分型芯片技术具有快速和高效的优点,得到了研究人员和育种者的大量应 用。但该方法也存在一些缺点,如只能针对已知的SNP位点进行分型,仪器复杂、不易推广。 Illumina和Affymetrix等公司以及各个国家相继开发了几种重要畜牧物种的覆盖全基因 组范围的不同密度的基因芯片。
[0008] 直接测序得到SNP是检测SNP最直观的方法。特别是最近几年高通量测序技术的 发展,使得大量、快速地寻找SNP有了可能。其中重测序是最全面,密度最高的方法,能够在 全基因组范围内挖掘到SNP,indel,SV等,但成本较高,且需要有基因组信息;最近几年发 展出几种RAD的方法,在酶切位点附近寻找SNP位点,降低了测序量与成本,且对于无基因 组信息的物种也可以进行基因分型,并且可以利用不同的限制性内切酶的组合得到不同密 度的SNP位点,可以满足科研与育种工作的要求,如RAD,ddRAD,2bRAD等。
[0009] 目标区域捕获技术(Target - enrichment method)可以在样品的基因组测序之 前对目标区域进行捕获,对捕获的区域进行测序,能够降低测序的总量,从而减少费用和时 间,同时降低了后续分析的难度。可以用目标区域捕获的技术对SNP位点附近的区域进行 捕获,然后将捕获的片段进行建库,而后用测序的方法得到目标SNP位点的基因型。目前已 经发展了几种目标区域捕获技术,例如PCR、MIP、固相芯片和液相芯片,可以根据研究的需 要选择合适的技术,主要的技术指标是特异性、灵敏度、覆盖度、重复性、费用和操作性。其 中液相芯片技术具有高度的灵活性,研究者可以根据自己的需要选择位点,特异性、灵敏度 是几个方法中最高的,而且操作简便,不需要昂贵的硬件支持,成为很多研究者进行目标区 域捕获的首选。
[0010] 针对目标区域捕获进行探针设计时,通用的原则为叠瓦式,即确定一段区域后, 用探针间有overlap的方法设计探针,此方法适用于对一段区域进行捕获,或用hiseq, proton等平台对目标SNP进行捕获分型。但是当应用探针进行目标SNP捕获并应用CG平 台进行测序时,由于CG测序读长比较短(28bp+28bp),经常出现目标SNP位点被捕获但不能 被测到的情况,大大浪费了数据量。具体地:针对目标区域捕获时,如图la所示,探针设计 的方法一般如下:确定目标区域,对区域进行延伸,确定探针的长度和覆盖乘数,当乘数>1 时,设计为叠瓦式。其它考虑的重要参数包括:探针的熔解温度,探针是否含有发夹结构,探 针与参考基因组比对时可以比对到几个位置,探针的最大GC含量,重复区过滤。目前的方 法中,进行目标SNP的捕获与测序时,将目标SNP位点向两端延伸,将延伸后的片段看作目 标区域,运用与区域捕获相似的方法进行后期的捕获以及建库测序流程。但是,如图lb所 示,发明人发现,当运用相同的探针设计方案时,虽然在IIlumina的Hiseq平台,以及Ion Proton平台,打断片段为150bp~250bp,测序读长为100bp以上时,目标SNP位点大多可 被检测到,但当运用CG平台进行2-adapter建库测序时,该方案存在的问题是:目标SNP所 在的延伸区域被捕获到,由于CG平台读长较短,导致目标SNP位点未被测到,延伸区域的测 序深度呈双峰型,而目标SNP位点的测序深度低(如图3所示),因而造成了数据的浪费。 [0011] 因而,发明人根据CG测序平台及探针捕获的特点,进行了不同的探针设计探索, 以期提高目标SNP位点被捕获后测到的概率。例如,发明人多次调整了探针与目标SNP位 点的距离,探针乘数等参数。通过多次的设计探索以及实验验证,发明人最终确定了 SNP位 点捕获检测的特异性探针的最佳的参数条件:运用标准2-adapter建库方式,打断片段为 200~400bp,探针中点跟目标SNP位点的最佳距离为100bp,目标SNP位点左右各设计1条 探针,针对CG含量高于60%以及低于30%的探针,增加探针的条数。探针设计原理示意图 如图2所示。其中,利用本发明中对探针设计的改进,将目标SNP左右各设计1条探针时, 目标SNP的测序深度提高,显著提高了数据利用率(对比图3和图4)。
[0012] 本发明针对CG测序平台的特征,对目前的目标区域捕获检测SNP的方法尤其是探 针设计方面进行了重大改进,得到了适合于高通量测序技术尤其是CG测序平台的应用于 目标SNP捕获分型的方法。
[0013] 从而,根据本发明的一个方面,本发明提供了一种构建基因组预定区域核酸测序 文库的方法。根据本发明的实施例,该方法包括以下步骤:
[0014] 将基因组DNA进行片段化处理,以便获得DNA片段;
[0015] 将所述DNA片段进行片段选择,以便获得200-400bp的DNA片段;
[0016] 将所述经过片段选择的DNA片段依次进行去磷酸化和第一末端修复,以便获得经 过第一末端修复的DNA片段;
[0017] 将所述经过第一末端修复的DNA片段与第一测序接头相连,以便获得第一连接产 物;
[0018] 利用探针对所述第一连接产物进行筛选,以便获得目的片段,其中所述探针特异 性识别所述基因组预定区域的至少一部分,所述基因组预定区域包含至少一个SNP位点;
[0019] 将所述目的片段进行双链环化处理,以便获得环状双链DNA ;
[0020] 将所述环状双链DNA进行酶切处理,以便获得酶切产物;
[0021] 将所述酶切产物进行第二末端修复,以便获得第二末端修复产物;
[0022] 将所述第二末端修复产物与第二测序接头相连,以便获得第二连接产物;
[0023] 将所述第二连接产物进行DNA双链分离处理,以便获得单链DNA,所述单链DNA构 成所述基因组预定区域测序文库,
[0024] 其中,所述探针满足选自下列条件的至少之一:
[0025] (1)所述探针乘数为2,且针对一个SNP位点,两条探针分别特异性识别所述SNP 位点的上游序列和下游序列;
[0026] (2)两条探针分别特异性识别所述SNP位点的上游50bp~150bp和下游50bp~ 150bp之间的序列;
[0027] (3)所述探针的长度为80~100bp ;
[0028] (4)所述基因组预定区域为非重复序列;
[0029] (5)特异性识别GC含量高于0.6及低于0.3的基因组预定区域的探针,乘数大于 2 ;
[0030] (6)所述探针与目标序列的熔解温度为60-100摄氏度,优选80摄氏度;
[0031] (7)所述探针不包含发夹结构;
[0032] (8)所述探针与所述参考基因组上的至多2个位点匹配;
[0033] (9)所述探针选择时的窗口滑动大小为10bp。
[0034] 发明人惊奇地发现,该方法中筛选步骤所采用的满足上述条件的探针,对预定区 域SNP位点的捕获特异性好、灵敏度和覆盖度非常高,进而利用本发明的方法能够准确有 效地捕获探针特异性识别的目标序列--基因组预定区域核酸序列,从而能够有效构建获 得基因组预定区域核酸测序文库,进一步,将该核酸测序文库用于高通量测序文库尤其是 CG测序平台后,能够有效确定基因组预定区域的核酸序列尤其是基因组预定区域所包含的 所有SNP位点的信息,并且,目标SNP的测序深度高,数据利用率高,进而能够实现对基因组 预定区域SNP位点的检测和分型。并且,利用本发明的方法构建基因组预定区域核酸测序 文库,并进而用于检测基因组预定区域核酸序列以及SNP位点的基因型,特异性好、灵敏度 和覆盖度高,重复性好,且该方法成本低、操作简单、易推广。
[0035] 另外,根据本发明上述实施例的构建基因组预定区域核酸测序文库的方法还可以 具有如下附加的技术特征:
[0036] 根据本发明的实施例,在利用探针对所述第一连接产物进行筛选之前,进一步包 括对所述第一连接产物进行PCR扩增。由此,有利于富集目标序列即包含SNP位点的基因 组预定区域的核酸序列。
[0037] 根据本发明的实施例,在将所述目的片段进行双链环化处理之前,进一步包括将 所述目的片段进行PCR扩增。由此,有利于目的片段的扩繁、富集,进而有利于获得的核酸 测序文库的后续测序及基因分型。
[0038] 根据本发明的实施例,在将所述第二连接产物进行DNA双链分离处理之前,进一 步包括将所述第二连接产物进行PCR扩增。由此,有利于目标序列的扩繁、富集,进而有利 于获得的核酸测序文库的后续测序及基因分型。
[0039] 根据本发明的实施例,利用Ecopl5I酶进行所述酶切处理。由此,酶切效果好,有 利于后续步骤的进行。
[0040] 根据本发明的实施例,进一步包括:将所述单链DNA依次进行环化和滚环复制处 理。由此,获得的核酸测序文库尤其适于利用CG测序平台进行测序和基因分型。
[0041] 根据本发明的实施例,所述基因组预定区域核酸测序文库适于利用高通量测序技 术优选CG测序平台进行测序。
[0042] 根据本发明的实施例,利用液相芯片杂交捕获技术进行所述筛选。由此,筛选效果 好,对目的片段的富集准确、高效。
[0043] 根据本发明的又一方面,本发明还提供了一种确定基因组预定区域核酸序列的方 法。根据本发明的实施例,该方法包括以下步骤:
[0044] 根据前面所述的构建基因组预定区域核酸测序文库方法,构建待测样品的基因组 预定区域核酸测序文库,其中所述基因组预定区域包含至少一个SNP位点;
[0045] 对所述待测样品的基因组预定区域核酸测序文库进行测序,以便获得测序结果; 以及
[0046] 基于所述测序结果,确定所述待测样品基因组预定区域的核酸序列。
[0047] 发明人发现,本发明所采用的探针,对预定区域SNP位点的捕获特异性好、灵敏度 和覆盖度非常高,进而利用本发明的方法能够准确有效地捕获探针特异性识别的目标序 列--基因组预定区域核酸序列、构建获得基因组预定区域核酸测序文库,并基于高通量 测序技术例如CG测序平台进行测序,确定待测样品基因组预定区域核酸序列以及SNP位点 的基因型。根据本发明的实施例,利用本发明的方法进行SNP捕获检测,目标SNP的测序深 度高,数据利用率高。此外,该方法对基因组预定区域核酸序列及其包含的所有SNP位点的 捕获检测的特异性好、灵敏度和覆盖度高,重复性好,且该方法成本低、操作简单、易推广。 也即,本发明的方法能够对SNP位点进行快速、准确、有效的捕获检测分型。
[0048] 根据本发明的实施例,利用高通量测序技术优选CG测序平台进行所述测序。
[0049] 根据本发明的实施例,进一步包括:基于所述待测样品基因组预定区域的核酸序 列,确定所述SNP位点的基因型。由此,能够准确有效地实现对基因组预定区域核酸序列包 含的所有SNP位点的基因分型。
[0050] 根据本发明的另一方面,本发明还提供了一种用于构建基因组预定区域核酸测序 文库的装置。根据本发明的实施例,该装置包括:
[0051] 片段化处理单元,所述片段化处理单元用于将基因组DNA进行片段化处理,以便 获得DNA片段;
[0052] 片段选择单元,所述片段选择单元与所述片段化处理单元相连,用于将所述DNA 片段进行片段选择,以便获得200-400bp的DNA片段;
[0053] 去磷酸化和第一末端修复单元,所述去磷酸