>[0021] 步骤二:确定胎儿核酸含量。
[0022] 基于第一和第二测序数据,或者基于第一、第二和第三测序数据,确定所述孕妇体 液样本中的胎儿核酸含量。
[0023] 其中,基于第一和第二测序数据确定孕妇体液样本中的胎儿核酸含量,是这 样进行的:首先是筛选出在第一测序数据中有两种基因型以及在第二测序数据中只 有一种基因型的位点。位点的筛选可以通过比对来进行,比对可以利用S0AP(Short OligonucleotideAnalysis Package),bwa,samtools等软件进行,本实施方式对此不作限 制,比对的进行也可以识别出多态性位点。比对所使用的参考序列是已知序列,可以是预先 获得的目标个体所属生物类别中的任意的参考模板。例如,若目标个体是人类,参考序列可 选择NCBI数据库提供的HG19。进一步地,也可以预先配置包含更多参考序列的资源库,在 进行序列比对前,先依据目标个体的性别、人种、地域等因素选择或是测定组装出更接近的 序列来作为参考序列,有助于获得更准确的检测分析结果。在比对过程中,根据比对参数的 设置,各测序数据中的每条或每对读段(reads或一对末端读段pair-end reads)最多允许 有η个碱基错配(mismatch), η优选为1或2,若reads中有超过η个碱基发生错配,则视 为该条/对reads无法比对到参考序列。一个位点,假设在参考序列上该位点是Α,第二测 序数据的比对结果表明第二测序数据即母亲测序数据中比对上到参考序列该位点的碱基 都是A,但是第一测序数据即母亲与胎儿的测序数据的比对结果表明第一测序数据中比对 到参考序列该位点的碱基是A和另外一种非A的碱基,非A碱基比如T、C或G,由于第一测 序数据中是母亲和胎儿核酸的混合测序数据,而从第二测序数据的比对结果可知母亲的该 位点为AA,那么就可判断出第一测序数据中该位点非A碱基来源于胎儿,这样筛选出所有 这样的位点,基于这些位点在混合测序数据中占的比例,就能反映出混合核酸中胎儿核酸 的含量。类似的,若第二测序数据的比对结果表明母亲某位点的基因型为杂合的,比如AG, 而第一测序数据比对结果显示支持该位点AG和AA两种基因型,这样基于第一测序数据中 A碱基的数量、含量或比例,也能估算获得孕妇外周血样本中的胎儿核酸含量。当像上面前 者情况,在第二测序数据中只有纯合基因型、而在第一测序数据中除有一样的纯合基因型 还有杂合基因型时,胎儿核酸含量f = 2cV(C+d),而当像上面后者情况,在第二测序数据中 只有杂合基因型、而在第一测序数据中除有那杂合基因型还有纯合基因型,胎儿核酸含量f =(c-dV(c+d),公式中的c为第一测序数据中支持等位基因 A的读段数目,d为第一测序 数据中支持非A等位基因的读段数目。
[0024] 基于第一、第二和第三测序数据确定孕妇体液样本中的胎儿核酸含量,是通过以 下进行的:筛选出在第二测序数据和第三测序数据中为不同纯合基因型的位点,比如该位 点在第二和第三测序数据中的基因型分别为RR和rr,这样以遗传角度,胎儿核酸中该位点 的基因型为Rr,基于多个这种类型的位点计算孕妇外周血样本中胎儿核酸含量,胎儿核酸 含量f = gAg+h),g为第一测序数据中支持等位基因 r的读段数目,h为第一测序数据中 支持等位基因 R的读段数目。位点的筛选涉及的比对,比对参数的设置、比对结果等可参照 前面基于第一和第二测序数据估算胎儿核酸含量的描述进行。
[0025] 步骤三:构律父母的目标区域单体型。
[0026] 基于第二、第三和第四测序数据构建母亲和父亲的目标区域单体型,即基于父母 各自的测序数据和已知的该对父母的目标区域带变异的子女(先证者)的测序数据,来构 建父母各自的单体型。将父母各自的测序数据以及先证者的测序数据分别与参考序列比 对,利用软件比如SOAPsnp、GATK、bowtite等识别出父母以及先证者目标区域中的SNP和获 得各个SNP的基因型,由于先证者的两条单体型(两组SNP集合)是由父亲和母亲的各一 条单体型组成的,所以依据孟德尔遗传规律,依据父母及先证者的各个SNP所在位点的基 因型,比如利用多个区分型SNP,区分型SNP指该位点父母为不同基因型能够提供给下一代 能区分单体型来源的SNP,构建父亲和母亲的单体型。单体型倾向作为一个遗传单元遗传给 子代,在这里,单体型是一组SNP的集合。
[0027] 需要说明的是,本发明的实施方式对步骤二和步骤三的进行没有先后顺序限制, 可以先进行步骤二再进行步骤三,或者先进行步骤三获得父母目标区域单体型再进行步骤 二确定胎儿核酸含量。
[0028] 步骤四:确定胎儿目标区域单体型。
[0029] 基于母亲和父亲的目标区域单体型以及胎儿核酸含量,确定所述胎儿目标区域单 体型。具体地,利用多个在父亲目标区域单体型上为杂合、在母亲目标区域单体型上为纯 合的位点确定胎儿遗传到的父亲目标区域单体型,这是由于若胎儿某SNP位点为杂合的, 由于源自母亲的只可能为一种类型的碱基,所以就可确定该位点的另一碱基来自父亲,利 用多个这样的位点,比如可以确定超过10个这样的位点的等位基因源自父亲的一条单体 型,就能确定胎儿两条单体型中的源自父亲的那条单体型。而对于胎儿另一条单体型的确 定,可类似的利用多个在父亲目标区域单体型上为纯合、在母亲目标区域单体型上为杂合 的位点来确定,但由于胎儿核酸样本,即母体外周血样本混有大量的母体DNA,单从以上类 型SNP没法判断胎儿遗传了 R还是r所在的母亲单体型,因为该位点任何的等位碱基也都 可能就只是母体的,在这里我们结合胎儿核酸含量来确定胎儿遗传到的母亲的单体型。对 于多个在父亲单体型上为纯合、母亲单体型上为杂合的多态性位点,这样的位点在母体外 周血样本中每个都可表示为Rr,若多个这样的位点都符合R/r = (1+x% V(l-x% ),则判 定胎儿遗传了母亲等位基因 R所在的单体型,若多个这样的位点都符合R/r = 1,则判定胎 儿遗传了母亲等位基因 r所在的单体型,R和r表示一对等位基因,X%表示胎儿核酸含量, R/r =比对后第一测序数据中支持R的读段数目/比对后第一测序数据中支持r的读段数 目。由此,确定胎儿的单体型。
[0030] 本领域普通技术人员可以理解,上述实施方式中各种方法的全部或部分步骤可以 通过程序来指令相关硬件完成,该程序可以存储于一计算机可读存储介质中,存储介质可 以包括:只读存储器、随机存储器、磁盘或光盘等。
[0031] 依据本发明的另一个实施方式,提供一种确定胎儿目标区域单体型的装置,该装 置能够用以完成本发明一个实施方式中的方法的部分或全部步骤,如图1所示,该装置 1000包括:测序单元100,用以获得孕妇体液中的游离核酸,捕获目标区域,对所述捕获得 的目标区域进行序列测定,获得第一测序数据,用以捕获胎儿家系成员核酸中的同样目标 区域,对所述家系成员的同样目标区域进行序列测定,获得家系成员测序数据,所述家系成 员测序数据包括第二、第三和第四测序数据,分别对应胎儿母亲、胎儿父亲和先证者的同样 目标区域的测序数据;胎儿核酸含量确定单元200,与所述测序单元100相连,用于基于第 一和第二测序数据,或者基于第一、第二和第三测序数据,以确定所述孕妇体液样本中的胎 儿核酸含量;父母单体型确定单元300,与所述测序单元100相连,用于基于第二、第三和第 四测序数据构建母亲和父亲的目标区域单体型;胎儿单体型确定单元400,与所述胎儿核 酸含量确定单元200和所述父母单体型确定单元300相连,用于基于母亲和父亲的目标区 域单体型以及胎儿核酸含量,确定所述胎儿目标区域单体型。对本发明的一个实施方式中 的方法的技术特征和优点的描述,同样适用本发明这一实施方式的装置,在此不再赘述。
[0032] 以下结合对具体样本依据本发明的方法进行目标区域单体型的确定、基因型的确 定、单体型或基因型确定后的用途进行详细的描述及结果展示。下面示例,仅用于解释本发 明,而不能理解为对本发明的限制。在本发明中所使用的"第一"、"第二"、"第三"等仅用于 方便描述目的,而不能理解为指示或暗示相对重要性,也不能理解为之间有先后顺序关系。 本发明的描述中,除非另有说明,"多个"的含义是两个或两个以上。
[0033] 除另有交待,以下实施例中涉及的未特别交待的试剂、序列(接头、标签和引物)、 软件及仪器,都是常规市售产品或者公开的,比如购自Illumina公司的hiSeq2000测序平 台建库相关试剂盒来进行测序文库构建等。
[0034] 一般方法:
[0035] 1.目标捕获区域的选择及探针的设计
[0036] 目标捕获区域包括SMN1基因外显子区,SMN1基因内部及其上下游3M区域内高杂 合率SNP位点的捕获测序。SNP的选择参考dbSNP数据库,选择其中参考染色体数大于100 条、MAF在0. 3-0. 5之间的SNP位点。同时,为了保证检测的准确性,保证SNP位点所在序 列63mer碱基序列在基因组上为唯一比对,且GC含量在40%-50%。SMNl区域捕获区域如 表1及表2所示
[0037] 2.家系致病单体型的获得
[0038] 通过生物信息分析,对孕妇、孕妇丈夫及先证者在目标基因及其上下游区域的SNP 位点基因型进行判断。通过对三者的SNP基因型进行连锁分析,以确定与致病突变紧密连 锁的SNP位点的基因信息,并进一步获得与致病突变连锁的单体型信息。整体技术路线如 图2所示。
[0039] (1)从孕妇、孕妇丈夫及先证者的外周血中抽提基因组DNA,并使用电泳及0D对获 得的DNA进行质量检测。
当前第2页
1 
2 
3 
4