位点发生的基因、坐标、氨基酸改变等;
[0099] 确定SMN1捕获区域内各SNP的基因型。
[0100] 5.结果分析
[0101] 1)数据产出情况
[0102] 如表3所示,所测样品在目标区域平均测序深度均在100X以上,血浆测序深度达 到 27lx。
[0103] 表3数据产出情况表
[0104]
[0106] 2) SNP phasing 情况
[0107] 我们使用父亲、母亲及先证者在SMN1基因上下游1M以内的SNP位点进行先证者 单体型构建。表4统计了该区域成功判断所属单体型的SNP的数目(phased SNP)。这些 phased SNP后续用于父亲遗传单体型判断(SNP used for Pat-Hap)及用于母亲遗传单体 型判断(SNP used for Mat-Hap)
[0108] 表4 SMN1基因相关区域phase SNP情况统计
[0109]
[0110] 3)血浆中胎儿DNA含量分析
[0111] 选择父亲为杂合而母亲为纯合的点,对血浆中胎儿DNA含量进行估计:假设母亲 基因型为AA,胎儿基因型为AT,若测得为A的reads数为a,为C的reads数为b,则血浆中 胎儿DNA含量c = 2V(a+b)。结果显示该血浆样品中胎儿DNA含量为0. 0930。
[0112] 4)胎儿基因型判断
[0113] 对SMA 1家系中孕妇外周血浆数据进行分析,利用HMM算法推测本次怀孕胎儿 SMN1基因情况,具体地,将胎儿的单体型HapO和Hapl作为隐含状态(hidden states),将 成功判断所属单体型的SNP作为观测序列(observations),根据snp位点的位置和遗传图 谱计算的相邻snp间的重组概率推算出状态转移概率(transition probabilities),根 据reads支持数计算每个snp位点支持HapO、Hapl的相对概率(Emission_probability), 然后通过惠特比算法(Viterbi algorithm)可以推断出SNP总体支持的单体型排列,获得 最可能的胎儿单体型组合。可参考Chen Sl,Ge H2, Wang X,et al.Haplotype-assisted accurate non-invasive fetal whole genome recovery through maternal plasma sequencing. Genome Med. 2〇l3, 5 (2) : l8 进打。
[0114] 为了避免重复序列区域对分析结果的影响,仅使用unique序列区域进行分析。结 果如图3所示,图上的每个点表示一个snp位点遗传自父/母HapO的概率与遗传自父/母 Hapl的概率的差值,每个小圈是一个组合判断结果,小圈形成的线在中间基线上游表示最 终判断遗传自HapO,小圈形成的线在中间基线下面表示最终判断遗传自Hap 1。从图3可看 出,Pat-Hap 0及Mat-Hap 0分别父母双方带有致病突变的单体型,Pat-Hap 1及Mat-Hap 1分别父母双方不携带致病突变的单体型。推断结果显示胎儿从其父母处获得了 Pat-Hapl 及Mat-Hapl,即不携带SMN1致病突变的染色体。表明胎儿不存在SMN1缺失。
【主权项】
1. 一种确定胎儿目标区域单体型的方法,其特征在于,包括, 对孕妇体液中游离核酸的所述目标区域进行序列测定,以便获得第一测序数据; 对所述胎儿的家系成员的所述目标区域进行序列测定,以便获得第二测序数据、第三 测序数据和第四测序数据,其中,所述第二测序数据为胎儿母亲的测序数据,所述第三测序 数据为胎儿父亲的测序数据,所述第四测序数据为先证者的测序数据; 基于所述第一测序数据、第二测序数据以及任选的第三测序数据,确定所述孕妇体液 中的胎儿核酸含量; 基于所述第二测序数据、第三测序数据和第四测序数据,分别构建所述胎儿母亲的目 标区域单体型和所述胎儿父亲的目标区域单体型;以及 基于所述胎儿母亲的目标区域单体型、所述胎儿父亲的目标区域单体型以及所述胎儿 核酸含量,确定所述胎儿的目标区域单体型。2. 权利要求1的方法,其特征在于,所述目标区域包括SMN1基因的外显子区。3. 权利要求2的方法,其特征在于,所述目标区域还包括SMN1基因内部及SMN1基因上 下游各3M区域中的次等位碱基频率为0. 3-0. 5的SNP位点。4. 权利要求1-3任一方法,其特征在于,对孕妇体液中游离核酸的所述目标区域进行 序列测包括: 利用探针对所述游离核酸进行捕获,所述探针特异性识别所述目标区域, 任选地,所述探针是以芯片形式提供的。5. 权利要求4的方法,其特征在于,所述探针包括SNP位点探针,所述SNP位点探针在 参考基因组上是唯一比对的。6. 权利要求4的方法,其特征在于,所述探针的GC含量为40-50%。7. 权利要求1的方法,其特征在于,所述胎儿核酸含量是通过下列步骤确定的: 确定所述第一测序数据和所述第二测序数据中预定位点的基因型组合,所述预定位点 在所述第一测序数据中存在两种基因型,并且所述预定位点在所述第二测序数据中只存在 一种基因型,其中,所述基因型组合选自下列组合之一: (i) 在所述第二测序数据中只存在纯合基因型RR,在所述第一测序数据中存在纯合基 因型RR和杂合基因型Rr,其中,R和r表示一对等位基因, (ii) 在所述第二测序数据中只存在杂合基因型Rr,在所述第一测序数据中有纯合基 因型RR和杂合基因型Rr ; 基于所述第一测序数据中支持所述等位基因 R和r的读段数目,确定所述胎儿核酸含 量, 其中, 如果所述基因型组合为(i),根据公式f = 2cV(C+d)确定所述胎儿核酸含量, 如果所述基因型组合为(ii),根据公式f= (c-dV(c+d)确定所述胎儿核酸含量, 其中, c为所述第一测序数据中支持等位基因 R的读段数目, d为所述第一测序数据中支持等位基因 r的读段数目, f为所述胎儿核酸含量。8. 权利要求1的方法,其特征在于,所述胎儿核酸含量是通过下列步骤确定的: 确定在所述第二测序数据和所述第三测序数据中均为不同纯合基因型的位点,其中, RR和rr表示不同的纯合基因型,R和r为一对等位基因, 基于公式f = gAg+h)确定所述胎儿核酸含量, 其中, g为所述第一测序数据中支持等位基因 r的读段数目,h为所述第一测序数据中支持等 位基因 R的读段数目。9. 权利要求1的方法,其特征在于,所述确定胎儿目标区域单体型,包括, 利用多个在父亲目标区域单体型上为杂合、在母亲目标区域单体型上为纯合的位点确 定胎儿遗传到的父亲目标区域单体型,利用多个在父亲目标区域单体型上为纯合、在母亲 目标区域单体型上为杂合的位点以及胎儿核酸含量确定胎儿遗传到的母亲目标区域单体 型。10. 权利要求9的方法,其特征在于,对于所述多个在父亲目标区域单体型上为纯 合、在母亲目标区域单体型上为杂合的位点,若有多个这样的位点符合R/r = (1+x% )/ (1-x% ),则判定胎儿遗传了母亲等位基因 R所在的目标区域单体型,若有多个这样的位点 符合R/r = 1,则判定胎儿遗传了母亲等位基因 r所在的目标区域单体型,R和r表示一对 等位基因,X%表示胎儿核酸含量,R/r =第一测序数据中支持R的读段数目/第一测序数 据中支持r的读段数目。11. 确定胎儿目标区域单体型的装置,包括, 测序单元,用于对孕妇体液中游离核酸的所述目标区域进行序列测定,以便获得第一 测序数据,以及,对所述胎儿的家系成员的所述目标区域进行序列测定,以便获得第二测序 数据、第三测序数据和第四测序数据,其中,所述第二测序数据为胎儿母亲的测序数据,所 述第三测序数据为胎儿父亲的测序数据,所述第四测序数据为先证者的测序数据; 胎儿核酸含量确定单元,与所述测序单元连接,用于基于所述第一测序数据、第二测序 数据以及任选的第三测序数据,确定所述孕妇体液中的胎儿核酸含量; 父母单体型确定单元,与所述测序单元连接,用于基于所述第二测序数据、第三测序数 据和第四测序数据,分别构建所述胎儿母亲的目标区域单体型和所述胎儿父亲的目标区域 单体型;以及 胎儿单体型确定单元,与所述胎儿核酸含量确定单元和所述父母单体型确定单元相 连,用于基于所述胎儿母亲的目标区域单体型、所述胎儿父亲的目标区域单体型以及所述 胎儿核酸含量,确定所述胎儿的目标区域单体型。
【专利摘要】本发明提供了一种确定胎儿目标区域单体型的方法及其装置。确定胎儿目标区域单体型的方法包括:对孕妇体液中游离核酸的目标区域进行序列测定,以便获得第一测序数据;对胎儿家系成员的相同目标区域进行序列测定,以便获得第二测序数据、第三测序数据和第四测序数据,其中,第二测序数据为胎儿母亲的测序数据,第三测序数据为胎儿父亲的测序数据,第四测序数据为先证者的测序数据;基于第一、第二以及任选的第三测序数据,确定述孕妇体液中的胎儿核酸含量;基于第二、第三和第四测序数据,分别构建胎儿母亲的目标区域单体型和胎儿父亲的目标区域单体型;以及基于胎儿母亲、父亲的目标区域单体型以及胎儿核酸含量,确定胎儿的目标区域单体型。
【IPC分类】C12M1/34, C12Q1/68
【公开号】CN105648045
【申请号】
【发明人】袁媛, 王垚燊, 朱红梅, 易鑫
【申请人】天津华大基因科技有限公司, 深圳华大基因科技有限公司
【公开日】2016年6月8日
【申请日】2014年11月13日