专利名称:一种水稻全基因组snp芯片及其应用的利记博彩app
技术领域:
本发明涉及分子生物学、功能基因组学、生物信息学和基因组育种领域,更具体涉及一种水稻全基因组SNP芯片及制备方法,同时还涉及这种水稻SNP芯片的用途。
背景技术:
分子标记(Molecular marker)是指应用大分子化合物,蛋白质和DNA,在生物个体间的差异来标识遗传变异的技术方法。由于蛋白质在个体间的差异较DNA小,而且难以检测,因此,大部分分子标记是利用DNA水平上的遗传多态性,也称为DNA分子标记。分子标记技术(Molecular marker technology)主要是指检测DNA变异的分子生物学技术。分子标记技术在作物研究中主要有以下4个方面的用途(I)遗传连锁图的构建和基因定位;
(2)种质资源研究和品种鉴定;(3)生物性状关联分析和系统进化研究;(4)分子育种和作物遗传改良。随着分子生物学、基因组学和生物信息学的发展,分子标记技术也逐渐向低成本、高通量、高精度方向发展。传统分子标记技术,如RFLP(Restriction Fragment LengthPolymorphism,限制性片段长度多态性)和SSR(Simple Sequence Repeat,简单序列重复)技术在过去的30年里发挥着重要作用。但是,传统的分子标记技术存在许多局限性,如通量低、数量少、操作过程繁琐,不能满足功能基因组研究的需求。另外,现代分子育种技术对分子标记的要求越来越高,要求对基因进行准确操作,要求对全基因组遗传背景进行精确控制,要求对特定性状进行精准改良,迫切需要大规模高通量的分子标记技术。因此,开发和利用新型分子标记技术,对于功能基因组研究和作物遗传改良具有重要的理论和实践意义。SNP(Single Nucleotide Polymorphism,单核苷酸多态性),是指在基因组上单个核苷酸的变异形成的DNA序列上的多态性。理论上讲,基因组DNA上任何一个核苷酸都有四种可能的碱基组成形式,但大多数情况下只有两种碱基的变异,由一个碱基发生转换(Transitions)或颠换(Transversion)而变成另一个碱基,通常转换发生的频率要高于颠换,所以SNP标记通常为双等位基因(Vignal等,A review on SNP and other typesof molecular markers and their use in animal genetics. Genet Sel EvoI.2002,34:275-306.)。SNP标记数量多,在基因组上分布广。基于SNP的新型高通量分子标记技术主要有两大类一类是基于新一代测序技术的高通量分子标记技术;另一类是基于基 因芯片技术的分子标记技术。基于第二代测序技术开发分子标记的方法已经在水稻中得到了大量应用,如Huang等利用Illumina/Solexa测序技术对水稻中一个包含150个家系的RIL (Recombinant Inbred Line,重组自交系)群体进行了全基因组低覆盖度测序获得SNP标记,对RIL进行基因分型和构建高密度遗传连锁图(Huang等,High-throughputgenotyping by whoIe-genome resequencing. Genome Res. 2009,19 :1068-1076) ;Xie 等发明了一种不依赖于亲本的RIL群体基因分型方法,利用最简约重组(Maximum Parsimonyof Recombination, MPR)原则从低覆盖度测序RIL群体基因组序列信息中获得SNP标记推测亲本基因型,大大降低了测序成本(Xie等,Parent-independent genotyping forconstructing an ultrahigh-density linkage map based on population sequencing.Proc Natl Acad Sci USA. 2010,107 :10578-10583) ;Yu 等对基于第二代测序技术开发的SNP标记构建的遗传连锁图与用传统分子标记RFLP/SSR构建的连锁图进行了比较,阐述了基于测序的SNP构建遗传连锁图在基因定位中的优势(Yu等,Gains in QTL detectionusing an ultra-high density SNP map based on population sequencing relativeto traditional RFLP/SSR markers. PLoS One. 2011,6 :el7595)。最近,利用第二代测序技术对大量水稻品种进行全基因组测序开发SNP标记,用全基因组关联分析(Genome-WideAssociation Study,GffAS)得到了许多与重要农艺性状相关的位点(Huang等,Genome-wideassociation studies of 14 agronomic traits in rice landraces. Nat Genet. 2010,42 :961-967 ;Huang 等,Genome-wide association study of flowering time and grainyield traits in a worldwide collection of rice germplasm. Nat Genet. 2011)。但是,该方法也有一些不足,低覆盖度的测序数据不能使标记覆盖每个个体,具有测序随机性,大多数个体SNP位点基因型是通过生物信息学计算得到的,不同个体之间测序的单个SNP基 因分型数据很难进行直接比较;而直接进行深度测序,即使是像水稻这样的小基因组,目前测序成本仍然很高,难以满足大规模育种需求。利用测序获得SNP标记的另一种做法是对基因组DNA先经过酶切等方法处理减小基因组的复杂性构建复杂性降低的基因组DNA文库,然后利用第二代测序技术进行深度测序,如RAD (Restriction site Associated DNA,酶切位点关联 DNA)标签测序(Baird 等,Rapid SNP discovery and genetic mappingusing sequenced RAD markers. PLoS One. 2008, 3 :e3376)。基于第二代测序技术的分子标记技术虽然通量高、灵活高效,但是短片段测序依赖于参照基因组序列、位于重复序列区域或者在参照基因组上没有的区域很难检测和分析,测序数据的处理、序列基因组定位和基因分型的计算等复杂过程对数据分析的要求较高,需要专业生物信息学人员才能完成。这些缺点一定程度上限制了该方法的广泛使用,特别是在分子育种中大规模使用。另一种高通量分子标记技术是基于基因芯片的技术。基因芯片(gene chip)又称DNA芯片(DNA chip)或DNA阵列(DNA array),指固定在玻片、硅片、尼龙膜等支持介质上的核酸分子探针所构成的点阵列(array)。基因芯片技术是20世纪80年代提出来的,在21世纪初进入飞速发展时期。基因芯片在研发初期主要应用于基因表达谱和调控网络的研究(Birnbaum 等,Agene expression map of the Arabidopsis root.Science. 2003,302 :1956-1960 ;Wang 等,A dynamic gene expression atlas coveringthe entire life cycle of rice. Plant J.2010,61 :752-766 ;ffest 等,Global eQTLmapping reveals the complex genetic architecture of transcript-level variationin Arabidopsis. Genetics. 2007,175 :1441-1450 ;ffang 等,Aglobal analysis of QTLsfor expression variations in rice shoots at the early seedling stage. PlantJ. 2010,63 :1063-1074) 0现在更多地用于基因型分型和功能基因组学的研究。基于基因芯片的分子标记技术主要有SNP基因芯片(McNally等,Genomewide SNP variationreveals relationships among landraces and modern varieties of rice. Proc NatlAcad Sci USA. 2009,106 :12273-12278)、SFP (Single Feature Polymorphism,单片段多态性)(Borevitz 等,Large-scale identification of single-feature polymorphismsin complex genomes. Genome Res. 2003,13 :513-523)、DArT 技术(Diversity ArrayTechnology,多样性芯片技术)(Jaccoud 等,Diversity arrays a solid statetechnology for sequence information independent genotyping. Nucleic AcidsRes. 2001,29 :E25)、RAD 技术(Miller 等,RAD marker microarrays enable rapidmapping of zebrafish mutations. Genome Biol. 2007,8 R105 ;Miller 等,Rapid andcost-effective polymorphism identification and genotyping using restrictionsite associated DNA(RAD)markers. Genome Res. 2007,17 :240-248.)等。最初开发的基因表达谱芯片就可以应用于检测SFP,,用基因组DNA或RNA与基因表达谱芯片上的寡居核苷酸探针杂交即可,不需要专门开发标记基因芯片,但是该方法获得的标记检测结果假阳性高(Kumar 等,Single feature polymorphism discovery in rice. PLoS One. 2007,2 e284 ;Luo 等,SFP genotyping from affymetrix arrays is robust but largelydetects cis-acting expression regulators. Genetics. 2007,176 :789-800.)。DArT和RAD技术虽然不依赖于基因组序列,但是构建基因组文库费时费力,并且只能达到中等密度和通量,很难满足分子育种中大规模、高密度和高精度要求。RAD芯片技术后来发展为利用第二代测序技术开发SNP标记(Hohenlohe等,Population genomics ofparallel adaptation in threespine stickleback using sequenced RAD tags. PLoS Genet. 2010,6 e 1000862 ;Emerson 等,Resolving postglacial phylogeography usinghigh-throughput sequencing. Proc Natl Acad Sci USA. 2010,107 :16196-16200)。SNP芯片是基因芯片技术中最适合用于大规模育种的基因分型技术。目前,玉米中IllrnninaInfinium MaizeSNP50芯片用于种质资源鉴定和关联分析(Ganal等,A large maize (Zeamays L.)SNP genotyping array !development and germplasm genotyping, and geneticmapping to compare with the B73 reference genome. PLoS One. 2011,6 e28334 ;Cook等,Genetic architecture of maize kernel composition in the nested associationmapping and inbred association panels. Plant physiology. 2011),水稻中 AffymetrixGeneChip Rice 44K基因芯片用于水稻种质资源遗传多样性分型和全基因组关联分析(Zhao 等,Genome-wide association mapping reveals a rich genetic architectureof complex traits in Oryza sativa. Nat Commun. 2011,2 :467),而不同密度的 IlluminaGoldenGate SNP基因芯片已经应用于水稻分子育种(Zhao等,Genomic diversity andintrogression in 0. sativa reveal the impact of domestication and breeding onthe rice genome. PLoS One. 2010,5 el0780 ;Chen 等,Development and applicationof a set of breeder-friendly SNP markers for genetic analyses and molecularbreeding of rice(Oryza sativa L.). Theor Appl Genet. 2011,123 :869-879 ;Thomson等,High-throughput single nucleotide polymorphism genotyping for breedingapplications in rice using the BeadXpress platform. Mol Breeding. 2011 :1-12)。水稻中GoldenGate SNP芯片虽然很多,但是由于技术的限制,一张芯片上的标记数一般不超过3000,很难满足育种中全基因组背景精确控制的需求,迫切需要高通量、重复性好、技术成熟的水稻育种芯片。 Illumina公司的Infinium SNP芯片技术是目前比较成熟和应用广泛的全基因组SNP检测平台。它应用激光共聚焦光纤微珠芯片技术和独特的微珠阵列BeadAiray技术生产的芯片可以承载巨大的微珠——SNP数目。目前该公司生产的人类SNP芯片最多可容纳110万个SNP标记(http://www. illumina. com)。在芯片制作时,每个包含50个脱氧核苷酸的SNP探针序列与特定的微珠耦联,微珠种类根据承载的SNP数目决定,从几千至百万以上,每类微珠由其特定的地址序列和SNP探针序列进行编码和检测。每种类型的微珠在每张芯片上平均重复30次,从而保证每个SNP被检测的成功率和可重复性。IlluminaInfinium SNP芯片在人类、小鼠、玉米等物种的基因组变异研究中已得到广泛应用,但在水稻中还没有这类芯片的报道。为了使水稻功能基因组研究成果得到利用,不断满足水稻大规模商业化育种需求,申请人设计制作了这款SNP基因芯片。
发明内容
本发明的目的在于提供了一种水稻全基因组SNP芯片,命名为RICE6K水稻SNP芯片。该芯片上的SNP位点包括两类,一类是从水稻品种测序数据中筛选出的多态性好并且具有代表性的SNP位点设计探针(本文称为第一类探针),另一种是根据文献报道的已克隆的水稻重要功能基因的与功能相关的SNP/INDEL位点设计的探针(本文称为第二类探针)。其中,第一类探针包含从核心亲本基因组序列及520个水稻品种重测序数据比较分析中筛选出的5,556个SNP位点,第二类探针包含与40个水稻功能基因的功能位点相关的80个SNP/INDEL位点,总共检测5,636个SNP/INDEL位点。RICE6K水稻SNP芯片是采用IlluminaInfinium专利制造技术(美国专利,US Patent#US6, 429, 027)制作的光纤微珠芯片,每张芯片可同时检测24个样品。本发明的另一个目的是提供了一种水稻全基因组SNP芯片及制备方法,用于本发明的水稻SNP检测芯片的特异性探针。本发明获得的5,636个SNP/INDEL位点具有SEQIDNo. 0001 SEQ ID No. 5636所示的DNA序列和特征。本发明所说的RICE6K水稻全基因组SNP芯片是指根据这5,636条序列利用Infinium专利设计制造技术(美国专利,USPatent#US 6,429,027)制作的芯片。本发明所说的RICE6K水稻全基因组SNP芯片上的SNP/INDEL位点是指SEQ ID No. 0001 SEQ ID No. 5636所示的序列中方括号([])中的核苷酸。本发明的再一个目的在于提供了一种水稻全基因组SNP芯片在检测水稻DNA样品(水稻种质资源分子标记指纹分析、籼稻和粳稻杂交群体基因型、育种材料的遗传背景、水稻种子)中的应用,由于该芯片设计时倾向于挑选在籼稻和粳稻两个亚种间具有多态性的SNP位点,所以优选检测籼稻和粳稻两个亚种间的杂交群体,同时还适用于检测籼稻或粳稻亚种内的杂交群体。该芯片可以对水稻品种资源进行分子标记指纹分析、对杂交群体后代进行基因型鉴定、对具体材料的重要功能基因进行鉴定和表型预测。一种水稻全基因组SNP芯片的制备方法,包括以下步骤URICE6K SNP芯片上的第一类探针的获得申请人:利用Illumina新一代测序技术对水稻核心亲本材料进行了基因组测序。另外,2010年年底,Huang等公布了 520个水稻地方品种的基因组重测序数据(Huang等,Genome-wide association studies of 14 agronomic traits in rice landraces. NatGenet. 2010,42 :961-967)。申请人从公共数据库下载了此数据,并以日本晴基因组(MSU第 6. I 版,http:"rice. plantbioloRY. msu. edu/)为参考序列,使用 MAQ 软件(http://sourceforRe. net/pro iects/maq)将这些基因组序列数据进行匹配分析。探针设计的具体步骤如下(I)先按照下述标准鉴定得到了 4,236,029个高质量SNP 仅当测序序列在基因组上的匹配分数(mapping quality)至少为20时,该序列才用于鉴定SNP ; 计算基因组上每位点不同碱基的测序质量分数(base quality)的总和,SNP位点必须只有两种碱基的测序质量分数总和大于100,并且这两种碱基每种都有至少10条测序序列支持;SNP位点的两种碱基每种至少有5条匹配分数超过40的序列支持,并且对应的碱基测序质量都超过20 ;该SNP位点总的测序覆盖度大于或等于50并小于或等于1000。(2)进一步使用更严格的标准获得1,559,745个候选SNP 除去在至少5个品种中呈现杂合状态的SNP位点;
除去测序覆盖度小于80或大于800的SNP位点; 将所有品种分为籼稻和粳稻,并计算SNP的次要等位基因在这两个亚种中的频率,除去在所有品种、籼粳亚种中次要等位基因频率均小于0. 2的SNP ; 除去仍然与左右两侧SNP距离均小于50bp的SNP。(3)由于探针长度为50bp,设计时需要选择较保守序列,以免影响杂交。为了获得合适的探针,申请人还做了以下分析 分别提取SNP左侧和右侧50bp序列(如果50bp内含有其他SNP,则不提取),使用 BLAT 程序(Kent 等,BLAT-the BLAST-Iike alignment tool. Genome Res. 2002,12 656-664.)比对基因组。如果两侧序列在基因组上均存在两个或以上同一性(identity)超过85%的匹配,则去除该SNP ; 分别提取籼稻品种珍汕97和明恢63(见遗传资源表I)对应的SNP左侧和右侧50bp序列,并与粳稻日本晴参照序列(MSU第6. I版,http://rice. plantbioloRY. msu.edu/)相比较,如果两侧序列均不一致,去除该SNP。通过上述分析,申请人获得了 105,5959个符合探针设计要求的SNP,其中有35. 5%的SNP基本已在籼粳亚种中固定(籼粳亚种内占主要地位的等位基因类型不同,并分别占据90%以上的比例),42. I %的SNP在籼稻亚种中具有多态性,而16. 9%的SNP在粳稻亚种中具有多态性。申请人:进一步分析了 SNP之间的连锁不平衡。将染色体分为每IOOkb—个区段,计算区段内所有SNP两两之间的r2(r为皮尔森相关系数,Pearson correlationcoefficient)。经过尝试,申请人以r2 = 0. 64作为阈值,利用一种贪婪算法(Carlson等,Selecting a maximally informative set of single-nucleotide polymorphismsfor association analyses using linkage disequilibrium. Am J Hum Genet. 2004,74 106-120.),将相互间r2彡0. 64的SNP分为一组,一共获得86,075组SNP。由于组内的SNP高度连锁不平衡,只需要取一个代表性的SNP即可提供同组SNP的大部分信息。每组选择最多 3 个 SNP,共获得 187,284 个“标签 SNP(tag SNP) ”。这些 SNP 由 Illumina 公司(http://www. illumina. com/)进行打分,去除Score分值小于0. 6的SNP,共获得115,740可供定制芯片的SNP。由于该芯片设计主要针对籼稻和粳稻两个亚种间杂交群体的鉴定及分型,因此申请人根据SNP在籼粳亚种中的分布情况,将染色体分为IOOkb —个区间,每个区间优先选择籼粳两个亚种间基本固定的SNP,如果不够两个,则选择其他类型的SNP。由于Infinium技术的原因,A/T、G/C变化的SNP需要使用两个探针检测(Infinium I),而其他类型的SNP只需要一个探针(Infinium II)。为了在芯片上放置尽可能多的SNP,申请人定义了一套打分系统。根据经验尝试的结果,定义:总分S = MAF*100+ (非A/T、G/C变化的SNP) *3. 5 (其中MAF为Minor allele frequency,最小等位基因频率)。去除总分S小于33的SNP,最后共获得5,556个SNP位点。2、RICE6K SNP芯片上的第二类探针的获得到2010年年底,水稻中已经成功克隆了 600多个基因,其中大量基因控制重要农艺性状如产量、品质、抗生物和非生物胁迫、营养利用效率等,这些基因具有很大的育种潜力(Jiang Rice functional genomics research Progress and implications forcrop genetic improvement. Biotechnol Adv. 2011)。申请人希望能够一次性对部分功能基因进行鉴定,于是设计了基因功能性SNP/INDEL探针。具体步骤如下
首先,查询大量文献从公共数据库(http://www.ncbi.nlm.nih.gov)中获得功能基因的不同等位基因形式,特别是在水稻品种间能够反映基因功能的序列差异。如果不同等位基因之间的功能性差异为单碱基的差异(SNP)并且单侧有50个碱基是相同的,那么直接用这50个碱基的保守序列作为候选探针位点;如果功能性位点是插入或缺失(INDEL)的差异,则使用两种方法设计探针,一种是将INDEL转换为SNP检测,即根据INDEL单侧保守序列设计探针,插入序列的第一个碱基和缺失序列的下一个碱基差异作为待测SNP(共显性标记),另一种方法是探针直接设计在INDEL序列上,使得插入的等位基因能够杂交检测到信号,而缺失的等位基因杂交不上只有极低的检测信号(显性标记)。用这种方法共设计了 80个SNP/INDEL候选探针位点,可检测40个水稻功能基因。以上两种方法获得的候选探针序列位点共5,636个,按照Illumina InfiniumiSelectHD要求设计探针制作芯片。两种方法获得的探针序列位点特征没有明显差异,在芯片制作过程中不加以区分,芯片制成之后两类探针的芯片检测实验操作也完全相同,视为同一套探针组。第一批芯片制作得到符合检测要求的有效位点数5,102个,包含30多个基因的68个功能性位点。以下实验检测结果均指第一批芯片的检测结果。一种RICE6K水稻SNP芯片在检测水稻DNA样品中的应用,包括下列步骤I.水稻基因组DNA提取根据检测需要从水稻种子、叶片等组织抽提基因组DNA。其中水稻幼嫩叶片DNA抽提推荐采用Promega植物基因组抽提试剂盒按照标准流程抽提。2. DNA样品质量检测用质量分数为I %的琼脂糖凝胶电泳检测,用凝胶成像系统判断电泳结果,保证基因组DNA完整性好,且该基因组DNA片段长度大于IOkb ;用紫外分光光度计测量基因组DNA中蛋白质和有机物质污染水平,基因组DNAA260/280比值应在I. 8-2. 0之间,A260/230比值应在I. 8-2. 2之间。将DNA浓度稀释到工作浓度50ng/ul。3.基因芯片检测按照11 lumina Infinium基因芯片检测标准流程操作(Infinium HD Assay Ultra Protocol Guide, http://www.illumina.com/)。芯片扫描使用Illumina HiScan芯片扫描仪。4.数据分析Illumina HiScan扫描结果用GenomeStudio软件分析基因型。本发明与其他分子标记技术相比,具有以下优点和效果I)通量高。芯片上包含5000多个SNP位点,按照Illumina Inf inium检测标准流程3天就可以得到一个样本的分布于全基因组的约4500个位点的基因型,I张芯片可以同时检测24个样品,一个流程可以做8张芯片,即3天可以得到192个样品共86. 4万个数据点(4500*24*8);2)重复性好。不同批次检测同一份样品技术重复达到99. 9%以上,其重复性和准确性比同类芯片技术好;3)适用性广。由于大多数SNP位点是来自于520多个水稻品种的测序数据,这些SNP位点具有广泛的代表性。根据申请人对100多份水稻种质资源初步检测结果,籼稻之间、粳稻之间、籼稻和粳稻之间能够检测到的多态性SNP位点平均分别约为800、1000和2600个,可广泛适用于不同类型的水稻品种特别是籼稻和粳稻两个亚种间杂交群体的基因分型;4)基因功能预测。芯片中包含已克隆的40个水稻重要功能基因的80个功能性SNP/INDEL位点,检测这些位点就知道材料中这些基因的功能,根据基因功能推测其表型,普通分子标记技术仅针对个别基因开发功能性标记。
图I.为一种基因功能性SNP/INDEL探针设计例子的示意图。图中显示的是水稻中的“绿色革命基因” Sd-I两种等位基因一高杆基因型(Nipponbare,日本晴)与DGWG(Dee-geo_woo-gee,矮源低脚乌尖)类半矮杆基因型(Milyang 23,密阳23)的序列比对。相对于野生型Sd_l,DGWG类突变型sd_l从第一个外显子中部起有383 bp的缺失,包括外显子I和2的278 bp序列及105 bp的内含子(Monna等,Positional cloning of rice semidwarfing gene, sd_l rice “green revolutiongene,,encodes a mutant enzyme involved in gibberellin synthesis. DNA Res. 2002,9 :11-17.)。针对这383bp的INDEL申请人设计了 3条探针探针IDOlgOOSDl. I和IDOlgOOSDl. 2为INDEL探针,探针序列位于INDEL内部,野生型基因组DNA与探针杂交分别延伸一个碱基A和C而检测到高信号,DGWG类突变型由于缺失探针对应的基因组序列不能与探针杂交而只有极低的信号;0s01g66100. I为SNP探针,探针序列位于INDEL边界,边界正好有个SNP的差异(T/A),可以作为普通SNP探针检测,检测该位点为T则为野生型,A为突变型。方框表示Sd-I基因起始密码子ATG,箭头表示探针序列所在位置和方向,三角型指不的喊基为探针与基因组DNA杂交后延伸的喊基。图2.为一种Sd-I基因功能性SNP和INDEL探针检测效果示意图。水稻株高基因Sd-I功能性SNP/INDEL探针设计见图I.该图显示71个水稻DNA样品的检测结果。SNP探针0s01g66100. I检测结果表明,26个样品为野生型(AA基因型),21个为DGWG (Dee-geo-woo-gee,矮源低脚乌尖)类(BB基因型),另外21个为杂合(AB基因型);INDEL探针IDOlgOOSDl. I检测结果表明50个样品的Sd-I基因至少有一个等位基因383 bp没有缺失,与野生型一致,其他的样品与DGWG类一致。图3.为一种RICE6K水稻SNP芯片上所有探针位点在全基因组上分布示意图。参照基因组为日本晴(水稻基因组MSU注释第6. I版),染色体上的每一条短线表示I个SNP位点,三角形指示着丝粒的位置。图4.为一种籼稻之间、粳稻之间以及籼稻和粳稻之间多态性SNP频率分布示意图。RICE6K SNP芯片检测106份水稻种质资源(18个粳稻,88个籼稻)后两两之间的比较。4a为籼稻(indica)之间,4b为粳稻(japonica)之间,4c为籼稻和粳稻两个亚种之间。图5.为一种RICE6K水稻SNP芯片对籼稻和粳稻杂交得到的一个F2植株检测的
结果示意图。粳稻巴里拉(Balilla)和籼稻南京11 (Nanjing 11)杂交F2植株全基因基因型。AA为巴里拉纯合基因型,BB为南京11纯合基因型,AB为杂合基因型,圆点表示着丝粒位置。图6.为一种回交育种定向改良材料的背景分析示意图。
该图显示B亲本供体基因导入A亲本回交BC4F1的两个家系基因型。染色体上的短线表示含有供体亲本基因型,即为杂合基因型AB,圆点表示目标基因所在的位置,三角形指示着丝粒位置。图7.为籼稻品种93-11与其衍生系安选6号之间差异位点分布示意图。第8染色体上每条黑色短线代表一个差异SNP位置。三角形指示着丝粒位置。
具体实施例方式实施例I :RICE6K SNP芯片制备方法URICE6K SNP芯片上的第一类探针的获得申请人:利用Illumina新一代测序技术对水稻核心亲本材料进行了基因组测序。另外,2010年年底,Huang等公布了 520个水稻地方品种的基因组重测序数据(Huang等,Genome-wide association studies of 14 agronomic traits in rice landraces. NatGenet. 2010,42 :961-967)。申请人从公共数据库下载了此数据,并以日本晴基因组(MSU第 6. I 版,http:"rice. plantbioloRY. msu. edu/)为参考序列,使用 MAQ 软件(http://sourceforRe. net/pro iects/maq)将所有品种重测序数据匹配到参考序列。探针设计的具体步骤如下(2)先按照下述标准鉴定得到了 4,236,029个高质量SNP 仅当测序序列在基因组上的匹配分数(mapping quality)至少为20时,该序列才用于鉴定SNP ; 计算基因组上每位点不同碱基的测序质量分数(base quality)的总和,SNP位点必须只有两种碱基的测序质量分数总和大于100,并且这两种碱基每种都有至少10条测序序列支持;SNP位点的两种碱基每种至少有5条匹配分数超过40的序列支持,并且对应的碱基测序质量都超过20 ;该SNP位点总的测序覆盖度大于或等于50并小于或等于1000。。(2)进一步使用更严格的标准获得1,559,745个候选SNP 除去在至少5个品种中呈现杂合状态的SNP位点; 除去测序覆盖度小于80或大于800的SNP位点; 将所有品种分为籼稻和粳稻,并计算SNP的次要等位基因在这两个亚种中的频率,除去在所有品种、籼粳亚种中次要等位基因频率均小于0. 2的SNP ; 除去通过上一步后仍然与左右两侧SNP距离均小于50bp的SNP。
(3)由于探针长度为50bp,设计时需要选择较保守序列,以免影响杂交。为了获得合适的探针,申请人还做了以下分析 分别提取SNP左侧和右侧50bp序列(如果50bp内含有其他SNP,则不提取),使用 BLAT 程序(Kent 等,BLAT-the BLAST-Iike alignment tool. Genome Res. 2002,12 656-664.)比对基因组。如果两侧序列在基因组上均存在两个或以上同一性(identity)超过85%的匹配,则去除该SNP ; 分别提取籼稻品种珍汕97和明恢63 (见遗传资源表I)对应的SNP左侧和右侧50 bp序列,并与粳稻日本晴参照序列(MSU第6. I版,http://rice, plantbiology. msu.edu/)相比较,如果两侧序列均不一致,去除该SNP。通过上述分析,申请人获得了 105,5959个符合探针设计要求的SNP,其中有35. 5%的SNP基本已在籼粳亚种中固定(籼粳亚种内占主要地位的等位基因类型不同,并占据90 %以上的比例),42. I %的SNP在籼稻亚种中具有多态性,而16. 9 %的SNP在粳稻亚种中具有多态性。 申请人:进一步分析了 SNP之间的连锁不平衡。将染色体分为每IOOkb—个区段,计算区段内所有SNP两两之间的r2(r为皮尔森相关系数,Pearson correlationcoefficient)。经过尝试,申请人以r2 = 0. 64作为阈值,利用一种贪婪算法(Carlson等,Selecting a maximally informative set of single-nucleotide polymorphismsfor association analyses using linkage disequilibrium. Am J Hum Genet. 2004,74 106-120.),将相互间r2彡0. 64的SNP分为一组,一共获得86,075组SNP。由于组内的SNP高度连锁不平衡,只需要取一个代表性的SNP即可提供同组SNP的大部分信息。每组选择最多 3个SNP,共获得 187,284 个“标签 SNP (tag SNP)”。这些 SNP 由 Illumina 公司(http://www. illumina. com/)进行打分,去除Score分值小于0. 6的SNP,共获得115,740可供定制芯片的SNP。由于该芯片设计的主要针对籼稻和粳稻两个亚种间杂交群体的鉴定及分型,因此申请人根据SNP在籼粳亚种中的分布情况,将染色体分为IOOkb —个区间,每个区间优先选择两个籼粳亚种间基本固定的SNP,如果不够两个,贝U选择其他类型的SNP。由于Infinium技术的原因,A/T、G/C变化的SNP需要使用两个探针检测(Infinium I),而其他类型的SNP只需要一个探针(Infinium II)。为了在芯片上放置尽可能多的SNP,申请人定义了一套打分系统。根据经验尝试的结果,定义:总分S = MAF*100+ (非A/T、G/C变化的SNP) *3. 5 (其中MAF为Minor allele frequency,最小等位基因频率)。去除总分S小于33的SNP,最后共获得5,556个SNP位点。2、RICE6K SNP芯片上的第二类探针的获得到2010年年底,水稻中已经成功克隆了 600多个基因,其中大量基因控制重要农艺性状如产量、品质、抗生物和非生物胁迫、营养利用效率等,这些基因具有很大的育种潜力(Jiang Rice functional genomics research Progress and implications forcrop genetic improvement. Biotechnol Adv. 2011)。申请人希望能够一次性对部分功能基因进行鉴定,于是设计了基因功能性SNP/INDEL探针。具体步骤如下首先,查询大量文献从公共数据库(http://www.ncbi.nlm.nih.gov)中获得功能基因的不同等位基因形式,特别是在水稻品种间能够反映基因功能的序列差异。如果不同等位基因之间的功能性差异为单碱基的差异(SNP)并且单侧有50个碱基是相同的,那么直接用这50个碱基的保守序列作为候选探针位点;如果功能性位点是插入或缺失(INDEL)的差异,则使用两种方法设计探针,一种是将INDEL转换为SNP检测,即根据INDEL单侧保守序列设计探针,插入序列的第一个碱基和缺失序列的下一个碱基差异作为待测SNP(共显性标记),另一种方法是探针直接设计在INDEL序列上,使得插入的等位基因能够杂交检测到信号,而缺失的等位基因杂交不上只有极低的检测信号(显性标记)(图I和图2)。用这种方法共设计了 80个SNP/INDEL候选探针位点,可检测40个水稻功能基因。以上两种方法获得的候选探针序列位点共5,636个,按照Illumina InfiniumiSelectHD要求设计探针制作芯片。第一批芯片制作得到符合检测要求的有效SNP/INDEL位点为5,102个,这些位点在全基因组上的分布如图3所示。实施例2 RICE6K水稻SNP芯片在检测水稻DNA样品中的应用
I.水稻基因组DNA提取根据检测需要从水稻种子、叶片等组织抽提基因组DNA。其中水稻幼嫩叶片DNA抽提采用Promega植物基因组抽提试剂盒按照标准流程抽提(Wizard Magnetic 96 DNA Plant System Kit,货号 FF3760 或 FF3761,美国 Promega 公司)。2. DNA样品质量检测用质量分数为I % (W/W)的琼脂糖凝胶电泳检测,用凝胶成像系统(Gel Doc XR System,美国Bio-Rad公司)判断电泳结果,保证基因组DNA完整性好,且该基因组DNA片段长度大于IOkb ;用紫外分光光度计(NanoDrop2000,美国ThermoScientific公司)测量基因组DNA中蛋白质和有机物质污染水平,基因组DNA A260/280比值应在I. 8-2. 0之间,A260/230比值应在I. 8-2. 2之间。将DNA浓度稀释到工作浓度50ng/
ul O3.基因芯片检测按照11 lumina Inf inium基因芯片检测标准流程操作(Infinium HD Assay Ultra Protocol Guide, http://www.illumina.com/)。芯片扫描使用 Illumina HiScan 芯片扫描仪(HiScan,美国 Illumina 公司)。4.数据分析Illumina HiScan 扫描结果用 GenomeStudio 软件(http://www.illumina. com/)分析基因型实施例3 RICE6K水稻SNP芯片在水稻种质资源分子标记指纹分析中的应用利用RICE6K SNP芯片,申请人对106份微核心水稻种质资源进行分子标记指纹分析。RICE6K芯片检测这106份水稻品种基因组DNA,在5,102个有效检测位点中,有636个位点在大于3个品种中检测基因型为杂合位点,申请人认为这些位点的检测能力较差,剩余4466个高质量位点用于106个品种的基因分型。根据基因分型结果对这106份水稻品种进行聚类分析,结果发现全部18份粳稻聚为一类,其他88份籼稻聚为另一类。申请人分析了这批RICE6K SNP芯片能够检测到的任意两个品种之间多态性SNP位点数。结果表明,粳稻与粳稻之间,籼稻与籼稻之间,籼稻与粳稻两亚种之间多态性SNP比例平均分别为18. 2%、23. 4%和 58. 9% (图 4),对应位点数为 813、1046 和 2630 个。该结果表明,RICE6K SNP芯片可优先适用于检测籼稻与粳稻两亚种之间杂交群体基因分型,也可用于粳稻与粳稻之间、籼稻与籼稻之间杂交群体,具有广泛的适应性。实施例4 RICE6K水稻SNP芯片在检测籼稻和粳稻杂交F2群体基因型中的应用粳稻巴里拉(Balilla)和籼稻南京11 (Nanjing 11)(见遗传资源表2)杂交Fl植株上收获的种子在室内发芽,取发芽一周的幼嫩叶片抽提基因组DNA进行基因芯片实验,同时以亲本巴里拉、南京11以及杂种Fl为对照(亲本一次重复,杂种两次重复)。经过分析,亲本巴里拉和南京11之间有差异,并且在双亲中判断为纯合基因型、在杂种Fl两次重复均判断为杂合基因型的位点共有3,775个,占有效位点数的74.0% (3775/5102),用这些位点对F2群体的67个单株进行基因分型(图5)。两亲本巴里拉和南京11具有明显的表型差异。巴里拉是典型的粳稻品种,半矮杆、植株紧凑、穗子小、籽粒卵圆形,而南京11是典型的籼稻品种,高杆、植株披散、穗子大、籽粒椭圆型。利用RICE6K SNP芯片检测,两亲本相关功能基因基因型结果与表型相符(表I),并且在F2群体中有分离。例如水稻Sd-I基因(MSU L0C_0s01g66100)SNP探针0s01g66100. I检测71个单株(2亲本+2杂种F1+67杂种F2)有26个为巴里拉纯合基因型(AA),21个为南京11纯合基因型(BB),其余24个为杂合基因型(AB)(图2a) ;INDEL探针IDOlgOOSDl. I检测结果有50个单株为插入基因型(巴里拉纯合基因型和杂合基因型),其余21个为缺失基因型(南京11纯合基因型)(图2b),两者结果一致。
该结果表明,RICE6K SNP芯片对籼稻和粳稻两个亚种间的杂交群体具有很好的基因分型能力,并且对重要功能基因型具有很好的检测能力。表I.巴里拉和南京11部分功能基因检测结果
某K型
基因 MSU位点探针 m田护土口土古丄”_巴里拉南足11
Sd-IL0c_0s01g66100IDOlgOOSDl. I半矮杆高杆
IDOlgOOSDl.2半矮杆高杆
0s01g66100.1半矮杆高杆
TAClL0c_0s09g359800s09g35980.1植株紧凑植株披散
GnlaLOC—OsOlglOl 10OsOlglOl 10.1小穗大穗
OsOlglOl 10.2小穗大穗
SaFL0c_0s01g396700s01g39670.1粳型籼型
S5L0c_0s06gll0100s06gll010.1粳型籼型
0s06gl 1010.2 粳型籼型GW2 L0c_0s02gl4720 0s02gl4720.2 宽粒窄粒qSW5/GW5 GeneBank AB433345 Os05g00GW5.1 宽粒窄粒_ID05g00GW5.3 宽粒_窄粒实施例5 RICE6K水稻SNP芯片在检测水稻育种材料的遗传背景中的应用为了检验RICE6K水稻SNP芯片在育种中的应用效果,申请人对回交育种中间材料进行了遗传背景分析。供体亲本B (籼稻)两个优异基因导入受体亲本A(粳稻)以改良A亲本的缺陷。经过4轮回交得到BC4F1,回交过程中用传统分子标记(SSR)进行目标基因前景选择,以保证优异基因在回交过程中没有丢失。用RICE6K SNP芯片检测了经过表型筛选和SSR分子标记辅助选择得到的BC4F1材料29份,具有代表性的两个家系基因型结果如图6所示。图6a所示的家系除了目标基因区段以外,其他背景基因型都与受体亲本一致,而图6b所示的家系除目标基因区段以外,在第4、8和9染色体有三个区段带有供体亲本片段。为了尽量保持A亲本的优良特性,优先选择图6a所示的家系进行后续育种工作。该结果表明,RICE6K水稻SNP芯片可以成功分析籼稻和粳稻两个亚种间回交育种群体的遗传背景,并指导育种。用传统SSR等分子标记分析遗传背景不仅费时费力,并且由于数量有限不能覆盖整个基因组。RICE6K水稻SNP芯片可以准确、快速、高效地进行全基因组遗传背景选择,优先用于籼稻和粳稻两个亚种间杂交群体,即使是用于亚种内的杂交群体,其标记密度也远高于传统SSR等分子标记。实施例6 RICE6K水稻SNP芯片在检测水稻种子真实性中的应用 目前我国三系杂交水稻种子真实性检测仅使用24个SSR位点判断是否是相同品种(中华人民共和国国家标准GB/T20396-2006)。申请人使用RICE6K水稻SNP芯片检测了两份杂交水稻种子真实性,第I份待测样品与标准样品(特优009)(见遗传资源表3)共检测到4,968个位点,其中仅I个位点基因型不一致,一致性为99. 98 %,第2份待测种子与标准样品(岳优9264)(见遗传资源表4)共检测到4,876个位点,全部位点基因一致,一致性为100%。第I份样品经国标规定的24个SSR标记检测基因型完全一致。申请人:还用RICE6K水稻SNP芯片检测了 2份常规稻,第I份待测样品与标准样品(玉香油占)(见遗传资源表5)共检测到4,794个位点,其中仅2个位点基因型不一致,一致性为99. 96%,第2份待测样品与标准样品(R1303)(见遗传资源表5)共检测到4,696个位点,其中有4个位点基因型不一致,一致性为99. 91%。申请人:用RICE6K水稻SNP芯片检测了 5份被称为93_11的待测样品(见遗传资源表6,7),以I份93-11的标准样品(见遗传资源表2)和93-11衍生系安选6号标准样品(见遗传资源表7)为对照。结果发现其中的2份待测样品与93-11标准样品基因型一致性达到99. 9%以上,4,900多个位点中仅有1-4个位点基因型不一致;而与安选6号标准样品基因型一致性为99. 3%,有约70个SNP位点有差异。于是,申请者比较了 93-11和安选6号之间的差异,结果发现它们之间约70个差异位点都集中在第8染色体的一个区间(图7)。从以上检测结果可以看出,RICE6K水稻SNP芯片适合于进行三系杂交水稻和常规稻的真实性检测,其结果比SSR分子标记更具有说服力。同时也反映出RICE6K水稻SNP芯片检测同样的样品技术重复可达到99. 9%以上。序列表
权利要求
1.一种水稻全基因组SNP芯片,其特征在于所说的SNP芯片是指根据SEQ No. OOfSEQID No. 5636所示序列利用Infinium专利设计制造技术制作的芯片。
2.权利要求I所述的一种水稻全基因组SNP芯片在水稻种质资源分子标记指纹分析中的应用。
3.权利要求I所述的一种水稻全基因组SNP芯片在检测水稻杂交群体基因型中的应用。
4.权利要求I所述的一种水稻全基因组SNP芯片在检测水稻育种材料的遗传背景中的应用。
5.权利要求I所述的一种水稻全基因组SNP芯片在检测水稻种子中的应用。
全文摘要
本发明公开了一种水稻全基因组SNP芯片及其应用,步骤(1)芯片上第一类探针的获得通过测序获得亲本的基因组序列,结合公共数据库中的其他水稻品种重测序数据,以日本晴基因组为参考序列,使用MAQ软件将所有测序数据进行匹配、分析,最后从中筛选出SNP标记;(2)芯片上第二类探针的获得从公共数据库获得水稻功能基因,寻找反映基因功能的序列差异,据此设计出SNP/INDEL探针;(3)利用Infinium芯片制造技术制作SNP芯片。(4)测试芯片的准确性和应用效率。本芯片可应用于水稻种质资源分子标记指纹分析、种子真实性检测、杂交后代基因分型,以及其他相关研究中。
文档编号C40B40/06GK102747138SQ20121005577
公开日2012年10月24日 申请日期2012年3月5日 优先权日2012年3月5日
发明者周发松, 喻辉辉, 张启发, 李菁, 谢为博 申请人:中国种子集团有限公司