一种用于猪基因编辑的高效特异性sgRNA识别位点引导序列及其筛选方法
【专利摘要】本发明公开了一种用于猪基因编辑的高效特异性sgRNA识别位点引导序列及其筛选方法,所述筛选方法包括步骤:功能基因筛选及ORF分析、功能基因sgRNA识别位点引导序列预测、全基因组脱靶位点检测、依据脱靶信息与靶位点位置对预测的靶位点打分,排序、结果筛选与统计、算法优化与软件开发。本发明的猪的特异性sgRNA识别位点引导序列经过了严格的筛选与检验,包含所有猪蛋白编码基因的用于CRISPR?Cas9基因编辑的sgRNA识别位点引导序列;本发明中对特异性sgRNA识别的鉴定、打分和检验算法,以及算法对应的用于预测和评估猪的功能基因sgRNA识别位点引导序列的软件可广泛用于具有全基因组序列的非模式物种的sgRNA特异位点预测。
【专利说明】
一种用于猪基因编辑的高效特异性sgRNA识别位点引导序列及其筛选方法
技术领域
[0001]本发明属于基因组学与生物信息学技术领域,具体地说,本发明涉及一种用于猪基因编辑的高效特异性SgRNA识别位点引导序列及其筛选方法。
【背景技术】
[0002]CRISPR(Clustered regularly interspaced short palindromic repeats)/Cas9系统介导的基因组编辑技术,是在锌指核酸酶(ZFNs)和类转录激活因子效应物核酸酶(TALEN)后的第三代基因组编辑技术(Brouns et al.,2008) <XRISPR-Cas9是细菌中存在的一种对噬菌体基因组或水平转移质粒的适应性免疫系统,具有核酸内切酶活性的Cas9蛋白在sgRNA的引导下特异地识别并切割双链DNA。因此,CRISPR/Cas9技术也主要由两部分组成:一是通过碱基互补配对与基因组特异结合的sgRNA ;另一个是可革E定到具有PAM的特定基因组序列并进行切割的Cas9核酸酶(Barrangou ,2014)。
[0003]通过改变sgRNA的位点可以实现对目标基因进行敲除,然而Doench等人的研究发现不同的sgRNA具有不同的编辑活性(Doench et al.,2014);Zhang等人对PAM的研究发现NGG的编辑效率最高(Zhang et al.,2014),Farboud等人也发现3’末端为GG的sgRNA可显著提高基因组编辑效率(Farboud and Meyer,2015)。此外,很多研究表明,CRI SPR/Cas9技术存在一定的脱靶效应。Fu等人的研究发现Cas9核酸酶对脱靶位点I?2个错配碱基的耐受能力与其配对位置有关,他们还发现含5个错配碱基的脱靶位点能被Cas9核酸酶切割(Fu et&1.,2013)。也1!等人还发现<&89核酸酶对错配碱基的耐受能力不仅与错配碱基数量有关还与错配碱基位置有关(Hsu et al.,2013) C3LiruWang等人的研究也分别发现,脱革E位点即便存在一个凸起(bulge)的碱基,Cas9核酸酶可进行切割(Lin et al.,2014;ffang et al.,2015)。由此可见,CRISPR/Cas9技术存在严重的脱革E风险(Shengsong et al.,2015) 0
[0004]目前,已有多款针对CRISPR/Cas9技术的sgRNA设计和/或脱靶效应评估软件,但不同的软件各有优缺点。如由美国麻省理工学院Broad研究所的张锋实验室开发的CRISPRDesign;由锌指联盟开发的ZiFiT;此外还有Cas9Design、E-CRISP、Cas-0FFinder、CRISPR-P等等。但在针对一些非模式物种的全基因组水平的研究时,这些软件很难同时满足以下要求:
[0005]I)、批量运算:大部分软件提供的在线版本,很难实现批量运算;
[0006]2)、非模式物种的搜索:在基于全基因组的分析时一些非模式物种的基因组并未包含在web服务器中,并且基因组的更新换代信息和不同版本的注释信息也会对分析结果有很大影响;
[0007]3)、SNP修正的基因组:sgRNA的识别依赖于序列相似性,有时研究的对象并非标准的参考基因组,尤其突变发生在目标基因时会影响sgRNA识别位点引导序列的筛选;
[0008]4)、筛选结果的评分:sgRNA的脱靶机制概率是正在进行但并没有绝对定论的研究,大部分软件都不会给出中间打分过程以辅助后期手工筛选;
[0009]5)、结合sgRNA位点在蛋白编码基因位置以及可变剪接问题:对蛋白编码基因靠近N端的编辑由于造成提前终止密码子的概率更高因此效率更高,而对于具有多种可变剪接的基因需要考虑对每个转录本均进行突变,很多程序中并没有兼顾上述几点。
【发明内容】
[0010]基于此,为了克服上述现有技术的缺陷,本发明提供了一种用于猪基因编辑的高效特异性SgRNA识别位点引导序列及其筛选方法。
[0011]为了实现上述发明目的,本发明采取了以下技术方案:
[0012]一种用于猪基因编辑的高效特异性sgRNA识别位点引导序列的筛选方法,包括以下步骤:
[0013]I)筛选猪全基因组序列中注释的蛋白编码基因中的外显子序列,标注可变剪接基因不同剪接模式间外显子的重叠状态用于5)中的搜索;
[0014]2)利用脚本对步骤I)中从所有蛋白编码基因中获取的所有外显子序列,选取具有5’-GN2QGG-3’序列特性的位点,移除跨越外显子区域的序列,将剩余序列作为后续筛选特异性sgRNA识别位点引导序列的数据基础;
[0015]3)将筛选到的所有候选sgRNA识别位点引导序列比对到猪全基因组序列上,通过序列同源性分析,首先移除在原始位点外具有其与其它基因组位置完整匹配的候选sgRNA识别位点引导序列,找出所有错配碱基数在5个以下的脱靶位点,并确定这些脱靶位点位于功能基因外显子、或内含子内,或基因间区部;
[0016]4)构建打分矩阵,对所有候选sgRNA识别位点引导序列进行打分;
[0017]5)统计sgRNA识别位点引导序列得分,选取每个蛋白编码基因中得分最高的3条sgRNA识别位点引导序列;当满足总得分的最大分值限制的sgRNA识别位点引导序列不足3条时,改变5,-GNxGG-3 ’的结构式中的X值,由20逐步递减到16,重复步骤3)-5),直至获得符合条件的sgRNA识别位点引导序列;对于具有可变剪辑的基因,为了以最少的sgRNA彻底敲除目标基因的所有不同剪接方式产生的转录本,我们将不同转录本中重叠的区域作为筛选sgRNA识别位点的首选区域,如在该区域无法找到足够数量的sgRNA识别位点,再对非重叠的区域进行筛选,以保证最后筛选结果中针对每一种可变剪接的基因都有足够数量的sgRNA识别位点引导序列。例如一个基因有3种可变剪接,其中3个转录本的重叠区域内只找至IJl个sgRNA识别位点引导序列,为满足对于每一个不同转录本需要获取3个位点的规则,将在非重叠区域筛选,最终位点数可能在3-7个sgRNA识别位点引导序列之间。
[0018]在其中一些实施例中,所述打分矩阵的构建方法为:首先,分别计算候选sgRNA识别位点引导序列的每个脱靶位点罚分;①序列内错配位置罚分从100%开始(5’端)罚分逐渐递减至0%(3’端)(递减曲线为可调参数);②多个错配位点则罚分相乘,使得具有多个碱基错配的脱靶位点具有较低分值;③脱靶位置处于功能基因外显子内、内含子内、或基因间区位置将分别受到额外罚分(可调参数,默认值为外显子200%、内含子100%和基因间区无罚分);④设定单条脱靶位点的最大分值为1.5(可调参数)。第二,计算候选sgRNA识别位点引导序列的总得分,①将所有脱靶位点的得分相加;②依据候选sgRNA识别位点引导序列位点在全基因CDS总长度的百分比将给得分总数10% (可调参数)的罚分,越靠近翻译起始位置认为编辑效率越高,罚分越小;③设定选sgRNA识别位点引导序列的总得分的最大分值(可调参数)。第三,依据目标物种的文献研究与实际数据,优化算法中的参数。
[0019]在其中一些实施例中,在进行步骤I)之前还包括使用SOAP将目标样本重测序的数据比对到参考基因组,并使用SOAPsnp获取修正目标样本中的SNP,获取用于分析的基因组数据的步骤。该步骤是一个可选步骤,适用于目标基因组与参考基因组差异较大的情况。
[0020]在其中一些实施例中,所述已完成测序的猪基因组中的蛋白编码基因为21630个。
[0021]在其中一些实施例中,所述具有可变剪接的基因为2386个。
[0022]本发明还提供了通过上述筛选方法筛选得到的用于猪基因编辑的高效特异性sgRNA识别位点引导序列。
[0023]本发明利用猪的全基因组序列与蛋白编码基因的注释信息,基于sgRNA最新研究中关于sgRNA活性与脱靶概率研究的结果,预测了包含猪所有蛋白编码基因中可用于CRISPR-Cas9基因编辑的高效特异性sgRNA识别位点引导序列以及可用于具有全基因组序列的物种的方法及软件。与现有技术相比,本发明具有以下显著优点:
[0024]1、本发明的筛选方法所筛选得到的猪的特异性sgRNA识别位点引导序列经过了严格的筛选与检验,包含所有猪蛋白编码基因的用于CRI SPR-Cas9基因编辑的sgRNA识别位点引导序列,对于整个CRISPR-Cas9基因编辑成功与否至关重要;本发明中对特异性sgRNA识别的鉴定、打分和检验算法,以及算法对应的用于预测和评估猪的功能基因sgRNA靶位点的软件可广泛用于具有全基因组序列的非模式物种的sgRNA特异位点预测;
[0025]2、本发明所筛选得到的猪的特异性sgRNA识别位点引导序列可用于准确的敲除猪的单个功能基因;基于全基因组功能基因的sgRNA靶位点组合成的混合sgRNA库还可用于构建猪基因组中功能基因的CRISPR-Cas9编辑文库,用于筛选猪细胞对不同逆境因子的相关基因。
【附图说明】
[0026]图1为本发明实施例1的用于猪基因编辑的高效特异性sgRNA识别位点引导序列的筛选方法的流程图。
【具体实施方式】
[0027]以下实施例是对本发明的进一步说明,而不是对本发明的限制。下列实施例中未注明具体实验条件和方法,所采用的技术手段通常为本领域技术人员所熟知的常规手段。
[0028]实施例1用于猪基因编辑的高效特异性sgRNA识别位点引导序列的筛选方法
[0029]请参阅图1,为本实施例的用于猪基因编辑的高效特异性sgRNA识别位点引导序列的筛选方法的流程图,本实施例的实验样本为已完成测序的猪(Sus scrofa Duroc)的基因组(10.2版本)拼接长度为2.8Gb。由于本实施例为测序品种,省略了SNP的修正过程;如实验样本为已测序的杜洛克猪、五指山猪和测序种的西藏野猪(Tibetan wild boar)可直接使用该测序品系的参考基因组;
[0030]用于猪基因编辑的高效特异性sgRNA识别位点引导序列的筛选方法包括以下具体步骤:
[0031]I)猪基因组中蛋白编码基因的分类与筛选
[0032]在Ensembl(www.ensembl.0rg)的数据库中,猪的基因组注释了30582个基因,移除转座子来源的基因以及没有注释蛋白编码区(CDS)的基因后,剩余21630个蛋白编码基因。
[0033]其中具有单一剪接模式的基因有19244个,具有可变剪接的基因2386个。对于具有可变剪接的基因,首先将在不同转录本中重叠的区域作为首选,其它差异区域作为备选,以保证最后筛选结果中针对每一种可变剪接都有足够数量的sgRNA识别位点引导序列。
[0034]2) sgRNA靶位点预测
[0035]利用脚本对所有CDS选取序列结构为5’-GN2QGG-3’的长度为23bp的序列位点作为候选sgRNA靶位点。
[0036]3)潜在脱靶位点筛选
[0037]把筛选到的所有可能sgRNA靶位点比对到全基因组序列上,找出错配的脱靶位点在5个及以下的sgRNA引导序列,删除完全相同的目标位点的sgRNA引导序列;
[0038]4)sgRNA引导序列识别位点打分
[0039]根据【背景技术】中,不同工作中对错配位点概率的研究,越靠近5’端的序列识别特异性越低,蛋白编码基因中对越靠近N端的序列进行编辑,对蛋白质结构影响越大。
[0040]对每个候选sgRNA引导序列进进行打分。首先,分别计算候选sgRNA引导序列的每个脱靶位点罚分。①序列内错配位置罚分从100%开始(5’端)罚分逐渐递减至0% (3’端)(递减曲线为线性缩减);②多个错配位点则罚分相乘,使得具有多个错配位点的脱靶位点具有较低分值;③脱靶位置处于功能基因外显子、内含子或基因间区位置将分别受到罚分加成,参数设定为300%、200%和100% ;④将单条脱靶位点的最大分值设定为1.5,移除具有大于该分值的脱靶位点的候选sgRNA识别位点引导序列。第二,计算候选sgRNA识别位点引导序列的总得分,①将所有脱靶位点的得分相加;②依据候选sgRNA引导序列位点在全基因CDS总长度的百分比将给得分总数10%的罚分;③设定选sgRNA引导序列的总得分的最大分值为300分。
[0041]5)结果筛选与统计
[0042]统计sgRNA引导序列得分,对每个转录本选取得分最高的3个sgRNA引导序列。当遇到满足条件的sgRNA引导序列不足3条时,使用5 ’ -GNigGG-3 ’、5 ’ -GNisGG-3,、5 ’-GNnGG-3,等长度递减的匹配重复步骤3)_5),搜索符合要求的sgRNA引导序列。
[0043]在21630个基因中,18838个基因找到了适合CRISPR-Cas9编辑靶位点,占总量的87%,其中18318个基因具有3个以上的特异的sgRNA识别位点引导序列,520个基因具有1-2个特异的sgRNA识别位点引导序列,2792个基因由于序列重复度较高,没有适合单个CRISPR-Cas9编辑的sgRNA靶位点。
[0044]6)算法优化与软件开发
[0045]基于以上分析步骤,将算法开发为基于Iunix系统的peri软件包。
[0046]若实验样本为未测序的品系的猪(如长白猪、梅花猪),用于猪基因编辑的尚效特异性sgRNA识别位点引导序列的筛选方法还包括首先进行基因组SNP修正的步骤,即使用SOAP将目标样本重测序的数据比对到参考基因组,并使用SOAPsnp获取修正目标样本中的SNP,获取用于分析的基因组数据,加入基因组SNP修正以可以提高后续方法的特异性与准确性;其他步骤与实施例1相同。
[0047]以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。
【主权项】
1.一种用于猪基因编辑的高效特异性SgRNA识别位点引导序列的筛选方法,其特征在于,包括以下步骤: 1)筛选猪全基因组序列中注释的蛋白编码基因中的外显子序列,标注可变剪接基因不同剪接模式间外显子的重叠状态用于5)中的搜索; 2)利用脚本对步骤I)中从所有蛋白编码基因中获取的所有外显子序列,选取具有5’-GN2qGG-3’序列特性的位点,移除跨越外显子区域的序列,将剩余序列作为后续筛选特异性SgRNA识别位点引导序列的数据基础; 3)将筛选到的所有候选SgRNA识别位点引导序列比对到猪全基因组序列上,通过序列同源性分析,首先移除在原始位点外具有其与其它基因组位置完整匹配的候选sgRNA识别位点引导序列,找出所有错配碱基数在5个以下的脱靶位点,并确定这些脱靶位点位于功能基因外显子或内含子内,或者基因间区部; 4)构建打分矩阵,对所有候选sgRNA识别位点引导序列进行打分; 5)统计sgRNA识别位点引导序列得分,选取每个蛋白编码基因中得分最高的3条sgRNA识别位点引导序列;当满足总得分的最大分值限制的sgRNA识别位点引导序列不足3条时,改变5,-GNxGG-3 ’的结构式中的X值,由20逐步递减到16,重复步骤3) -5),直至获得符合条件的sgRNA识别位点引导序列;对于具有可变剪辑的基因,优先搜索不同剪接模式中重叠区域内的sgRNA识别位点引导序列,如数量不足,则使用非重叠区域来填补,以便每一种剪接形式的转录本都能覆盖。2.根据权利要求1所述的用于猪基因编辑的高效特异性sgRNA识别位点引导序列的筛选方法,其特征在于,步骤4)所述打分矩阵的构建方法为:首先,分别计算候选sgRNA识别位点引导序列的每个脱靶位点罚分;①序列内错配位置罚分从5’端100%开始罚分逐渐递减至3’端0%;②多个错配位点则罚分相乘,使得具有多个碱基错配的脱靶位点具有较低分值;③脱靶位置处于功能基因外显子内、内含子内或基因间区位置将分别受到额外罚分;④设定单条脱靶位点的最大分值为1.5;第二,计算候选sgRNA识别位点引导序列的总得分,①将所有脱靶位点的得分相加;②依据候选sgRNA识别位点引导序列位点在全基因CDS总长度的百分比将给得分总数10%的罚分,越靠近翻译起始位置认为编辑效率越高,罚分越小;③设定选sgRNA识别位点引导序列的总得分的最大分值;第三,依据目标物种的文献研究与实际数据,优化算法中的参数。3.根据权利要求1所述的用于猪基因编辑的高效特异性sgRNA识别位点引导序列的筛选方法,其特征在于,在进行步骤I)之前还包括使用SOAP将目标样本重测序的数据比对到参考基因组,并使用SOAPsnp获取修正目标样本中的SNP,获取用于分析的基因组数据的步骤。4.根据权利要求1所述的用于猪基因编辑的高效特异性sgRNA识别位点引导序列的筛选方法,其特征在于,步骤I)中所述已完成测序的猪基因组中的蛋白编码基因为21630个。5.根据权利要求1所述的用于猪基因编辑的高效特异性sgRNA识别位点引导序列的筛选方法,其特征在于,步骤I)中所述具有可变剪接的基因为2386个。6.权利要求1?5任一项所述的筛选方法筛选得到的用于猪基因编辑的高效特异性sgRNA识别位点引导序列。
【文档编号】C12Q1/68GK105886616SQ201610248143
【公开日】2016年8月24日
【申请日】2016年4月20日
【发明人】陈庄, 刘文华, 蒋宗勇, 张群洁, 戴彰言, 俞婷, 陈中健, 朱翠
【申请人】广东省农业科学院农业生物基因研究中心