设计趋异的密码子优化大重复dna序列的方法

文档序号:9221191阅读:1307来源:国知局
设计趋异的密码子优化大重复dna序列的方法
【专利说明】
[0001] 优先权声明
[0002] 本申请要求获得于2012年6月16日提交的题为"设计趋异的密码子优化大重复 DNA序列的方法"的美国临时专利申请系列号61/672, 114的申请日的权益。
技术领域
[0003] 本公开一般地涉及用于优化基因表达的方法。在特定的实施方案中,本公开涉及 优化具有氨基酸重复结构域的基因产物的表达的方法。
[0004] 背景
[0005] 由于化学DNA合成技术的进步,全基因合成的费用已经变得往往比试图从其天然 来源克隆基因更具有成本优势。因此,在植物转化和其他生物技术领域中,计算机辅助设计 编码有价值蛋白质的合成DNA序列日益重要。
[0006] 遗传密码由称作密码子的三核苷酸单位构成。有64种可能的密码子,每一种密码 子指定20种氨基酸中的一种,或者指定翻译的结束("终止密码子")。因此,至少有一些 密码子是冗余的。在绝大多数生物所使用的编码系统中,有两种氨基酸分别是由单种密码 子编码的,而所有其它的氨基酸则分别由2、3、4或6种密码子编码,还有3种终止密码子。 对于由2、3或4种密码子表示的氨基酸,密码子之间的差异在于第三位核苷酸。对于由2 种密码子表示的氨基酸,两者的第三位均是嘌呤(A,G)或嘧啶(C,T)。对于三种由6种密码 子表示的氨基酸(Arg,Leu,和Ser),每一种具有一组由4个密码子构成的组,这些密码子遵 循上述在第三位变异的模式,再加上一个由2个密码子构成的组。Arg和Leu各自由一个 二密码子组表示,两个密码子的第一和第二位核苷酸不同。丝氨酸(Ser)的二密码子表示 (two-codon representation)与Arg的二密码子组的差异仅在于第三位核苷酸。
[0007] 对于特定的某种氨基酸而言,给定的生物对各种可能的密码子的使用不是均等 的。生物各有各的密码子使用偏好。密码子使用偏好的模式对于生物及其近亲而言在整个 基因组上是独特的。例如,在链霉菌中,常见的密码子一般在第三位包括G或C。稀有的密 码子一般在第三位包括A或T。在其他生物中,第三位优选的是A或T。在特定的物种中, 根据其自身的密码子偏好,可以有截然不同的基因类别。例如,在大肠杆菌中大概有三类基 因,每一类具有截然不同的密码子使用标志(signature)。一类富含被大量表达的重要蛋白 质;第二类包括以相对低水平表达的蛋白质;而第三类包括很可能是新近从其他物种中获 得的蛋白质。
[0008] 在大多数人造基因设计策略中,过程试图使人造基因的密码子组成与待表达该人 造基因的宿主的基因密码子组成相匹配。参见例如美国专利公开NO.US2007/0292918A1。 这样的策略在一些情况下可能导致人造基因在宿主中的表达增加。例如,酵母中的密码子 优化可能显著提高异源基因转录本的翻译,其原因是使得例如氨基酰-tRNA限制和富含AT 序列处的转录终止等效应的最小化。参见例如Daly and Hearn (2004) J. Mol. Recognition 18:119-38。
[0009] 然而,尽管在本领域中普遍共识需要一定的密码子优化,但是从业人员对于用于 优化的一般策略尚未达成统一意见。一些人的首选策略是在设计异源基因过程中尽可能多 地使用表达宿主物种中的常用密码子。另一种为另一些人首选的策略对特定的密码子的上 下文给予最大的重视,从而令表达宿主中频繁出现的密码子对的使用最大化。第三种策略 是使新物种中的新编码序列的密码子用法与原始物种中的参考编码序列的密码子用法相 似。该第三种策略非常强调要认识到可能需要稀有密码子来确保转录本RNA分子的适当二 级结构。进一步的策略是使异源基因的密码子组成与新宿主表达基因的总体密码子组成相 似。此外,仅使用在异源序列中以相同频率反复出现的密码子,最终获得的效果可能与选用 稀有密码子相同;例如过度使用相应的tRNA会限制该tRNA的可得性。人们在尝试对基因 序列的密码子进行优化以用于在宿主生物中表达时,必须平衡这些策略及其潜在的考虑, 以便实现特定的方法学。
[0010] 除了酵母和其它真核细胞(例如中国仓鼠卵巢细胞(CHO)细胞、人胚胎成视网膜 (HER)细胞和人胚胎肾(HEK)细胞)之外,许多细菌也已被用作宿主细胞,用于制备异源重 组蛋白质。许多细菌系统的一个显著缺点是它们使用稀有密码子,这些密码子在人类基因 中不是优选的。这些稀有密码子的使用会导致反映不同密码子偏好的重组异源基因,例如 人类基因的表达延迟和减少。Sorensen et al. (2003) J. Chromatography B 786:207-14。 为了尝试克服这一缺点,可以修饰核酸序列使之编码重组异源多肽变异体,例如其中核酸 序列的特定密码子被改变成特定宿主优选的密码子,这能够提高表达水平。参见例如Haas et al. (1996)Curr· Biol. 6:315;和 Yang et al. (1996)Nucleic Acids Res. 24:4592。此 外,设计过程的反复迭代性使得人们可以从完工的DNA序列中消除各种序列基序,例如内 含子剪切识别位点、mRNA不稳定性决定簇、高稳定性茎环结构和限制酶识别位点。见例如 GENESCRIPT?产品说明书。此外,可以在宿主生物中表达编码稀有tRNA的基因,从而克服 在异源编码序列中使用稀有密码子的一些影响。Sorensen et al. (2003),前文。
[0011] 优化编码异源表达蛋白质的核苷酸序列的过程对于提高表达产量而言是一个重 要的步骤。然而,一些潜在问题限制了密码子优化对于表达特定基因的有用性。例如,密 码子优化转录本的二级结构可能会限制转录本的翻译。Griswold et al. (2003)Protein Expression and Purification 27:134-42。此外,存在大量在用于异源表达的人造序 列中期望避免的序列基序,包括大肠杆菌中受T7启动子控制的基因的I和II类转录终 止位点;Shine-Dalgarno样序列;潜在剪切信号;多聚腺苷酸信号;和促进核糖体移框 (frameshift)和暂停的序列。Welch et al. (2010) J.R. Soc. Interface 6:S467_76。
[0012] 许多蛋白质的序列包含氨基酸重复模式,包括单氨基酸重复和串联寡肽重 复。Katti et al. (2000)Protein Science 9:1203-9。简单的核苷酸序列重复源 于DNA形成二级结构(例如发夹或滑移链(siipped strand))所导致的不均等交换 (unequal crossing-over)或复制错误。Pearson and Sinden (1998) Curr. Opin. Struct. Biol. 8:321-30。编码区中的核苷酸序列重复可能被翻译成单氨基酸重复或串联寡肽重复, 可能显著影响蛋白质的结构和功能。据估计,所有蛋白质中有大约14%含有显著的内部 氨基酸重复,在真核生物蛋白质中出现的氨基酸重复比原核生物蛋白质多。Marcotte et al. (1999)J. Mol. Biol. 293:151-60。谷氨酰胺、丙氨酸、甘氨酸、谷氨酸和丝氨酸重复是最 常见的单氨基酸重复,而高疏水性氨基酸的长串联重复是罕见的。Katti et al. (2000),前 文;Green and Wang(1994)Proc. Natl. Acad. Sci. USA 91:4298-302。
[0013] 含有单氨基酸重复的蛋白质包括转录调节蛋白。Katti et al. (2000),前文。 含有串联寡肽重复的蛋白质包括来自某些原生动物寄生物的抗原蛋白,结构蛋白(例如, 富含脯氨酸的植物细胞壁结构蛋白、角蛋白、毛透明蛋白(trichohyalin)、弹性蛋白原 (tropoelastin)、蚕蛾丝心蛋白(silk moth fibroin)、果幡唾液腺胶蛋白、酵母细胞壁蛋 白、上皮粘蛋白、和软骨特异性蛋白聚糖核心蛋白),皮肤表皮角化细胞蛋白质,外皮蛋白 (involucrin)、兜甲蛋白(loricrin)、repetin蛋白、角质蛋白(cornifin)和哺乳动物神经 轴突的神经微丝三联H蛋白(neurofilament triplet-H protein)。同上。除了天然存在 的蛋白质之外,一些含有重复的合成多肽对于生产和在各种用途中的使用可能是期望的。 见,例如,美国专利公开号No. US2009/0093621A1。
[0014] 公开
[0015] 本文描述了可用于设计人造核酸分子的方法,该人造核酸分子编码含有至少一 个重复氨基酸序列区的多肽。重复氨基酸序列区可以是,例如,单氨基酸重复或串联寡肽 重复。在实施方案中,在预定的基因设计参数的约束之内,可以设计多个实质上趋异的 (diverged)人造核酸序列。人造核酸序列可以根据参考核酸序列设计而得,以便,例如,优 化该核酸序列在宿主生物中的异源表达。或者,可以从头设计人造核酸序列,以编码期望的 多肽。关于多肽设计的综述,参见例如Protein Design, Eds. Raphael Guerois and Manuela Lopez de la Paz,2006, Humana Press,Totowa,N. J. 〇
[0016] 在实施方案中,本方法可以包括提供编码多肽的核酸序列,所述多肽包含至少一 个氨基酸重复区。在一些实施方案中,编码包含至少一个氨基酸重复区的多肽的核酸序列 可以通过确定生物中编码包含至少一个氨基酸重复区的多肽的核酸序列来提供(例如通 过克隆该核酸序列,或者通过从序列数据库中提取该序列)。在特定的实施方案中,然后可 以从所提供的核酸序列中提取至少一个编码该多肽的氨基酸重复区的核酸序列,每一个作 为一个单独的序列。
[0017] 在一些实施方案中,所提取的编码氨基酸重复区的核酸序列可以被导入(例如, 单独地导入)到计算机实现的软件程序中,该程序能够根据预定的参数对编码序列进行 优化。在特定的实施方案中,该计算机实现的软件程序可以是〇PTGENE?(可购自Ocimum Biosolution)。然后,可以从所提取的每个核酸序列推导(例如通过参考标准遗传密码) 样本氨基酸重复序列。在特定的实施方案中,可以通过计算机实现的软件程序从所提取的 每个核酸序列推导样本氨基酸重复序列。在进一步的实施方案中,样本氨基酸重复序列可 以直接导入到计算机实现的软件程序中,例如,将感兴趣多肽的氨基酸重复区的氨基酸序 列导入到该计算机实现的软件程序中。
[0018] 在其他的实施方案中,可以用样本氨基酸重复序列来推导多个编码氨基酸重复区 域的样本密码子优化核酸序列(例如,根据遗传编码的冗余性和合适的密码子用法表,从 样本氨基酸重复序列独立地推导出多个不同的编码氨基酸重复区的样本密码子优化核酸 序列)。在利用计算机实现的软件程序的实施方案中,可以将每一个编码氨基酸重复区的样 本密码子优化核酸序列中输出为文本文件,或以其他方式为从业者记录。在设计人造核酸 分子以优化包含至少一个重复氨基酸序列区的参考核酸分子的实施方案中,可以对由该参 考核酸分子编码的每一个多肽的氨基酸重复区执行上述的推导样本氨基酸重复序列的步 骤和推导编码该氨基酸重复区的密码子优化样本核酸序列的步骤。
[0019] 在进一步的实施方案中,可以通过序列同源性对各个编码氨基酸重复区域的样本 密码子优化核酸序列进行比对。在特定的实施方案中,可以将对参考核酸分子中的所有重 复氨基酸序列区获得的所有编码氨基酸重复区的样本密码子优化核酸序列通过序列同源 性彼此进行比对。在某些实施方案中,样本密码子优化核酸序列可以使用CLUSTALW?程序, Mega 3. 1进行比对。可以为经过比对的样本序列组装邻接树。可以为每个来自邻接树的深 分支部分的重复氨基酸序列区选择一个编码氨基酸重复区的样本密码子优化核酸序列。
[0020] 在这些和进一步的实施方案中,在编码感兴趣多肽的密码子优化的核酸序列中可 以组入为重复氨基酸序列选定的编码序列,以产生表达被优化的核酸序列。在特定的实施 方案中,所述选定的编码序列可以组入感兴趣多肽中的相应氨基酸重复单元的期望位置 处,从而使整个多肽编码序列保持正确的阅读框。在一些实施方案中,可以对密码子优化的 序列进行进一步的分析,以便,例如,确认不存在不希望的核酸基序(例如,在由其转录的 RNA分子中形成不希望的二级结构的核酸基序),确认不存在限制性内切酶识别位点,和/ 或确保密码子和序列多样性。
[0021] 在一些实施方案中,本发明的方法可用于设计编码感兴趣的异源或内源多肽的人 造核酸序列。在一些这样的实施方案中,人造核酸序列可以为了在宿主生物中表达而被优 化,例如,通过密码子优化反映表达宿主的密码子用法。在特定的实施方案中,设计这样的 人造核酸序列,其已被优化用于在植物细胞中,例如在欧洲油菜(Brassica napus)中异源 表达。在进一步的实施方案中,设计这样的人造核酸序列,其已被优化用于在细菌宿主细胞 中,例如在荧光假单胞菌中异源表达。在这些和其他的实施方案中,本发明的设计方法可用 于设计编码感兴趣的包含氨基酸重复区的新型多肽的人造核酸序列。
[0022] 通过参考附图进行的下列多个实施方案的详细描述,本发明的前述特征和其他特 征将更加不言自明。
[0023] 附图简述
[0024] 图1包括由裂殖壶菌(Schizochytrium)PUFA ORFA编码的蛋白质的图形表示,其 包括氨基酸重复结构域和侧翼Pro-Ala重复的相对位置。应当注意,重复1-9在本文中有 时称为重复A-I,其中重复1有时称为重复A,重复2称为重复B,等。
[0025] 图2包括裂殖壶菌(Schizochytrium) PUFA ORFA的10个Pro-Ala重复的氨基酸 序列。
[0026] 图3包括裂殖壶菌(Schizochytrium)(美国典型培养物保藏中心保藏号 ATTC_20888) PUFA ORFA的9个寡肽重复结构域的氨基酸序列的CLUSTALW?比对结果(在 Vector NTItm软件套装中)。
[0027] 图4包括编码PUFA ORFA的9个氨基酸重复结构域中每一个的天然裂殖壶菌DNA 序列的CLUSTALW?比对结果(在Vector NTI ?软件套装中)。比对结果证明,各DNA序列 100%同源,89. 7%相同。
[0028] 图5包括程序界面的再现。图表的最上一行显示了计算机生成序列的一部分, 该计算机生成序列是通过使用无偏好标准遗传编码对裂殖壶菌PUFA ORFA重复1(SEQ ID N0:11)的氨基酸序列进行逆向翻译产生的,该序列进一步公开为SEQ ID N0:29。图表的 第二行显示了由最上一行的序列编码的氨基酸序列,因此其代表了裂殖壶菌PUFA ORFA重 复1(SEQ ID NO: 11)的一部分,并在SEQ ID N0:30中列出。其余行显示了使用标准遗传 编码和欧洲油菜密码子使用偏好对第二行的多个逆向翻译结果。第3-12行分别显示了 "rptlnapl"至"rptlnaplO"。这些核苷酸序列(分别为SEQ ID N0:31-40)是使用标准遗 传编码和欧洲油菜密码子使用偏好通过对SEQ ID N0:30进行逆向翻译而获得的。
[0029] 图6包括CLUSTALW?程序Mega3. 1的邻接树输出,其对90个裂殖壶菌PUFA ORFA 重复1-9的欧洲油菜密码子优化序列进行序列比对。重复1-9的每个重复用字母表示(例 如,rptA, rptB, rptC, rptD, rptE, rptF, rptG, rptH, rptl),欧洲油菜偏好序列的每次迭代 (iteration)用数字表不(例如,napl, nap2, nap3, nap4, nap5, nap6, nap7, nap8, nap9, η aplO)。在该实例中选出的趋异序列用箭头标记,并且为了清晰起见,在附图的右侧指示了选 出的趋异序列的简称(例如rptBnaplO称为B10)。
[0030] 图7包括裂殖壶菌PUFA ORFA重复的所选欧洲油菜密码子优化序列的 Smith-Wasserman 同源性。
[0031] 图8包括编码裂殖壶菌PUFA ORFA的9个重复结构域中每一个的再设计的(趋异 的)DNA序列的CLUSTALW?比对结果(在Vector NTI ?软件套装中)。比对结果证明,DNA 序列93. 1%同源,61. 7%相同。
[0032] 序列表
[00
当前第1页1 2 3 4 5 6 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1