专利名称:具有包含fivsi基序的信号序列的多肽以及编码该基序的寡核苷酸的利记博彩app
技术领域:
本发明涉及用于从宿主细胞分泌蛋白质的多肽和多核苷酸序列。
已经使用或开发了许多天然或人工的多肽信号序列(也称为分泌前区域)来用于从宿主细胞分泌所需要的肽、多肽和蛋白质(在下文中这些术语可互换使用)。信号序列可指导初生蛋白质进入将蛋白质从细胞输出到周围介质或,有时候输出到周质间隙中的细胞运转部分。尽管不是必要的,但通常信号序列位于初级翻译产物的N末端,并且尽管不一定必须是,但一般是在分泌过程期间切割下所需要的蛋白质,以产生″成熟的″蛋白质。
就一些其实体是起始分泌的目标蛋白质来说,在除去信号序列后,包括其N末端的称为″原″序列的附加氨基酸,中间的实体被称作″原-蛋白质″。这些原序列可帮助最终的蛋白质折叠并且变成有功能性的,然后通常被切割下来。在其他的情况中,原区域只提供便于酶切割下前-原区域的切割位点,而未知其具有另外的功能。
可在所需要的蛋白质从细胞分泌出来的期间或从细胞输出到周围介质或外周质间隙之后除去原序列。
指导蛋白质分泌的多肽序列,无论其类似于信号(即,前)序列或前-原分泌序列,有时也称为前导序列。蛋白质的分泌是包括翻译、移位和翻译后加工的动力学过程,并且这些步骤中的一个或多个不必在另一个步骤开始或结束前就完成。
对于真核种属,例如酵母,酿酒酵母(Saccharomyces cerevisiae)和巴斯德毕赤酵母(Pichia pastors)中生产蛋白质,已知的前导序列包括来自酿酒酵母的酸性磷酸酶蛋白质(Pho5p)(参见EP 366 400)、转化酶蛋白质(Suc2p)参见Smith等人,(1985)科学Science,229,1219-1224)和热休克蛋白-150(Hspl50p)(参见WO 95/33833)的前导序列。另外,已经使用来自酿酒酵母交配因子α-1蛋白质(MFα-1)和来自人溶菌酶和人血清白蛋白(HSA)蛋白质的前导序列,尽管不是专门地,已经特别使用后者用于分泌人白蛋白。WO 90/01063公开了MFα-1和HSA前导序列的融合体,其相对于利用MFα-1前导序列可有利地减少人白蛋白污染片段的产生。
出人意料地,我们已经发现可通过导入氨基酸序列基序,优选地通过前导序列的改变而提高分泌蛋白质的产量。无论是对完整的天然白蛋白前导序列(leader sequence)、其变体或其它前导序列进行的改变都是有效的,所述其它前导序列使用人白蛋白前导序列的相关部分,如在WO 90/01063中公开的MFα-1和HSA前导序列的融合体。在后者的情况中,如果白蛋白是分泌的蛋白质,如此产生的白蛋白保持减少污染片段的有利特性,同时仍然增加产量。
尽管在WO 90/01063中大体上公开了WO 90/01063的融合前导序列的保守性改变(例如,参见WO 90/01063的第8页),这导致限定了约8×1012个多肽的分类。根据遗传密码的简并性,阐述了示范性的前导序列的多核苷酸编码序列。这也表示了大量的可能性。在WO 90/01063中没有认识到由本发明提供的改变的前导序列的特定种类将具有用于表达分泌蛋白质的有利特性。
在本发明的第一个方面,提供了一种多肽,其包括(i)前导序列,该前导序列包括(a)分泌前序列(secretion pre sequence)和(b)下列基序-X1-X2-X3-X4-X5-其中X1是苯丙氨酸、色氨酸、或酪氨酸,X2是异亮氨酸、亮氨酸、缬氨酸、丙氨酸或甲硫氨酸、X3是亮氨酸、缬氨酸、丙氨酸或甲硫氨酸、X4是丝氨酸或苏氨酸,以及X5是异亮氨酸、缬氨酸、丙氨酸或甲硫氨酸;以及(ii)与前导序列异源的所需要的蛋白质。
换言之,该多肽包括SEQ ID NO 1所示的序列N-(Phe/Trp/Tyr)-(Ile/Leu/Val/Ala/Met)-(Leu/Val/Ala/Met)-(Ser/Thr)-(Ile/Val/Ala/Met)-CSEQ ID No 1在本发明第一个方面的优选实施方案中,X1是苯丙氨酸。因此优选的多肽包括SEQ ID NO 2的序列N-Phe-(Ile/Leu/Val/Ala/Met)-(Leu/Val/Ala/Met)-(Ser/Thr)-(Ile/Val/Ala/Met)-CSEQ ID No 2在本发明第一个方面的另一个优选实施方案中,X2是异亮氨酸。因此另一个优选的多肽包括SEQ ID NO 3所示的序列N-(Phe/Trp/Tyr)-Ile-(Leu/Val/Ala/Met)-(Ser/Thr)-(Ile/Val/Ala/Met)-CSEQ ID No 3在本发明第一个方面的另一个优选实施方案中,X3是缬氨酸。因此另一个优选的多肽包括SEQ ID NO 4的序列N-(Phe/Trp/Tyr)-(Ile/Leu/Val/Ala/Met)-Val-(Ser/Thr)-(Ile/Val/Ala/Met)-CSEQ ID No 4在另一个优选的多肽中,X4是丝氨酸,因此包括SEQ ID NO 5的序列N-(Phe/Trp/Tyr)-(Ile/Leu/Val/Ala/Met)-(Leu/Val/Ala/Met)-Ser-(Ile/Val/Ala/Met)-CSEQ ID No 5在本发明第一个方面的另一个优选实施方案中,X4是苏氨酸。因此另一个优选的多肽包括SEQ ID NO 29的序列N-(Phe/Trp/Tyr)-(Ile/Leu/Val/Ala/Met-(Leu/Val/Ala/Met)-Thr-(Ile/Val/Ala/Met)-CSEQ ID No 29在本发明第一个方面的另一个优选实施方案中,X5是异亮氨酸。因此另一个优选的多肽包括SEQ ID NO 6的序列N-(Phe/Trp/Tyr)-(Ile/Leu/Val/Ala/Met)-(Leu/Val/Ala/Met)-(Ser/Thr)-Ile-CSEQ ID No 6更优选地X1、X2、X3、X4和X5中的至少2个、更优选至少3个,还更优选至少4个是如上述优选实施方案中所限定的。
可将该基序插入前导序列中(即,添加),或可作为取代前导序列内的1、2、3、4、5个或以上连续的氨基酸而包括在前导序列内。
在一个优选的实施方案中,基序作为取代天然存在的氨基酸而包括在前导序列中。换言之,基序的氨基酸被包括在根据本发明进行优化前,已经存在于前导序列中的5个连续氨基酸的位置。读者将认识到当用于上下文中时,短语″天然存在″不是要将发明限制到天然存在的前导序列的优化。相反地,本发明也适用于人工的前导序列的优化,例如HSA/MFα-1前导序列融合体,在此举例说明了对其的优化。
优选的,基序作为取代物被包括在前导序列中时,X4是天然存在的氨基酸或其变体。换言之,优选地只有X1、X2、X3和X5被取代,而X4保持未改变,或简单地转变为变体,优选地是如下限定的在该位置的天然氨基酸的保守取代。
在本发明第一个方面的特别优选的实施方案中,X1是苯丙氨酸,X2是异亮氨酸,X3是缬氨酸,X4是丝氨酸以及X5是异亮氨酸。因此在本发明第一个方面的特别优选的实施方案中,提供包括SEQ ID No 7的序列的多肽-N-Phe-Ile-Val-Ser-Ile-CSEQ ID No 7上述方案中,″N″和″C″表示多肽序列的取向,而不是要限制对其实际末端的说明;换言之,多肽序列可以在N-、或C-末端,或大多通常在两个末端,与一种或多种其他多肽序列相连(例如,融合、偶联或连接)。
本发明第一个方面所述的多肽包括与前导序列异源的成熟的所需要蛋白质的序列。成熟的所需要蛋白质序列是可能在经其中表达本发明多肽的表达系统中翻译加工后,存在于表达产物中的初级氨基酸序列。所需要的蛋白质优选地适于从表达本发明多肽的细胞分泌出来。
所需要的蛋白质与前导序列是异源的。换言之,本发明第一个方面的多肽不包括在其前导序列中具有如上所述的基序-X1-X2-X3-X4-X5-的天然存在的蛋白质。在优选的实施方案中,本发明第一个方面的多肽不包括在任何位置具有如上所述的基序-X1-X2-X3-X4-X5-的任何天然存在的蛋白质。本文中,术语″天然存在″指由天然存在的生物体编码的蛋白质没有通过需要人类干预的重组技术、定点诱变或等效的人工技术进行改变。
所需要的蛋白质可包括任何序列,可以是天然的蛋白质(包括酶原)、多肽或肽、或天然蛋白质、多肽或肽的变体或片段(可以是例如,结构域);或完全是合成的蛋白质、多肽或肽;或不同蛋白质、多肽或肽的单个或多重融合体(天然的或合成的)。这样的蛋白质可从WO 01/79258、WO 01/79271、WO 01/79442、WO 01/79443、WO 01/79444和WO 01/79480中提供的列表,或其变体或片段的列表获得,然而该获得途径并非是唯一的;上述所公开的内容在此引入作为参考。尽管这些专利申请在白蛋白的融合体伴侣的范围中提供蛋白质的列表,本发明不受如此限制并且,为了本发明的目的,蛋白质列表中的任何一项都可单独存在,或作为白蛋白的融合体伴侣、免疫球蛋白的Fc区域、运铁蛋白,或作为所需要多肽的任何其他蛋白质而存在。
本发明中用于表达所需要蛋白质的优选实例包括白蛋白、运铁蛋白、乳铁蛋白、内抑制素、血管抑制素、胶原、免疫球蛋白、Fab′片段、F(ab′)2、ScAb、ScFv、干扰素、IL10、IL11、IL2、干扰素α类和亚类、干扰素β类和亚类、干扰素γ类和亚类、IL1-受体拮抗剂、EPO、TPO、prosaptide、cyanovirin-N、5-螺旋、T20肽、T1249肽、HIV gp41、HIV gp120、纤维蛋白原、尿激酶、原尿激酶、tPA(组织纤溶酶原激活物)、水蛭素、血小板衍生的生长因子、甲状旁腺激素、胰岛素原、胰岛素、胰岛素样生长因子、降血钙素、生长激素、转化生长因子β、肿瘤坏死因子、G-CSF、GM-CSF、M-CSF、前-和活性形式的凝血因子、包括但不限于血纤维蛋白溶酶原、纤维蛋白原、凝血酶、前凝血酶、原凝血酶、von Willebrand′s因子、α1-抗胰蛋白酶、纤溶酶原激活物、抗血友病因子VII、凝血因子VIII、凝血因子IX、凝血因子X和凝血因子XIII、神经生长因子、LACI(脂蛋白缔合的凝结抑制剂、亦称组织因子途径的抑制剂或外来途径的抑制剂)、血小板-衍生的内皮细胞生长因子(PD-ECGF)、葡萄糖氧化酶、血清胆碱酯酶、抑肽酶(aprotinin)、淀粉样蛋白前体、内-α胰白酶抑制剂、抗凝血酶III、各种脱辅基-脂蛋白(apo-lipoprotein)、蛋白质C、蛋白质S、上述任何蛋白质的变体或片段。
″变体″,在所需要蛋白质的范围中,是指在一个或多个位置已有氨基酸插入、缺失、或保守或非保守的取代的蛋白质,条件是这种变化导致蛋白质的基本特性,例如酶活性或受体结合(类型和特异活性)、热稳定性、某一pH-范围内的活性(pH-稳定性)没有显著地变化。″显著地″在这里是指本领域的技术人员将认识到变体的特性可能还是不同的,但是对于原始的蛋白质是明显的。
通过″保守取代″是指例如Val、Ile、Leu、Ala、Met;Asp、Glu;Asn、Gln;Ser、Thr、Gly、Ala;Lys、Arg、His;和Phe、Tyr、Trp的组合。优选的保守取代包括Gly、Ala;Val、Ile、Leu;Asp、Glu;Asn、Gln;Ser、Thr;Lys、Arg;和Phe、Tyr。
″变体″一般具有与其衍生的多肽有至少25%、至少50%、至少60%或至少70%、优选至少80%、更优选至少90%、更优选至少95%、还更优选至少99%、最优选至少99.5%的序列同一性。
两个多肽之间的序列同一性百分数可利用合适的计算机程序来确定,例如威斯康辛大学的遗传学计算机组的GAP程序,并且可认识到同一性百分数是以与其序列已经最佳排列对比的多肽的关系来计算的。
备选地可利用Clustal W程序(Thompson等人,(1994)核酸研究NucleicAcids Res.,22(22),4673-80)进行序列对比。所使用的参数可以如下快速成对地序列对比参数K-字节组(字)大小;1,窗口大小;5,缺口罚分;3,上端对角线的数目;5.积分方法×百分数·多重序列对比参数缺口开放罚分;10,缺口扩展罚分;0.05。
·积分矩阵BLOSUM。
这种变体可以是天然的,或利用本领域众所周知的蛋白质工程和定点诱变的方法所制备的。
″片段″,在所需要蛋白质的范围中,是指在一个或多个位置已有缺失的蛋白质。因此该片段可包括完全成熟多肽的完全序列的至多5、10、20、30、40或50%。一般该片段包括完全所需要蛋白质的完全序列的达到60%、更一般地达到70%、优选地达到80%、更优选地达到90%、更优选地达到95%、还更优选地达到99%。所需要蛋白质的特别优选的片段包括所需要蛋白质的一个或多个完整的结构域。例如,所需要的蛋白质可以是白蛋白。白蛋白具有3个结构域。白蛋白的特别优选的片段可包含一个或两个结构域,因此一般包括白蛋白完全序列的至少33%或至少66%。
白蛋白和运铁蛋白,或其变体或片段,作为所需要的蛋白质是特别优选的,特别当其是人起源的时,即它们具有与在天然产生的人蛋白质中所发现的相同的序列。
在此所使用的术语″人白蛋白″是表示不能与人血清白蛋白或其变体或片段区分的物质。所谓″变体″,我们包括插入、缺失和保守或非保守的取代,其中这种变化基本上不改变白蛋白的膨胀的(oncotic)、有效的配体结合或免疫原特性。例如我们包括在EP-A-322 094中公开的人白蛋白的天然存在的多态性变体或人白蛋白类似物。一般地,人白蛋白的变体或片段具有人血清白蛋白的配体结合活性(例如胆红素-结合)的至少10%(优选地至少50%、80%、90%或95%)和人血清白蛋白的膨胀活性(重量比)的至少50%(优选地至少80%、90%或95%)。白蛋白、白蛋白变体或白蛋白的片段的膨胀活性,亦称胶体渗透压,可通过由Hoefs,J.C.(1992)肝脏病学Hepatology 16396-403所描述的方法来确定。胆红素结合可通过在527nm处相对于HSA的荧光增强来测量。将胆红素(1.0mg)溶于50μL的1M NaOH中,并且用去矿物质的水稀释到1.0mL。将胆红素原液在100mM Tris-HCI pH8.5、1mMEDTA中稀释,以在荧光计比色杯中得到0.6nmol的胆红素mL-1。在用HSA,在HSA∶胆红素的比值为0至5mol∶mol的范围内滴定期间,通过在448nm处激发和在527nm处发射(10nm狭缝宽度)来测量荧光。
在优选的实施方案中,所需要的蛋白质可以是运铁蛋白。这包括运铁蛋白家族的成员(Testa,铁代谢的蛋白质,CRC Press,2002;Harris和Aisen,铁载体和铁蛋白第5卷,物理的生物无机化学,VCH,1991)及其衍生物,例如运铁蛋白,突变的运铁蛋白(Mason等人,1993,生物化学Biochemistry,32,5472;Mason等人,1998,生物化学杂志Biochem.J.,330(1),35)、截短的运铁蛋白、运铁蛋白裂片(lobes)(Mason等人,1996,Protein Expel.Purif.,8,119;Mason等人,1991,Protein Expr.Purif,2,214),乳铁蛋白(lactoferrin)、突变的乳铁蛋白、截短的乳铁蛋白、乳铁蛋白裂片或上述任何蛋白质与其他肽、多肽或蛋白质的融合体(Shin等人,1995,Proc.Natl.Acad.Sci.USA,92,2820;Ali等人,1999,生物化学杂志J.Biol.Chem.274,24066;Mason等人,2002,生物化学Biochemistry,41,9448)。运铁蛋白可以是人运铁蛋白。
在此所使用的术语″人运铁蛋白″是表示不能与来源于人的运铁蛋白或其变体或片段区分的物质。″变异″包括插入、缺失和保守或非保守的取代,其中这种变化基本上不改变运铁蛋白的有效的配体结合或免疫原特性。例如包括人运铁蛋白的天然存在的多态性变体或人运铁蛋白类似物。一般地,人运铁蛋白的变体或片段的配体结合活性(例如铁-结合)为人运铁蛋白的配体结合活性的至少50%(优选地至少80%、90%或95%)(重量比)。运铁蛋白或试验样品的铁结合活性可通过在蛋白质的不含铁和充分的铁负载状态中的470nm∶280nm的吸收度比值来以分光光度分析确定。试剂应该是不含铁的,除非另有说明。可通过相对于0.1M柠檬酸、0.1M乙酸盐、10mMEDTA pH4.5进行透析来从运铁蛋白或试验样品中除去铁。在100mMHEPES、10mM NaHCO3pH8.0中蛋白质应该为大约20mg/mL。测量在水中稀释的脱铁运铁蛋白的470nm∶280nm吸光度比值(Calbiochem,CNBiosciences,诺丁汉、英国),可以分光光度分析精确地确定280nm处的吸光率(0%的铁结合)。通过在2mL 1M NaOH中溶解191mg的硝基三乙酸,然后加入2mL 0.5M的氯化铁来制备20mM的铁-次氮基三乙酸酯(FeNTA)溶液。用去离子水稀释到50mL。通过加入充分过量的新鲜制备的20mMFeNTA,使脱铁运铁蛋白(apo-transferrin)充分负载铁(100%铁结合),然后完全相对于100mM HEPES、10mM NaHC03 pH8.0透析完全-运铁蛋白(holo-transferrin)制剂,以在测量470nm∶280nm处的吸收度比值前除去残余的FeNTA。利用试验样品重复该方法,其从起初就应该避免铁,并且将最终的比率与对照进行比较。
另外,可使用上述任何单个或多重异源的融合体;或与白蛋白、运铁蛋白或免疫球蛋白或这些蛋白质的任何变体或片段的单个或多重异源融合体。这种融合体包括白蛋白N-末端融合体、白蛋白C-末端融合体和共-N-末端和C-末端白蛋白融合体,如由WO 01/79271所例证的,以及运铁蛋白N-末端融合体、运铁蛋白C-末端融合体,和共-N-末端(co-N-terminal)和C-末端运铁蛋白融合体。
在优选的实施方案中,本发明第一个方面所述的多肽包括分泌前序列,其包括如上所定义的X1-X5五肽的至少一部分。换言之,起分泌成熟的所需要多肽的作用的前导序列区域包含,1、2、3、4或5个氨基酸的X1-X5五肽基序。其中分泌前序列区域包含少于5个氨基酸的X1-X5五肽基序,被包含在前序列中的基序的那些氨基酸位于前序列区域的一个边界,以使得其与X1-X5五肽基序的剩余氨基酸邻接。
在更优选的实施方案中,本发明第一个方面所述的多肽包括前导序列,其特征在于它包括含有由本发明第一个方面所定义的基序的分泌前序列。尽管不是必需的,但通常前导序列位于初级翻译产物的N末端,并且尽管不是必须的,但一般是在分泌过程期间从蛋白质切割下来,以产生成熟的″所需要的″蛋白质。
尽管不是必需的,但分泌前导序列通常是N-末端氨基酸序列,其导致多肽中形成从产生该蛋白质的宿主细胞分泌出来的部分。定义分泌为,从细胞质的区室穿过磷脂双分子层,一般地,然而并非唯一地为真核生物的内质网或原核生物的质膜的蛋白质翻译后移位的共翻译。分泌的蛋白质可保持在细胞内(一般地,然而并非唯一地,在内质网、高尔基体、液泡、溶酶体或外周质间隙内),或可能从细胞分泌到培养基中。起分泌前导序列作用的序列,如果与同等没有分泌前序列的多肽相比,它可导致更多的多肽从产生该蛋白质的宿主细胞分泌出来。一般说来,具有前导序列的多肽可能分泌出来,而没有前导序列的多肽则不能分泌。然而,本发明预期其中不同的前导序列将具有不同水平的效率的情况。因此前导序列可产生至少10%、20%、30或40%或50%,一般至少60%或70%,优选地至少80%、更优选地至少90%、更优选地至少95%、还更优选地至少98%、最优选地至少99%的由细胞产生的成熟蛋白质,可从细胞分泌出来。可例如通过提供具有适当DNA构建体的宿主细胞,并且测量分泌的成熟蛋白质的数量(例如,人白蛋白),与细胞内产生的任何成熟蛋白质相比较,来确定成熟多肽从细胞的分泌。
当宿主细胞是酵母细胞(例如,酿酒酵母或巴斯德毕赤酵母)时,提供优选的分泌前导序列用于上述水平的分泌。可通过例如在下列实施例中陈述的方法来确定成熟多肽从酵母宿主细胞的分泌。
因此,可通过比较包括待测试前导序列的蛋白质分泌的水平和包括对照前导序列的蛋白质分泌水平来测量分泌。为了确定给定的序列(″待测序列″)是否能够达到给定的分泌水平,可使用第一方法,其中′启动′质粒,一般为在EP 0 286 422中所述类型的酵母分裂载体,具有LEU2基因和编码具有如SEQ ID NO26所限定的改进前导序列的编码rHA的多核苷酸,其可操作地连接功能性的酵母调节区域,例如如下所述的PRB1启动子和ADH1终止子,对其进行改进以包括代替前导序列中同等区域的编码待测试序列的多核苷酸序列,由此提供测试质粒。作为第一对照,使用在WO 90/01063中所描述的编码前导序列的未改变的′启动′质粒。His4回复的酿酒酵母菌株AH22 cir0(Hinnen等人,1978,Proc.Natl.Acad.Sci.USA,75(4),1929-33;Mead等人,1986,Mol.Gen.Genet.,205,417),用作测试宿主。可通过在补充有0.002%(w/v)亮氨酸的BMMD琼脂上培养足够的AH22细胞,直到出现集落来获得AH22(leu2、his4、can1)的HIS4回复体(即,His+)。通过接种到补充有0.002%(w/v)亮氨酸(平板1)的BMMD琼脂、补充有0.002%(w/v)亮氨酸和补充有0.002%(w/v)组氨酸的BMMD琼脂(平板2)、以及BMMD琼脂(平板3)上测试集落来证实这是Leu-和His+(即AH22 His+(leu2、can1))。AH22 His+(leu2、can1)分离物可在平板1和平板2上生长,但不会在平板3上生长。
用测试和对照质粒转化测试宿主成为亮氨酸原养型。挑取转化体到含有2%(w/v)葡萄糖(BMMD)的缓冲基本培养基(BMM,由Kerry-Williams,S.M.等人描述(1998)酵母Yeast 14,161-169)上,并且在30℃培养生长直到足够用于进一步的分析。根据注放式方法(fill & draw procedure),在培养基中,利用如WO 96/37515所述用于补料分批法(fed-batch procedure)的控制参数,以高细胞密度发酵的方式培养转化体当补料分批法的补料阶段(feed phase)完成时,从发酵罐导管移出90%的培养体积。在开始添料前,利用在WO96/37515中所描述的培养基和控制参数,向剩余10%体积的培养物加入批量培养基(保持pH控制)。注放式方法可重复无限的循环。通过无细胞完整培养物的SDS-PAGE的扫描显象测密术,评估包含测试和对照质粒的转化体的人白蛋白生产率(YP/S)。YP/S表示在发酵期间加入到培养物中的每克蔗糖与人白蛋白(mg)的比率。
当测试转化体和第一对照转化体用相当的发酵设备培养相当长度的时间时,如通过上述第一方法所测量的YP/S来确定的,可获得本发明所述前导序列的分泌水平比通过第一对照获得的分泌水平至少高出10%、20%、30%、40%、50%、60%、70%、80%、90%、100%、110%、120%、130%、140%、150%、160%、170%、180%、190%、200%、210%、220%、230%、240%、250%、260%、270%、280%、290%、300%、310%、320%、330%、340%、350%、360%、370%、380%、390%、400%、410%、420%、430%、440%、450%、460%、470%、480%、490%或500%。因此可证明本发明所述前导序列的分泌水平比第一个对照高出达到400%、450%、500%、550%、600%、650%、700%、750%或更多。特别优选的可获得本发明所述前导序列的分泌水平比通过第一对照获得的分泌水平高出至少400%,例如408%,或至少440%,例如442%。
作为第一个方法的备选,第二方法可用来确定给定的序列(″待测序列″)是否能够达到给定的分泌水平。第二方法本质上与第一方法相同。然而,第二方法使用如上限定的′启动′质粒,除了代替SEQ ID NO26,该质粒具有SEQ ID NO22所限定的多核苷酸序列,其也编码与编码rHA(″第二启动″质粒)的多核苷酸连接的具有WO 90/01063中所述氨基酸序列的前导序列。通过改进第二启动质粒来产生测试质粒以包括编码代替第二启动质粒前导序列同等区域的测试序列的多核苷酸序列。作为第二对照,使用未改变的第二启动质粒。如上第一方法所述制备包括测试转化体和第二对照质粒的转化体,并且在培养基中根据补料分批法,并且利用如WO 96/37515中所述的控制参数,以高细胞密度发酵进行培养。如上所述评估YP/S。
当测试和第二对照转化体用相当的发酵设备培养相当长度的时间时,如通过上述第二方法所测量的YP/S来确定的,可获得本发明所述前导序列的分泌水平比通过第二对照获得的分泌水平至少高出1%、2%、3%、4%、5%、6%、7%、8%、9%、10%、11%、12%、13%、14%、15%、16%、17%、18%、19%或20%。因此可证明本发明所述前导序列的分泌水平比第二对照高出达到20%、30%、40%、50%、60%、70%、80%、90%、100%或更多。特别优选的可获得本发明所述前导序列的分泌水平比通过第二对照获得的分泌水平高出至少5%,例如6%,或至少10%,例如12%、13%、14%、15%或16%。
在一个实施方案中,本发明所述前导序列可获得如上述关于第一个方法所限定的分泌水平。在另一个实施方案中,本发明所述前导序列可获得如上述关于第二方法所限定的分泌水平。在特别优选的实施方案中,本发明所述前导序列可获得如上述关于第一和第二方法所限定的分泌水平。
可如下分析来自细胞生物质(biomass)的溶解的蛋白质和在培养物上清液中的分泌的蛋白质1.凝胶渗透高压液相色谱法。
2.SDS-PAGE的密度测定法3.火箭免疫电泳如本领域技术人员已知的,可相对于所需要蛋白质的标准曲线来定量分泌的和胞内的所需要蛋白质的量并且标准化至生物质的量。
通常优选的假设前导序列来源于成熟蛋白质的不成熟版本,该前导序列是或将是与该成熟蛋白质附着的。因此,例如当成熟蛋白质是白蛋白,优选使用包括天然存在的白蛋白分泌前序列,或原序列或前-原序列的序列。然而,备选地,前导序列可来源于除了成熟蛋白质的前导序列以外的来源。
因此在优选的实施方案中,本发明第一个方面的多肽的前导序列包括来源于白蛋白分泌前序列或其变体的分泌前序列。
白蛋白前序列的″变体″,如上所述,是指白蛋白前序列中在一个或多个位置,除了定义为上述X1、X2、X3、X4或X5的位置外,存在氨基酸插入、缺失、或保守(如上所述)或非保守的取代,条件是这种变化仍然提供起前序列作用的肽。
优选地,白蛋白前序列的″变体″,除了定义为上述X1-X5外,与天然存在的白蛋白前序列,最优选为
图1的白蛋白前序列具有至少2、至少3或至少4、优选地至少5、更优选地至少6、更优选地至少7、还更优选地至少8、最优选地至少9个相同的氨基酸。
更优选地,分泌前序列来源于白蛋白分泌前序列,本发明第一个方面所述的多肽分别在位置-20、-19、-18、-17和-16具有X1、X2、X3、X4和X5,而代替在那些位置天然存在的氨基酸,其中数字编号是使得-1残基为天然白蛋白分泌原序列的C-末端氨基酸,并且其中X1、X2、X3、X4和X5是如上所述的氨基酸。例如,当上述的数字编号应用于人白蛋白分泌前序列的序列(例如在WO 90/01063中所公开的)时,获得如下N-Met Lys Trp Val Ser Phe Ile Ser Leu Leu24-23 -22 -21 -20 -19 -18 -17 -16 -15Phe Leu Phe Ser Ser Ala Tyr Ser-C-14 -13 -12 -11 -10 -9-8-7在特别优选的实施方案中,所使用的分泌前-序列来源于人白蛋白分泌前序列的序列。
因此,例如,X1-X5五肽可在其N-末端直接地或间接地与下列序列的C-末端融合,SEQ ID NO 8-N-Met-Lys-Trp-Val-CSEQ ID No 8或其保守取代的变体,即-N-Met-(Lys/Arg/His)-(Phe/Trp/Tyr)-(Ile/Leu/Val/Ala/Met)-CSEQ ID No.33另外或备选的,可在其N-末端直接地或间接地与至少一个下列序列的N-末端融合-N-Leu-Phe-Leu-Phe-Ser-Ser-Ala-Tyr-Ser-C
SEQ ID No 9或其保守取代的变体,即-N-(Ile/Leu/Val/Ala/Met)-(Phe/Trp/Tyr)-(Ile/Leu/Val/Ala/Met)-(Phe/Trp/Tyr)-(Ser/Thr/Gly/Tyr/Ala)-(Ser/Thr/Gly/Tyr/Ala)-(Ile/Leu/Val/Ala/Met)-(Phe/Trp/Tyr)-(Ser/Thr/Gly/Tyr/Ala)-CSEQ ID No.10或N-Leu-Phe-Leu-Phe-Ser-Ser-Ala-Tyr-Ser-Arg-Ser-Leu-Asp-Lys-Arg-CSEQ ID No 11或N-Leu-Phe-Leu-Phe-Ser Ser-Ala-Tyr-Ser-Arg-Gly-Val-Phe-Arg-Arg-CSEQ ID No.30SEQ ID No 9中给出的序列表示天然人白蛋白前序列的最后9个氨基酸。至于SEQ ID No 11,其与WO 90/01063的两个主要融合前导序列中的一个的最后6个氨基酸融合,在SEQ ID No.30的情况下,SEQ ID No.9与天然人白蛋白原序列的最后6个氨基酸融合。
优选地,在所有情况下,X1是F、X2是I、X3是V、X4是S或T以及X5是I。
在优选的实施方案中,五肽在其N-末端与SEQ ID NO 8或其保守取代的变体序列的C-末端融合,以及在其C-末端与SEQ ID NO 9、其保守取代的变体、SEQ ID No.10、11或30的序列的N-末端融合,由此形成,例如,下列序列中的一个-N-Met-Lys-Trp-Val-X1-X2-X3-X4-X5-Leu-Phe-Leu-Phe-Ser-Ser-Ala-Tyr-Ser-CSEQ ID No 12或N-Met-Lys-Trp-Val-X1-X2-X3-X4-X5-(Ile/Leu/Val/Ala/Met)-(Phe/Trp/Tyr)-(Ile/Leu/Val/Ala/Met)-(Phe/Trp/Tyr)-(Ser/Thr/Gly/Tyr/Ala)-(Ser/Thr/Gly/Tyr/Ala)-(Ile/Leu/Val/Ala/Met)-(Phe/Trp/Tyr)-(Ser/Thr/Gly/Tyr/Ala)-C
SEQ ID No 13或N-Met-Lys-Trp-Val-X1-X2-X3-X4-X5Leu-Phe-Leu-Phe-Ser-Ser-Ala-Tyr-Ser-Arg-Ser-Leu-Asp-Lys-Arg-CSEQ ID No 14N-Met-Lys-Trp-Val-X1-X2-X3-X4-X5-Leu-Phe-Leu-Phe-Ser-Ser-Ala-Tyr-Ser-Arg-Gly-Val-Phe-Arg-Arg-CSEQ ID No 31其中X1-X5为如上所述,或如上所述的其保守取代的变体。
特别优选的实施方案具有,如分泌前序列,SEQ ID NO 28的序列-N-Met-Lys-Trp-Val-Phe-Ile-Val-Ser-Ile-Leu-Phe-Leu-Phe-Ser-Ser-Ala-Tyr-Ser-CSEQ ID No 28即,来源于人血清白蛋白分泌前序列的前序列(pre sequence),X1、X2、X3、X4和X5在位置-20、-19、-18、-17和-16,以及X1、X2、X3、X4和X5如SEQ ID No.7所限定的。
从上所述可显而易见的是,如上所限定的分泌前序列(secretion presequence),例如SEQ ID Nos 12或28的序列可与分泌原序列(secretion prosequence)结合以形成功能性的前-原分泌序列(pre-pro secretion sequence)。在优选的实施方案中,前序列基序通过肽键在其C-末端与分泌原序列基序的N-末端氨基酸融合,由此形成前-原序列基序。可优选使用来源于成熟蛋白质的不成熟版本的原序列,该前导序列是或将是与该成熟蛋白质连接的。也可优选使用这样的原序列(pro sequence),其实质上与未改变的前序列连接,或其是来自不相关的前导序列的原序列或原序列的一部分。
优选地,原序列在其C-末端以二碱基对的氨基酸终止,即各自为Lys或Arg。
一般分泌原序列基序是白蛋白分泌原序列或其变体,这种变体包括二碱基对的氨基酸,并且只在其它位置具有保守取代,通常人白蛋白分泌原序列,即具有序列N-Arg-Gly-Val-Phe-Arg-Arg-C或其变体。在另一个优选的实施方案中,原序列包括如对于白蛋白原序列所限定的完整或部分的酵母MFα-1分泌原序列,即N-Ser-Leu-Asp-Lys-Arg-C或其变体。
将在WO 90/01063中限定的前导对应部分与人白蛋白前导进行-比较,本发明的多肽具有至少4个氨基酸变化,即Ser-20Phe或Trp或Tyr;Phe-19Ile或Leu或Val或Ala或Met;Ile-18Leu或Val或Ala或Met;以及Leu-16Ile或Val或Ala或Met,其中符号指,取第一个指定的突变为例,在位置-20的丝氨酸残基(即相对于将利用前导序列进行分泌的成熟蛋白质的N-末端减去20)变换成苯丙氨酸残基。这在图1中举例说明。
优选的前-原序列包括序列MKWVFIVSILFLFSSAYSRY1Y2Y3Y4Y5其中Y1是Gly或Ser,Y2是Val或Leu,Y3是Phe或Asp,Y4是Arg或Lys以及Y5是Arg或Lys。
在优选的实施方案中,Y1是Gly、Y2是Val以及Y3是Phe。在另一个优选的实施方案中,Y1是Ser、Y2是Leu以及Y3是Asp。
一般地Y4是Arg以及Y5是Arg。备选地优选Y4是Lys以及Y5是Arg。另一个优选方案是其中Y4是Lys以及Y5是Lys。Y5是Lys时Y4也可能是Arg。
特别优选的实施方案具有,如分泌前原序列,SEQ ID NO 32的序列N-Met-Lys-Trp-Val-Phe-Ile-Val-Ser-Ile-Leu-Phe-Leu-Phe-Ser-Ser-Ala-Tyr-Ser-Arg-Ser-Leu-Asp-Lys-Arg-CSEQ ID No 32本发明第二个方面提供分离的多核苷酸,其具有编码如本发明第一个方面所定义的基序的序列。
如在此所使用的,术语″分离的″包括这样的含义,当多核苷酸是DNA分子时,该多核苷酸是从至少大部分的染色体分离的,在该染色体上DNA分子是天然存在的,以及为多核苷酸是RNA分子时,其是从完整细胞分离的,在该完整细胞中RNA分子是天然转录的。换言之,不要求多核苷酸是其先前已经存在,例如在自然界中存在的形式。因此,本发明第二个方面所述的多核苷酸包括已经克隆到例如质粒的细菌或真菌载体、或例如噬菌体的病毒载体中的多核苷酸。优选地这样的克隆是从组成相关染色体的DNA文库的克隆分离的。
线性的氨基酸序列可利用简并的标准遗传密码反向翻译成为DNA序列(图2),其中大多数氨基酸是由多于一个的三核苷酸密码子编码的。
例如,编码如SEQ ID 1所限定的肽的DNA序列可推导为5′-(TTY/TGG/TAY)-(ATH/TTR或CTN/GTN/GCN/ATG)-(TTR或CTN/GTN/GCN/ATG)-(AGY或TCN/ACN)-(ATH或CTN/GTN/GCN/ATG)-3′SEQ ID No 15其中″3′″和″5′″表示多核苷酸序列的方向,而不是实际的末端,换言之,多核苷酸序列可以在每个末端或两头与其他的多核苷酸序列相连(例如,融合或连接),并且其中Y、R、H和N如在图2中所限定的。
利用相同的转化操作DNA序列5′-TTY-ATH-GTN-(TCN或AGY)-ATH-3′SEQ ID No 16可被推导出编码SEQ ID No 7的多肽。
至于包括编码天然存在的成熟蛋白质,例如人白蛋白的序列的多核苷酸序列,这可以是天然存在的编码序列,例如人白蛋白基因序列、或互补DNA序列(cDNA)或包含一个或多个内含子的cDNA。
进一步地也可将序列变化导入,例如编码区中。改变编码本发明多肽的DNA的合乎需要的方式是使用如由Saiki等人(1988)Science 239,487-491公开的聚合酶链式反应。在该方法中,被酶促扩增的DNA侧接两个特异寡核苷酸引物,该引物本身结合到扩增的DNA中。所述的特异引物可包含限制性核酸内切酶识别位点,其可利用本领域已知的方法而用于克隆到表达载体中。
通过用本领域中公知的和下列更详细描述的方法来化学合成寡核苷酸,然后连接另一个遗传学构建体元件,可最方便地制备编码本发明前导序列的多核苷酸。
其中需要改变编码成熟白蛋白的多核苷酸,这可通过从天然cDNA序列开始定点诱变或PCR诱变,或从组装合成的寡核苷酸而最方便地实现。这种技术也是本领域中常规的,并且在下列任何情况下更详细地进行陈述。
改变编码序列可能是有利的,因为在特定的生物体内,编码一些高度表达的蛋白质的多核苷酸序列偏爱用于特定氨基酸的一些密码子;这被称作密码子偏好。在本发明第二个方面的优选实施方案中,可将标准遗传密码简化为用于所选择的宿主生物体的优选密码子。在本发明第二个方面特别优选的实施方案中,标准遗传密码可简化为酵母的优选密码子。(参见Sharp和Crowe(1991)Yeast 7,657-678的表4)有利地,该列表的优选酵母密码子是通过包含天门冬酰胺密码子5′-GAT-3而改变的(图3)。
利用SEQ ID No 1的肽序列作为实例,在酵母中编码该肽的密码子偏好的DNA序列可推导为5′-(TTC/TGG/TAC)-(ATY/TTG/GTY/GCT/ATG)-(TTG/GTY/GCT/ATG)-(TCY/ACY)-(ATY/GTY/GCT/ATG)-5′SEQ ID No 17利用相同的转化操作密码子-偏好的简并DNA序列5′-TTC-ATY-GTY-TCY-ATY-3′SEQ ID No 18可推导具有SEQ ID No 7的序列的特别优选的多肽基序,尽管最优选的编码SEQ ID No.7序列的多肽基序的密码子-偏好DNA序列是-TTCATCGTCTCCATTSEQ ID No.34利用图2中给出的遗传密码,或可获得的对于预定宿主的优选密码子偏好表格,或图3给出的优选密码子偏好,相同的转化操作可用于转化任何所需要的氨基酸序列成为部分丰余的多核苷酸序列。通过该方法可变为DNA序列的氨基酸序列可取自,但不限于,本发明第一个方面所述的多肽。例如,可如此衍生出成熟人白蛋白的编码区序列。EP 308 381公开了用于人白蛋白的部分地酵母密码子-优化的编码序列。在此SEQ ID No.20是这种序列。有利地,当容许DNA序列丰余时,可在结构域和亚结构域边界导入限制酶切位点,而不干扰编码的氨基酸序列(或密码子偏好,如果使用图3)。
可解决剩余的DNA序列冗余,用冗余的DNA序列平衡各个氨基酸备选密码子发生的数目。有利地,可除去或减少表示可能的转录终止子序列的DNA序列,其中可能使用简并密码子的DNA序列冗余。最后用冗余序列平衡的氨基酸备选密码子可被再平衡,而不与上述改变有冲突。
本发明第二个方面所述的多核苷酸可在其5′和/或3′末端直接或间接地与一个或多个其他的核苷酸序列融合,例如形成完整的基因或表达盒。因此,表达盒也可合乎需要地包含用于转录起始和终止的位点,以及在转录区中,包含用于翻译起始的核糖体结合位点。(Hastings等人,WO98/16643,1998 4月23日公开。)因此,本发明第二个方面包括多核苷酸,其包括编码异源蛋白质的DNA与编码本发明第一个方面所述的多肽的DNA序列的连续或非连续的融合体DNA序列,特别地,其中所需要的蛋白是白蛋白,或其变体或片段,在本文中,术语″异源蛋白质″指它与″所需要的蛋白质″不相同,即不形成同源二聚体。
因此,多核苷酸可在其5′末端直接或间接地与启动子(由容许结合RNA聚合酶和发生转录的DNA序列形成的表达控制元件)融合,和/或在其3′末端与其他的调节序列,例如翻译终止序列融合。因此多核苷酸可以可操作地与一个或多个调节的区域连接,通常为转录调节区。″可操作地连接的″是指调节区域以这种方式连接,使得它能够对所述多核苷酸序列产生作用。选择使用何种调节区域可部分地取决于预期的宿主(即预定的表达系统),并且优选序列的选择是本领域技术人员公知的。
许多表达系统是已知的,包括使用下列的系统用例如重组噬菌体、质粒或柯斯质粒DNA表达载体转化的细菌(例如,枯草芽孢杆菌(Bacillussubtilis)或大肠杆菌(Escherichia coli));用例如酵母表达载体转化的酵母(例如酿酒酵母或巴斯德毕赤酵母);用例如病毒表达载体(例如杆状病毒)转化的昆虫细胞系统;用例如病毒或细菌表达载体转染的植物细胞系统;在细胞培养物中、转基因的或作为基因治疗的,用例如腺病毒表达载体转染的动物细胞系统。宿主细胞优选地是酵母(而最优选地酵母属种为,例如啤酒酵母或毕赤酵母种,例如巴斯德毕赤酵母)。
因此,本发明第三个方面提供用本发明第二个方面所述的多核苷酸转化的宿主细胞。宿主细胞可以是原核的或真核的。细菌细胞是优选的原核宿主细胞,特别地如果它们能分泌蛋白质,如一些种属的芽胞杆菌和埃希氏杆菌。优选的真核宿主细胞包括植物、真菌、酵母和动物细胞,优选为脊椎动物细胞,更优选为哺乳动物细胞,例如来自小鼠、大鼠、奶牛、绵羊、山羊、猪、水牛、牦牛、马或其他驯养的动物,猴子或人。合适的人细胞包括来自人成纤维细胞系的细胞。因此宿主细胞可以是哺乳动物原位转基因的细胞,并且因此可以是基因治疗处理或转基因个体生产的结果。就后者来说优选个体是非人的哺乳动物。
细菌宿主的例证性的属包括大肠杆菌和枯草芽孢杆菌。
植物宿主的例证性的属包括种子植物、蕨类植物(例如蕨、石松、马尾)、苔藓植物(例如地钱和苔藓)以及藻类。一般地,植物宿主细胞可来源于多细胞的植物,通常为种子植物,例如裸子植物或被子植物。合适的裸子植物包括针叶树(例如松树、落叶松、冷杉、云杉和雪松)、苏铁类植物、紫杉和ginkos。更一般地,植物宿主细胞是被子植物的细胞,其可以是单子叶或双子叶植物,优选为作物。优选的单子叶植物包括玉米、小麦、大麦、高粱、洋葱、燕麦、鸭茅和其它的Pooideae。优选的双子叶作物包括番茄、马铃薯、甜菜、木薯、十字花作物(包括油籽的油菜)、亚麻子、烟草、向日葵、纤维作物,例如棉花,以及豆科植物,例如豌豆、菜豆、特别为大豆,和苜蓿。因此宿主细胞可以是独立的细胞,例如单细胞植物的细胞或在细胞培养物中的维持细胞,或可能是在多细胞植物中的原位细胞。因此本发明预期完整的转基因植物的生产,其优选地保持稳定的和可遗传的转基因表型。
真菌宿主的例证性的属包括曲霉(Aspergillus)(例如黑曲霉(A.niger)和米曲霉(A.oryza))、链霉菌(Streptomyces)、青霉菌(Penicillium)和酵母。酵母的例证性的属预期在本发明的实施中是有用的,是毕赤酵母(汉逊酵母属Hansenula)、糖酵母属(Saccharomyces)、克卢费氏酵母属(Kluyveromyces)、假丝酵母(Candida)、球拟酵母属(Torulopsis)、有孢圆酵母属(Torulaspora)、裂殖酵母属(Schizosaccharomyces)、Citerojnyces、Pachysolera、德巴利酵母属(Debaromyces)、Metschunikowia、红冬孢酵母属(Rhodosporidium)、白冬孢酵母属(Leucosporidium)、Botryoascus、Sporidiobolus、拟内胞霉属(Endomycopsis)等。优选的属选自毕赤酵母(汉逊酵母属)、糖酵母属、克卢费氏酵母属和耶氏酵母(Yarrowia)种属。糖酵母属的实例是酿酒酵母,S.italicus和S.rouxii。克卢费氏酵母属的实例是K.fragilis和K.lactis。毕赤酵母(汉逊酵母属)的实例是巴斯德毕赤酵母、P.anomala和P.capsulata。Y.lipolytica是合适的耶氏酵母种属的实例。酵母宿主细胞包括YPH499、YPH500和YPH501,其一般可以从Stratagene克隆系统,La Jolla,CA 92037,美国,获得。
优选的哺乳动物宿主细胞包括可从ATCC获得的中国仓鼠卵巢(CHO)细胞,如CCL61,可从ATCC获得的NIH瑞士小鼠胚胎细胞NIH/3T3,如CRL 1658,以及可从ATCC获得的猴肾衍生的COS-1细胞,如CRL 1650。优选的昆虫细胞是可用杆状病毒表达载体转染的Sf9细胞。
如上所述,多核苷酸调节区域的选择可部分地取决于预定宿主的特性。
适用于细菌宿主细胞的启动子包括大肠杆菌lacI和lacZ启动子、T3和T7启动子、gpt启动子、噬菌体λPR和PL启动子、phoA启动子和trp启动子。一般在包含便于插入本发明DNA部分的限制酶切位点的质粒载体中提供与例证性的细菌宿主相适合的启动子序列。
真核启动子包括CMV即时早期启动子、HSV胸苷激酶启动子、早期和晚期SV40启动子以及反转录病毒LTRs的启动子。其他合适的启动子是本领域技术人员公知的。
用于啤酒酵母的合适启动子包括与下列基因相关的启动子PGK1基因、GHL1或GAL10基因、CYC1、PHO5、TRP1、ADH1、ADH2基因、甘油醛-3-磷酸脱氢酶的基因、己糖激酶、丙酮酸脱羧酶、磷酸果糖激酶、磷酸丙糖异构酶、磷酸葡糖异构酶、葡糖激酶、α-接合因子信息激素、a-接合因子信息素的基因、PRB1启动子、GPD1启动子、以及包括混合5′调节区部分和其他启动子的5′调节区部分,或上游活化位点(例如EP-A-258 067的启动子)的混合启动子。
用于粟酒裂殖糖酵母(Schizosaccharomyces pombe),另一个合适的宿主细胞的适当可调节启动子,是来自nmt基因的硫胺-可抑制的启动子,如Maundrell(1990)J.Biol.Chem.265,10857-10864所描述的,以及葡萄糖-可抑制的fbp1基因启动子,如Hoffman和Winston(1990)Genetics 124,807-816所描述的。
适合毕赤酵母的合适启动子、转化方法以及培养可在US 5 986 062中得到(在此引入作为参考)。例如,利用将重组质粒导入染色体的方法(JP-A-3-72889对应于EP-A-399455)、在酵母中表达HSA的方法(JP-A-60-41487对应于EP-A-123544、JP-A-63-395 76对应于EP-A-248657和JP-A-63 74493对应于EP-A-251744)和在毕赤酵母中表达HSA的方法(JP-A-2-104290对应于EP-A-344459)可影响生产-HSA的宿主(或生产-HSA的菌株)的制备。利用已知的方法,例如参考US 5,986,062,例如根据JP-A-3-83595或JP-A-4-293495(相应于EP-A-504823)中公开的方法可进行生产-HSA宿主的培养(HSA生产过程)。可以根据US 5,986,062制备用于培养转化宿主的培养基,并且根据US 5,986,062公开的内容,通过在搅动和通风下静止或振荡培养或分批、半分批或连续培养,优选地在15-43℃(更优选地20-30℃)培养宿主1-1,000小时。
合适的转录终止信号是本领域公知的。当宿主细胞是真核的,优选地转录终止信号来源于真核基因的3′侧翼序列,其包含转录终止和多聚腺苷酸的正确信号。合适的3′侧翼序列可以,例如,是天然与所使用的表达调控序列,即可相当于启动子连接的基因的侧翼序列。备选地,它们可以是不同的。在那种情况下,又当宿主是酵母时,优选地是啤酒酵母,则啤酒酵母ADH1基因的终止信号是优选的。
因此可利用如上所述的方法开发本发明第二个方面所述的多核苷酸用于任何所需要的宿主。
可如上所述从天然基因、cDNA或包含一个或多个内含子的cDNA之间的DNA融合体开发编码成熟人白蛋白的DNA序列,并且通过如上所述的方法衍生密码子优化的人白蛋白DNA序列。
SEQ IQ No 19是包括对于翻译起始位点为5′的22个核苷酸的多核苷酸序列,分泌前导序列SEQ ID No.32和成熟人白蛋白编码区SEQ ID No 20的优选的多核苷酸编码序列。编码序列以翻译终止密码子结束。一般地,这是TGA、TAG或TAA,不过在酵母中TAA是最有效的。优选地,进一步的翻译终止密码子(优选每个是TAA),通常包括一个或两个,优选地相互是邻近的或在每对终止密码子之间不多于3个碱基对。SEQ IQ No 19在两个末端侧翼连接适当的克隆位点。
本发明第二个方面的多核苷酸也可与用于导入到合适宿主中的多种其他DNA序列相连。伴随序列可取决于宿主的特性、将多核苷酸导入到宿主中的方式,以及是否需要附加体的维持或整合。例如,载体可包括用于在原核生物中增殖的原核复制子,例如Col E1起点,即使载体将用于在其他的非原核细胞类型中表达。
一般地,将本发明第二个方面所述的多核苷酸以正确的方向和用于表达的正确阅读框插入到例如质粒的表达载体中。
因此,可根据已知的技术使用多核苷酸,考虑到在此所教导的进行适当地改变,以构建表达载体,包括但不限于整合载体、着丝粒载体和附加体载体。
因此在本发明第二个方面的实施方案中,多核苷酸是载体。
一般的原核载体质粒是可从Biorad实验室(Richmond,CA,美国)获得的pUC18、pUC19、pBR322和pBR329;可从Pharmacia(Piscataway,NJ,美国)获得的pTrc99A、pKK223-3、pKK233-3、pDR540和pRIT5;可从Stratagene克隆系统(La Jolla,CA 92037,美国)获得的pBS载体、Phagescript、Bluescript载体、pNH8A、pNH16A、pNH18A、pNH46A。
一般的哺乳动物细胞载体质粒是可从Pharmacia(Piscataway,NJ,美国)获得的pSVL。该载体使用SV40晚期启动子来驱动克隆基因的表达,表达最高水平是在生产-T抗原的细胞,例如COS-1细胞中发现的。可诱导的哺乳动物表达载体的实例是pMSG,也可从Pharmacia(Piscataway,NJ,美国)获得。该载体使用小鼠乳腺肿瘤病毒长末端重复的糖皮质激素-可诱导的启动子来驱动克隆基因的表达。
有用的游离基因质粒载体是pRS403-406和pRS413-416,并且一般可从Stratagene克隆系统(La Jolla,CA 92037,美国)获得、YEp24(Botstein,D.,等人(1979)Gene 8,17-24),以及Yeplac122、Yeplac195和Yeplac181(Gietz,R.D.和Sugino.A.(1988)Gene 74,527-534)。其他的酵母质粒在WO 90/01063和EP 424 117,以及″EP-A-286 424的分裂载体″中有描述。质粒pRS403、pRS404、pRS405和pRS406是酵母整合质粒(YIps),并且整合酵母可选择的标记HIS3、TRP1、LEU2和URA3,如YIplac204、YIplac211和Yiplac 128(Gietz,R.D.和Sugino.A.(1988)Gene 74,527-534)。质粒pRS413-416是酵母着丝粒质粒(YCps),如YCplac22、YCplac33和YCplac111(Gietz,R.D.和Sugino.A.(1988)Gene 74,527-534)。
可使用本领域技术人员已知的方法来构建包含编码序列以及,例如合适的转录或翻译控制的表达载体。这种方法包括经粘合末端进行连接。在合适的限制性内切酶的作用下可在DNA片段和载体上产生相容的粘合末端。这些末端可经过互补碱基对快速退火,并且剩余的缺口可通过DNA连接酶的作用而靠近。
进一步的方法使用合成的双链寡核苷酸接头和接合子。具有平末端的DNA片段是通过噬菌体T4 DNA聚合酶或大肠杆菌DNA聚合酶I而产生的,这些酶除去突出的3′末端补平凹进的3′末端。可通过T4 DNA连接酶,将包含限定的限制性内切酶识别序列的合成接头和平末端的双链DNA片段与平末端的DNA片段连接。随后用合适的限制性内切酶消化以产生粘末端并且与具有相容末端的表达载体连接。接头也是化学合成的DNA片段,其包含用于连接的平末端,但其也具有预先形成的粘末端。备选地,一个或多个DNA片段可在存在或缺少一种或多种合成的,任选地包含粘末端的双链寡核苷酸时,在DNA连接酶的作用下连接在一起。
包含多种限制性核酸内切酶位点的合成接头是可从许多来源商业购买的,包括Sigma-Genosys Ltd,London Road,Pampisford,剑桥,英国。
因此产生的本发明的载体可用来转化用于表达的合适宿主细胞并且生产包括如本发明第一个方面限定的序列的多肽。这种技术包括在Rutter等人的1984年4月3日公开的美国专利号4,440,859、Weissman的1985年7月23日公开的4,530,901、Crowl的1986年4月15日公开的4,582,800、Mark等人的1987年6月30日公开的4,677,063、Goeddel的1987年7月7日公开的4,678,751、Itakura等人的1987年11月3日公开的4,704,362、Murray的1987年12月1日公开的4,710,463、Toole,Jr.等人的1988年7月12日公开的4,757,006、Goeddel等人的1988年8月23日公开的4,766,075以及Stalker的1989年3月7日公开的4,810,648中公开的技术,其全部在此引入作为参考。
用本发明的DNA构建体转化合适的细胞宿主伴随有一般取决于所使用载体的类型的公知方法。关于原核宿主细胞的转化,参见例如,Cohen等人(1972)Proc.Natl.Acad.Sci.USA 69,2110和Sambrook等人(2001)分子克隆,实验室指南,第3版,冷泉港实验室,冷泉港,纽约。酵母细胞的转化在Sherman等人(1986)Methods In Yeast Genetics,A Laboratory Manual,冷泉港,纽约中有描述。Beggs(1978)Nature 275,104-109的方法也是有用的。用于啤酒酵母转化的方法一般在EP 251 744、EP 258 067和WO 90/01063中有教导,其全部在此引入作为参考。关于脊椎动物细胞,用于转染这种细胞的试剂,例如磷酸钙和DEAE-葡聚糖或脂质体剂型,可从Stratagene克隆系统、或Life Technologies Inc.,Gaithersburg,MD 20877,美国获得。
电穿孔也是对转化细胞有用的并且已知在本领域中用于转化酵母细胞、细菌细胞和脊椎动物细胞。通过电穿孔转化酵母的方法在Becker和Guarente(1990)Methods Enzymol.194,182中公开。
可使用物理方法将DNA导入动植物细胞。例如,微注射使用极精细的吸管以将DNA分子直接注射到待转化的细胞的细胞核中。另一个实例包括用高速的微子弹,通常为已经包被有DNA的金或钨颗粒轰击细胞。
可用许多本领域认可的方式转化植物。本领域的技术人员可认识到方法的选择可取决于用于转化的靶植物的类型。转化植物细胞的合适方法的实例包括微注射(Crossway等人,BioTechniques 4320-334(1986))、电穿孔(Riggs等人,Proc.Natl.Acad.Sci.USA 835602-5606(1986)、农杆菌介导的转化(Hinchee等人,Biotechnology6915-921(1988);也参见Ishida等人,Nature Biotechnology 14745-750(1996),用于玉米转化)、直接的基因转移(Paszkowski等人,EMBO J.32717-2722(1984);Hayashimoto等人,PlantPhysiol.93857 863(1990)(水稻))、和利用可从Agracetus,Inc.,Madison,Wisconsin和Dupont,Inc.Wilmington,Delaware获得的装置对生物导弹粒子进行加速(参见例如,Sanford等人,美国专利4,945,050;和McCabe等人,Biotechnology 6923-926(1988))。也参见,Weissinger等人,Annual Rev.Genet.22421-477(1988);Sanford等人,Particulate Science and Technology527-37 91987)(洋葱);Svab等人,Proc.Natl.Acad.Sci.USA 878526-8530(1990)(烟草叶绿体);Christou等人,Plant Physical.87671-674(1988)(大豆);McCabe等人,Bio/Technology6923-926(1988)(大豆);Klein等人,Proc.Natl.Acad.Sci.USA,854305-4309(1988)(玉米);Klein等人,Bio/Technology 6559-563(1988)(玉米);Klein等人,Plant Physical.91440-444(1988)(玉米);Fromm等人,Bio/Technology8833-839(1990);以及Gordon-Kamm等人,Plant Cell 2603-618(1990)(玉米);Koziel等人,Biotechnology 11194-200(1993)(玉米);Shimamoto等人,Nature 338274-277(1989)(水稻);Christou等人,Biotechnology 9957-962(1991)(水稻);Datta等人,Bio/Technology8736-740(1990)(水稻);欧洲专利申请EP-A-332581(orchardgrass和其他Pooideae);Vasil等人,Biotechnology 111553-1558(1993)(小麦);Weeks等人,Plant Physiol.1021077-1084(1993)(小麦);Wan等人,Plant Physiol.10437-48(1994)(大麦)Jahne等人Theor.Appl.Genet.89525-533(1994)(大麦);Umbeck等人,Bio/Technology 5263-266(1987)(棉花);Casas等人,Proc.Natl.Acad.Sci.USA 9011212-11216(1993)(高粱);Somers等人,Bio/Technology 101589-1594(1992)(燕麦);Torbert等人,Plant Cell Reports 14635-640(1995)(燕麦);Weeks等人,PlantPhysical.102.1077-1084()(小麦);Chang等人,WO 94/13822(小麦)和Nehra等人,The Plant Journal 5285-297(1994)(小麦)。土壤杆菌-介导的转化一般对于单子叶植物是无效的,对于单子叶植物上述的另一个方法是优选的。
一般地,载体不可能转化所有的宿主,因此必需选择转化的宿主细胞。选择技术包括将具有任何必需的控制元件,在转化细胞中编码可选择性状的DNA序列标记整合到表达载体中。这些标记包括二氢叶酸还原酶、真核细胞培养的G418或新霉素抗性,和在大肠杆菌和其他细菌中培养的四环素、卡那霉素或氨苄青霉素抗性基因。备选地,这种可选择性状的基因可能在另一个载体上,可使用该载体共同转化所需要的宿主细胞。
标记基因可用于鉴定转化体,但是需要确定哪些细胞包含重组DNA分子并且哪些包含自我连接的载体分子。这可通过使用其中插入DNA片段破坏存在于分子上的基因的完整性的克隆载体而实现。由于该基因的功能丢失,因此可鉴定重组体。
鉴定成功转化的细胞的另一个方法包括使由导入本发明表达构建体产生的细胞生长以产生本发明的多肽。收获并且裂解细胞,使用例如由Southern(1975)J.Mol.Biol.98,503或Berent等人(1985)Biotech.3,208描述的方法来检查它们的DNA含量,而寻找DNA存在。备选地,可利用抗体检测转化细胞培养物上清液中成熟蛋白质的存在。
除直接分析重组DNA的存在外,当重组DNA能够指向蛋白质的表达时,可通过公知的免疫方法来证实成功的转化。例如,用表达载体成功转化的细胞产生显示合适抗原性的蛋白质。收获疑为转化的细胞样品并且利用合适的抗体分析蛋白质。
因此,除转化的宿主细胞本身外,本发明也考虑到细胞的培养物,优选为营养培养基中的单克隆(无性系同质的)培养物,或来源于单克隆培养物的培养物。
因此,在本发明的第四个方面,提供包括本发明第三个方面所述的细胞和培养基的细胞培养物。一般地培养基可包含由在表达系统内表达本发明第一个方面所述的多肽产生的成熟多肽,以及通常经过进一步的翻译加工,例如除去前和/或原序列。
用于培养例如大肠杆菌的原核宿主细胞,和例如哺乳动物细胞的真核宿主细胞的方法是本领域公知的。用于培养酵母的方法一般在EP 330 451和EP 361 991中有教导。
考虑到在此公开的内容容许本发明第一个方面所述的多肽的表达,在本领域技术人员公知的合适条件下,容许将已经由本发明重组DNA转化的宿主细胞培养足够的时间。因此产生的多肽可进一步地受到宿主细胞的加工,以使得除去前和/或原序列。因此″成熟的″所需要的蛋白质可不同于最初翻译的蛋白质。
因此作为第五个方面,本发明也提供用于产生如上所限定的成熟的所需要蛋白质的方法。该方法包括下列步骤在培养基中培养本发明第三个方面所述的细胞,其中该细胞由于表达本发明第一个方面限定的多肽,分泌成熟的所需要蛋白质,其中该蛋白质积聚在外周质间隙、或培养基中,但是优选地分泌到培养基中。该包含分泌的所需要蛋白质的培养基可从细胞培养物中的细胞分离出来。与细胞壁相结合的分泌蛋白质一般可利用水解酶,在渗透支持(例如山梨糖醇)条件下(温和地、有选择地释放分泌蛋白质)分离出来。参见Elango等人,J.Biol.Chem.2571398-1400(1982)。适用于这个目的的水解酶的实例包括溶细胞酶、酶解酶-60,000、和蜗牛酶,所有这些酶都是可商业购买的,例如后两个,分别可从Seikagaku Kogyo或Kirin Brewery,和Boehringer Mannheim购买。
优选地,分离培养基后,从培养基分离成熟的所需要蛋白质。更优选地因此进一步纯化获得的成熟的所需要蛋白质。
可通过本领域已知的许多方法从培养基提取所需要的成熟蛋白质。例如用于回收重组表达的白蛋白的纯化技术已经在下列中公开WO92/04367,除去基质衍生的染料;EP 464 590,除去酵母衍生的色素;EP 319067,碱性沉淀和白蛋白对亲脂性阶段的随后应用;和WO 96/37515,US 5728 553和WO 00/44772,其描述完全的净化法;其所有的在此引入作为参考。可通过已经被认为是对纯化这种蛋白质有用的任何技术从培养基纯化除了白蛋白的蛋白质,因为本发明改进的前导序列不会影响成熟蛋白质本身。
这种众所周知的方法包括硫酸铵或乙醇沉淀、酸萃取、阴离子或阳离子交换色层分离法、磷酸纤维素色谱法、疏水性相互作用色谱法、亲和色谱法、羟磷灰石色谱法和凝集素色谱法。最优选地,使用高效液相色谱法(″HPLC″)来纯化。
所得到的蛋白质可用于任何其已知的用途,其中就白蛋白来说,包括静脉内施用于患者以治疗严重燃烧、休克和失血,补充培养基,以及作为其他蛋白质剂型中的赋形剂。
不过可能通过本发明的方法获得的治疗性用途的所需要蛋白质可单独给药,优选其与一种或多种可接受的载体或稀释剂一起作为药物剂型存在。载体或稀释剂必须是″可接受的″,是指适合所需要的蛋白质而不是对其受体有害的。一般地,载体或稀释剂可以是无菌的和无热原的水或盐水。
因此,本发明的第六个方面提供,将通过本发明第五个方面所述的方法获得的合乎需要的蛋白质与治疗可接受的载体或稀释剂进行配制,由此产生适合施用于人或动物的治疗性产品的方法。
该治疗性的产品可方便地以单位剂型存在并且可通过制药领域中任何公知的方法来制备。优选的单位剂量产品包含活性成分的日剂量或每日单位的亚剂量或其合适的部份。
应该理解除上述特别提到的成分外,考虑到上述产品的类型,治疗性的产品可以包括本领域中的其他常规试剂。
现在参考下列非限制性的附图和实施例,本发明将进行更详细的描述,其中图1显示与WO 90/01063中公开的具有融合的HSA/MFα-1前导序列的(第二行)天然HSA前导序列(具有前(pre)和原区域(pro region))(顶部的一行)和本发明优选改变的前导序列(第三行)的比较。
图2显示标准的遗传密码。
图3显示优选的酿酒酵母密码子的改进列表。
图4显示pAYE438的质粒图谱。
图5显示pAYE441的质粒图谱。
图6显示pAYE309的质粒图谱。
图7显示pAYE467的质粒图谱。
图8显示pAYE443的质粒图谱。
图9显示pAYE653的质粒图谱。
图10显示pAYE655的质粒图谱。
图11显示pAYE639的质粒图谱。
图12显示pAYE439的质粒图谱。
图13显示pAYE466的质粒图谱。
图14显示pAYE640的质粒图谱。
图15显示pAYE638和pAYE642的质粒图谱。
图16显示pAYE643的质粒图谱。
图17显示pAYE645的质粒图谱。
图18显示pAYE646的质粒图谱。
图19显示pAYE647的质粒图谱。
图20显示通过火箭免疫电泳分析rHA的生产率。在YEP、2%(w/v)蔗糖或B/MM、2%(w/v)蔗糖中,在30℃,200rpm培养酵母72hr。参考HSA标准(mg.L-1)进行定量。
图21显示以高细胞密度发酵的白蛋白生产率。
*指人白蛋白水平太低而无法进行定量。
图22总结在实施例中所使用的构建体的特征。
实施例1利用两个单链的寡核苷酸PRBJM1和PRBJM2,经PCR从酵母基因组DNA分离酿酒酵母(Saccharomyces cerevisiae)PRB1启动子PRBJM15′-GCATGCGGCCGCCCGTAATGCGGTATCGTGAAAGCG-3′SEQ ID NO35PRBJM25′GCATAAGCTTACCCACTTCATCTTTGCTTGTTTAG-3′SEQ ID NO36PCR条件为40个循环的94℃30秒、50℃40秒、72℃120秒,然后是72℃600秒,然后是4℃保存。用NotI和HindIII消化0.85kb的DNA片段,并且连接到在WO 97/24445中描述的,类似地用NotI和HindIII消化的pBST+中,以产生质粒pAYE438(图4)。用HindIII和BamHI消化质粒pAYE438,并且与来自先前在WO 00/44772中公开的pAYE440的0.48kb的HindIII/BamHI ADHI终止子DNA片段连接,以便产生质粒pAYE441(图5)。在唯一的HindIII位点直线化质粒pAYE441,并且与来自先前公开(Sleep,D.等人(1991)Bio/Technology 9,183-187和EP-A-0 431 880的pAYE309(图6)的1.8kb的HindIII/Bsu36I片段连接,并且双链的寡核苷酸接头为
5′-TTAGGCTTATA-3′SEQ ID NO373′-CCGAATATTCGA-5′ SEQ ID NO38以便产生pAYE467(图7)。将来自pAYE467的3.2kb的NotI表达盒连接到NotI线性化的pSAC35(Sleep等人(1991),Bio/technology9183-187)中,其先前已经用小牛肠磷酸酶(CIP)处理,以产生质粒pAYE443(图8)。SEQ IQNo 22显示包括HSA/MFα-1融合前导序列的编码区的多核苷酸序列,并且发现成熟的人白蛋白编码区域是在pAYE467和pAYE443的DNA序列内。通过用称为CPK1的单链寡核苷酸的定点诱变来改进编码HSA/MFα-1融合前导序列(fusion leader)的多核苷酸序列,所述CPK1具有DNA序列5′-CT AAA GAG AAA AAG AAT GGA GAC GAT GAA TAC CCAIle-16Val-18Ile-19Phe-20CTT CAT CTT TGC-3′ SEQ ID No 23根据标准方法(Botstein和Shortle,″Strategies and Applications of InVitro Mutagenesis,″Science,229193-1210(1985),在此引入作为参考)进行定点诱变(SDM),尽管其他适用技术也可以使用。设计CPK1的核苷酸序列以改进HSA/MFα-1融合前导序列的氨基酸序列,可导入下列突变Thr-20Phe、Phe-19Ile、Ile-18Val和Leu-16Ile,其中数字(-20等)是使-1残基是HSA/MFα-1融合前导序列的C-末端氨基酸。
通过双脱氧测序确证诱变质粒的DNA序列,该测序证实多核苷酸序列已经诱变成为所需要的序列,而且没有导入其它的DNA序列变化。新的质粒命名为pAYE653(图9)。SEQ IQ No 24显示包括改进的HSA/MFα-1融合前导序列编码区的多核苷酸序列,而SEQ IQ No 25显示包括改进的HSA/MFα-1融合前导序列的编码区的多核苷酸序列,并且发现成熟的人白蛋白的编码区在pAYE653的多核苷酸序列内。
NotI人白蛋白表达盒是从pAYE653分离的并且连接到质粒pSAC35的独特NotI位点中,以产生质粒pAYE655(图10)。
实施例2SEQ ID No 19显示的DNA序列包括包含来自酿酒酵母PRB1启动子的5′UTR非编码区;编码本发明改进的HSA/MFα-1融合前导序列的多核苷酸区域;用于成熟的人白蛋白的密码子优化编码区和翻译终止位点。
作为用来比较SEQ ID No 19中前导序列的序列改变所产生的影响的对照,SEQ ID No 40显示基本上与SEQ ID No 19相同的DNA序列,除了替换了代表本发明第二个方面的15个多核苷酸区域,SEQ ID No 40的DNA序列包括编码未改变的HSA/MFα-1融合前导序列的5个氨基酸,即SFISL的15个多核苷酸区域。
两个DNA序列由Genosys,Inc(剑桥,英国)从重叠的单链寡核苷酸合成。
合成SEQ ID No 40作为克隆到质粒pBSSK-(Stratagene Europe,P.O.Box 12085,阿姆斯特丹,荷兰),如质粒pAYE639(图11)的SacI-HindIII位点中的1.865kb SacI-HindIII DNA片段。
利用两个单链的寡核苷酸PRBJM1和PRBJM3,经PCR从酵母基因组DNA分离酿酒酵母PRB1启动子PRBJM35′-GTTAGAATTAGGTTAAGCTTGTTTTTTTATTGGCGATGAA-3′SEQ ID NO39PCR条件为40个循环的94℃30秒、50℃40秒、72℃120秒,然后是72℃600秒,然后是4℃保存。用NotI和HindIII消化0.81kb的DNA片段,并且连接到在WO 97/21212125中描述的,类似地用NotI和HindIII消化的pBST+中,以产生质粒pAYE439(图12)。用HindIII和BamHI消化质粒pAYE439,并且与来自先前在WO 00/44772中公开的pAYE440的0.48kb的HindIII/BamHI ADH1终止子DNA片段连接,以便产生质粒pAYE466(图13)。
将SEQ ID No 40的1.865kb HindIII DNA片段克隆到质粒pAYE466的唯一HindIII位点中以产生质粒pAYE640,其显示在PRB1启动子和ADH1终止子之间包含用于从PRB1启动子表达的正确方向的SEQ ID No 40的1.865kb HindIII DNA片段(图14)。
消化质粒pAYE640以完成SEQ ID No 40基因/ADH1终止子表达盒的NotI/PvuI和NotI 3.2kb、PRB1启动子/HindIII DNA片段的纯化。pAYE640的NotI/PvuI双消化优于NotI单消化,因为表达盒(3.2kb)和pBST+质粒主链(3.15kb)是大小相似的。将来自pAYE640的3.2kb的NotI表达盒连接到NotI线性化的pSAC35(Sleep等人(1991),Bio/technology91153-1157)中,其先前已经用小牛肠磷酸酶(CIP)处理,以产生质粒pAYE638(图15)。显示质粒pAYE638包含被定向插入到pSAC35的NotI位点中的NotI HSA表达盒,以使HSA基因的表达远离LEU2营养缺陷型标记并且朝向2μm复制起点。质粒pAYE642包含相同的HSA表达盒,但是排列为反方向(图15)。
合成SEQ ID No 19作为克隆到质粒pBSSK-(Stratagene Europe,P.O.Box 12085,阿姆斯特丹,荷兰),如质粒pAYE643(图16)中的1.865kbSacI-HindIII DNA片段。在pAYE643内编码HSA/MFα-1融合前导序列-白蛋白融合体的DNA序列在SEQ ID No 27中给出。从pAYE643分离SEQ IDNo 19的1.865kb HindIII片段,并且连接到pAYE466唯一的HindIII位点中以产生质粒pAYE645(图17)。通过用NotI/PvuI消化来从pAYE645分离NotIPRB1 rHA表达盒,并且连接到pSAC35唯一的NotI位点中,以产生质粒pAYE646(图18)和pAYE647(图19)。质粒pAYE646内的NotI表达盒是与质粒pAYE638和pAYE443中同方向的,而质粒pAYE647内的NotI表达盒是反向定向的并与质粒pAYE642相同。
实施例3用质粒pAYE443、pAYE638、pAYE646和pAYE655转化3个不同的酵母菌株,A、B和C成为亮氨酸原养型。挑取转化体到含有2%(w/v)葡萄糖(BMMD)的缓冲极限培养基上(BMM,由Kerry-Williams,S.M.等人描述(1998),酵母14,161-169),并且在30℃培养生长直到足够用于进一步的分析。从包含2%(w/v)葡萄糖(YEPD)的10mL YEP(1%(w/v)酵母抽提物;2%(w/v)细菌蛋白胨)和BMMD摇瓶培养物(30℃,200rpm,72hr),通过无细胞培养物上清液的火箭免疫电泳(图20)分析转化体的人白蛋白生产率。
结果显示在富集和合成培养基中,用pAYE638转化的所有3个菌株的人白蛋白生产率比在用pAYE443(其都包含HSA/MFα-1融合前导序列,但是由不同的多核苷酸序列编码)转化的相同菌株中观察到的低大约4-5倍。出人意料地,用pAYE646或pAYE655转化的所有3个菌株的人白蛋白生产率显著高于用pAYE638所观察到的,并且相似于或略大于用pAYE443转化的相同菌株所观察到的。
实施例4
以补料分批法和注放式方法用高细胞密度发酵来培养酵母菌株C[pAYE443]、菌株C[pAYE655]、菌株C[pAYE638]和菌株C[pAYE646],和菌株B[pAYE443]和菌株B[pAYE646]。补料分批法使用如WO 96/37515中所述的培养基和控制参数。注放式方法使用如上所述的补料分批方法,但是另外包括下列步骤当补料补料分批法的补料阶段完成时,从发酵容器中移去90%的培养物体积;以及在开始添料(feed addition)前,利用在WO 96/37515中所描述的培养基和控制参数,向剩余10%体积的培养物加入批量培养基(batch medium)(保持pH控制)。通过无细胞完全培养物的SDS-PAGE的扫描密度测定术,评估人白蛋白生产率(YP/S)和人白蛋白浓度(g/L)。也由比重测定值计算生物量产量(YX/S)。结果(图21)表明,如先前在实施例3中所观察到的,包含人白蛋白表达质粒pAYE638(天然多肽序列,但是酵母-偏好的密码子)的酵母菌株的人白蛋白生产率(YP/S)和人白蛋白浓度(g/L)比包含人白蛋白表达质粒pAYE443(天然多肽序列和前导和成熟白蛋白偏好的天然密码子)的相同菌株具有显著低的生产率,即使HSA/MFα-1融合前导序列和成熟人白蛋白的氨基酸序列是相同的。
当以补料分批模式进行菌株C发酵时,各自培养菌株C[pAYE655]和菌株C[pAYE646](人白蛋白表达质粒整合了本发明所述的改进前导序列)相当的时间,观察到相对于菌株C[pAYE443],上述两个菌株的人白蛋白生产率(YP/S)分别增加16%和12%。当以补料分批模式进行菌株B发酵时,培养菌株B[pAYE646](人白蛋白表达质粒整合了本发明所述的改进的前导序列)相当长的时间,观察到相对于菌株B[pAYE443],菌株[pAYE646]的人白蛋白生产率(YP/S)增加24%。
当以注放式模式进行菌株C发酵时,分别培养菌株C[pAYE655]和菌株C[pAYE646](人白蛋白表达质粒整合了本发明所述的改进的前导序列)相当的时间,观察到相对于菌株C[pAYE443],上述两个菌株的人白蛋白生产率(YP/S)分别增加13%和6%。当菌株C[pAYE655]和菌株C[pAYE646](人白蛋白表达质粒整合了改进的本发明所述的前导序列)各自培养相当长的时间,这相对于菌株C[pAYE638]分别增加至442%和408%。
概述质粒pAYE443和pAYE638都编码具有来源于HSA/MFα-1融合前导序列的前导序列的人白蛋白,但是前者使用天然多核苷酸序列的天然偏好密码子,而后者使用对于酵母表达充分优化的密码子的多核苷酸序列。从pAYE638获得的人白蛋白的表达比利用pAYE443获得的表达低4-5倍。根据本发明的编码改进的前导序列的多核苷酸序列已经取代了pAYE443和pAYE638的编码HSA/MFα-1融合前导序列的多核苷酸序列,以分别产生人白蛋白表达质粒pAYE665和pAYE646。本发明的多肽序列的导入导致所需多肽的产量的显著改善。
SEQ ID No.1-(Phe/Trp/Tyr)-(Ile/Leu/Val/Ala/Met)-(Leu/Val/Ala/Met)-(Ser/Thr)-(Ile/Val/Ala/Met)-SEQ ID No.2-Phe-(Ile/Leu/Val/Ala/Met)-(Leu/Val/Ala/Met)-(Ser/Thr)-(Ile/Val/Ala/Met)-SEQ ID No.3-(Phe/Trp/Tyr)-Ile-(Leu/Val/Ala/Met)-(Ser/Thr)-(Ile/Val/Ala/Met)-SEQ ID No.4-(Phe/Trp/Tyr)-(IIe/Leu/Val/Ala/Met)-Val-(Ser/Thr)-(Ile/Val/Ala/Met)-SEQ ID No.5-(Phe/Trp/Tyr)-(Ile/Leu/Val/Ala/Met)-(Leu/Val/Ala/Met)-Ser-(Ile/Val/Ala/Met)-SEQ ID No.6-(Phe/Trp/Tyr)-(Ile/Leu/Val/Ala/Met)-(Leu/Val/Ala/Met)-(Ser/Thr)-Ile-SEQ ID No.7-Phe-Ile-Val-Ser-Ile-SEQ ID No.8-Met-Lys-Trp-Val-SEQ ID No.9-Leu-Phe-Leu-Phe-Ser-Ser-Ala-Tyr-Ser-
SEQ ID No.10-(Ile/Leu/Val/Ala/Met)-(Phe/Trp/Tyr)-(Ile/Leu/Val/Ala/Met)-(Phe/Trp/Tyr)-(Ser/Thr/Gly/Tyr/Ala)-(Ser/Thr/Gly/Tyr/Ala)-(Ile/Leu/Val/Ala/Met)-(Phe/Trp/Tyr)-(Ser/Thr/Gly/Tyr/Ala)-SEQ ID No.11-Leu-Phe-Leu-Phe-Ser-Ser-Ala-Tyr-Ser-Arg-Ser-Leu-Asp-Lys-Arg-SEQ ID No.12-Met-Lys-Trp-Val-X1-X2-X3-X4-X5-Leu-Phe-Leu-Phe-Ser-Ser-Ala-Tyr-Ser-SEQ ID No.13-Met-Lys-Trp-Val-X1-X2-X3-X4-X5-(Ile/Leu/Val/Ala/Met)-(Phe/Trp/Tyr)-(Ile/Leu/Val/Ala/Met)-(Phe/Trp/Tyr)-(Ser/Thr/Gly/Tyr/Ala)-(Ser/Thr/Gly/Tyr/Ala)-(Ile/Leu/Val/Ala/Met)-(Phe/Trp/Tyr)-(Ser/Thr/Gly/Tyr/Ala)-SEQ ID No.14-Met-Lys-Trp-Val-X1-X2-X3-X4-X5-Leu-Phe-Leu-Phe-Ser-Ser-Ala-Tyr-Ser-Arg-Ser-Leu-Asp-Lys-Arg-SEQ ID No.15-(TTY/TGG/TAY)-(ATH/TTR或CTN/GTN/GCN/ATG)-(TTR或CTN/GTN/GCN/ATG)-(AGY或TCN/ACN)-(ATH或CTN/GTN/GCN/ATG)-SEQ ID No.16-TTY-ATH-GTN-(TCN or AGY)-ATH-
SEQ ID No.17-(TTC/TGG/TAC)-(ATY/TTG/GTY/GCT/ATG)-(TTG/GTY/GCT/ATG)-(TCY/ACY)-(ATY/GTY/GCT/ATG)-SEQ ID No.18-TTC-ATY-GTY-TCY-ATY-SEQ ID NO 19AAGCTTAACCTAATTCTAACAAGCAAAGATGAAGTGGGTTTTCATCGTCTCCATTTTGTTCTTGTTCTCCTCTGCTTACTCTAGATCTTTGGATAAGAGAGACGCTCACAAGTCCGAAGTCGCTCACAGATTCAAGGACTTGGGTGAAGAAAACTTCAAGGCTTTGGTCTTGATCGCTTTCGCTCAATACTTGCAACAATGTCCATTCGAAGATCACGTCAAGTTGGTCAACGAAGTTACCGAATTCGCTAAGACTTGTGTTGCTGACGAATCTGCTGAAAACTGTGACAAGTCCTTGCACACCTTGTTCGGTGATAAGTTGTGTACTGTTGCTACCTTGAGAGAAACCTACGGTGAAATGGCTGACTGTTGTGCTAAGCAAGAACCAGAAAGAAACGAATGTTTCTTGCAACACAAGGACGACAACCCAAACTTGCCAAGATTGGTTAGACCAGAAGTTGACGTCATGTGTACTGCTTTCCACGACAACGAAGAAACCTTCTTGAAGAAGTACTTGTACGAAATTGCTAGAAGACACCCATACTTCTACGCTCCAGAATTGTTGTTCTTCGCTAAGAGATACAAGGCTGCTTTCACCGAATGTTGTCAAGCTGCTGATAAGGCTGCTTGTTTGTTGCCAAAGTTGGATGAATTGAGAGACGAAGGTAAGGCTTCTTCCGCTAAGCAAAGATTGAAGTGTGCTTCCTTGCAAAAGTTCGGTGAAAGAGCTTTCAAGGCTTGGGCTGTCGCTAGATTGTCTCAAAGATTCCCAAAGGCTGAATTCGCTGAAGTTTCTAAGTTGGTTACTGACTTGACTAAGGTTCACACTGAATGTTGTCACGGTGACTTGTTGGAATGTGCTGATGACAGAGCTGACTTGGCTAAGTACATCTGTGAAAACCAAGACTCTATCTCTTCCAAGTTGAAGGAATGTTGTG
AAAAGCCATTGTTGGAAAAGTCTCACTGTATTGCTGAAGTTGAAAACGATGAAATGCCAGCTGACTTGCCATCTTTGGCTGCTGACTTCGTTGAATCTAAGGACGTTTGTAAGAACTACGCTGAAGCTAAGGACGTCTTCTTGGGTATGTTCTTGTACGAATACGCTAGAAGACACCCAGACTACTCCGTTGTCTTGTTGTTGAGATTGGCTAAGACCTACGAAACTACCTTGGAAAAGTGTTGTGCTGCTGCTGACCCACACGAATGTTACGCTAAGGTTTTCGATGAATTCAAGCCATTGGTCGAAGAACCACAAAACTTGATCAAGCAAAACTGTGAATTGTTCGAACAATTGGGTGAATACAAGTTCCAAAACGCTTTGTTGGTTAGATACACTAAGAAGGTCCCACAAGTCTCCACCCCAACTTTGGTTGAAGTCTCTAGAAACTTGGGTAAGGTCGGTTCTAAGTGTTGTAAGCACCCAGAAGCTAAGAGAATGCCATGTGCTGAAGATTACTTGTCCGTCGTTTTGAACCAATTGTGTGTTTTGCACGAAAAGACCCCAGTCTCTGATAGAGTCACCAAGTGTTGTACTGAATCTTTGGTTAACAGAAGACCATGTTTCTCTGCTTTGGAAGTCGACGAAACTTACGTTCCAAAGGAATTCAACGCTGAAACTTTCACCTTCCACGCTGATATCTGTACCTTGTCCGAAAAGGAAAGACAAATTAAGAAGCAAACTGCTTTGGTTGAATTGGTCAAGCACAAGCCAAAG GCTACTAAGGAACAATTGAAGGCTGTCATGGATGATTTCGCTGCTTTCGTTGAAAAGTGTTGTAAGGCTGATGATAAGGAAACTTGTTTCGCTGAAGAAGGTAAGAAGTTGGTCGCTGCTTCCCAAGCTGCTTTGGGTTTGTAATAAGCTTSEQ ID NO 20AGATCTTTGGATAAGAGAGACGCTCACAAGTCCGAAGTCGCTCACAGATTCAAGGACTTGGGTGAAGAAAACTTCAAGGCTTTGGTCTTGATCGCTTTCGCTCAATACTTGCAACAATGTCCATTCGAAGATCACGTCAAGTTGGTCAACGAAGTTACCGAATTCGCTAAGACTTGTGTTGCTGACGAATCTGCTGAAAACTGTGACAAGTCCTTGCACACCTTGTTCGGTGATAAGTTGTGTACTGTTGCTACCTTGAGAGAAACC
TACGGTGAAATGGCTGACTGTTGTGCTAAGCAAGAACCAGAAAGAAACGAATGTTTCTTGCAACACAAGGACGACAACCCAAACTTGCCAAGATTGGTTAGACCAGAAGTTGACGTCATGTGTACTGCTTTCCACGACAACGAAGAAACCTTCTTGAAGAAGTACTTGTACGAAATTGCTAGAAGACACCCATACTTCTACGCTCCAGAATTGTTGTTCTTCGCTAAGAGATACAAGGCTGCTTTCACCGAATGTTGTCAAGCTGCTGATAAGGCTGCTTGTTTGTTGCCAAAGTTGGATGAATTGAGAGACGAAGGTAAGGCTTCTTCCGCTAAGCAAAGATTGAAGTGTGCTTCCTTGCAAAAGTTCGGTGAAAGAGCTTTCAAGGCTTGGGCTGTCGCTAGATTGTCTCAAAGATTCCCAAAGGCTGAATTCGCTGAAGTTTCTAAGTTGGTTACTGACTTGACTAAGGTTCACACTGAATGTTGTCACGGTGACTTGTTGGAATGTGCTGATGACAGAGCTGACTTGGCTAAGTACATCTGTGAAAACCAAGACTCTATCTCTTCCAAGTTGAAGGAATGTTGTGAAAAGCCATTGTTGGAAAAGTCTCACTGTATTGCTGAAGTTGAAAACGATGAAATGCCAGCTGACTTGCCATCTTTGGCTGCTGACTTCGTTGAATCTAAGGACGTTTGTAAGAACTACGCTGAAGCTAAGGACGTCTTCTTGGGTATGTTCTTGTACGAATACGCTAGAAGACACCCAGACTACTCCGTTGTCTTGTTGTTGAGATTGGCTAAGACCTACGAAACTACCTTGGAAAAGTGTTGTGCTGCTGCTGACCCACACGAATGTTACGCTAAGGTTTTCGATGAATTCAAGCCATTGGTCGAAGAACCACAAAACTTGATCAAGCAAAACTGTGAATTGTTCGAACAATTGGGTGAATACAAGTTCCAAAACGCTTTGTTGGTTAGATACACTAAGAAGGTCCCACAAGTCTCCACCCCAACTTTGGTTGAAGTCTCTAGAAACTTGGGTAAGGTCGGTTCTAAGTGTTGTAAGCACCCAGAAGCTAAGAGAATGCCATGTGCTGAAGATTACTTGTCCGTCGTTTTGAACCAATTGTGTGTTTTGCACGAAAAGACCCCAGTCTCTGATAGAGTCACCAAGTGTTGTACTGAATCTTTGGTTAACAGAAGACCATGTTTCTCTGCTTTGGAAGTCGACGAAACTTACGTTCCAAAGGAATTCAACGCTGAAACTTTCACCTTCCACGCTGATATCTGTACCTTGTCCGAAAAGGAAAGACAAATTAAGAAGCAAACTGCTTTGG
TTGAATTGGTCAAGCACAAGCCAAAGGCTACTAAGGAACAATTGAAGGCTGTCATGGATGATTTCGCTGCTTTCGTTGAAAAGTGTTGTAAGGCTGATGATAAGGAAACTTGTTTCGCTGAAGAAGGTAAGAAGTTGGTCGCTGCTTCCCAAGCTGCTTTGGGTTTGSEQ ID NO 21ATGAAGTGGGTTTTCATCGTCTCCATTTTGTTCTTGTTCTCCTCTGCTTACTCTAGATCTTTGGATAAGAGAGACGCTCACAAGTCCGAAGTCGCTCACAGATTCAAGGACTTGGGTGAAGAAAACTTCAAGGCTTTGGTCTTGATCGCTTTCGCTCAATACTTGCAACAATGTCCATTCGAAGATCACGTCAAGTTGGTCAACGAAGTTACCGAATTCGCTAAGACTTGTGTTGCTGACGAATCTGCTGAAAACTGTGACAAGTCCTTGCACACCTTGTTCGGTGATAAGTTGTGTACTGTTGCTACCTTGAGAGAAACCTACGGTGAAATGGCTGACTGTTGTGCTAAGCAAGAACCAGAAAGAAACGAATGTTTCTTGCAACACAAGGACGACAACCCAAACTTGCCAAGATTGGTTAGACCAGAAGTTGACGTCATGTGTACTGCTTTCCACGACAACGAAGAAACCTTCTTGAAGAAGTACTTGTACGAAATTGCTAGAAGACACCCATACTTCTACGCTCCAGAATTGTTGTTCTTCGCTAAGAGATACAAGGCTGCTTTCACCGAATGTTGTCAAGCTGCTGATAAGGCTGCTTGTTTGTTGCCAAAGTTGGATGAATTGAGAGACGAAGGTAAGGCTTCTTCCGCTAAGCAAAGATTGAAGTGTGCTTCCTTGCAAAAGTTCGGTGAAAGAGCTTTCAAGGCTTGGGCTGTCGCTAGATTGTCTCAAAGATTCCCAAAGGCTGAATTCGCTGAAGTTTCTAAGTTGGTTACTGACTTGACTAAGGTTCACACTGAATGTTGTCACGGTGACTTGTTGGAATGTGCTGATGACAGAGCTGACTTGGCTAAGTACATCTGTGAAAACCAAGACTCTATCTCTTCCAAGTTGAAGGAATGTTGTGAAAAGCCATTGTTGGAAAAGTCTCACTGTATTGCTGAAGTTGAAAACGATGAAATGCCAGCTGACTTGCCATCTTTGGCTGCTGACTTCGTTGAATCTAAGGACGTTTGTAAGAACTA
CGCTGAAGCTAAGGACGTCTTCTTGGGTATGTTCTTGTACGAATACGCTAGAAGACACCCAGACTACTCCGTTGTCTTGTTGTTGAGATTGGCTAAGACCTACGAAACTACCTTGGAAAAGTGTTGTGCTGCTGCTGACCCACACGAATGTTACGCTAAGGTTTTCGATGAATTCAAGCCATTGGTCGAAGAACCACAAAACTTGATCAAGCAAAACTGTGAATTGTTCGAACAATTGGGTGAATACAAGTTCCAAAACGCTTTGTTGGTTAGATACACTAAGAAGGTCCCACAAGTCTCCACCCCAACTTTGGTTGAAGTCTCTAGAAACTTGGGTAAGGTCGGTTCTAAGTGTTGTAAGCACCCAGAAGCTAAGAGAATGCCATGTGCTGAAGATTACTTGTCCGTCGTTTTGAACCAATTGTGTGTTTTGCACGAAAAGACCCCAGTCTCTGATAGAGTCACCAAGTGTTGTACTGAATCTTTGGTTAACAGAAGACCATGTTTCTCTGCTTTGGAAGTCGACGAAACTTACGTTCCAAAGGAATTCAACGCTGAAACTTTCACCTTCCACGCTGATATCTGTACCTTGTCCGAAAAGGAAAGACAAATTAAGAAGCAAACTGCTTTGGTTGAATTGGTCAAGCACAAGCCAAAGGCTACTAAGGAACAATTGAAGGCTGTCATGGATGATTTCGCTGCTTTCGTTGAAAAGTGTTGTAAGGCTGATGATAAGGAAACTTGTTTCGCTGAAGAAGGTAAGAAGTTGGTCGCTGCTTCCCAAGCTGCTTTGGGTTTGSEQ ID NO 22ATGAAGTGGGTAAGCTTTATTTCCCTTCTTTTTCTCTTTAGCTCGGCTTATTCCAGGAGCTTGGATAAAAGAGATGCACACAAGAGTGAGGTTGCTCATCGGTTTAAAGATTTGGGAGAAGAAAATTTCAAAGCCTTGGTGTTGATTGCCTTTGCTCAGTATCTTCAGCAGTGTCCATTTGAAGATCATGTAAAATTAGTGAATGAAGTAACTGAATTTGCAAAAACATGTGTTGCTGATGAGTCAGCTGAAAATTGTGACAAATCACTTCATACCCTTTTTGGAGACAAATTATGCACAGTTGCAACTCTTCGTGAAACCTATGGTGAAATGGCTGACTGCTGTGCAAAACAAGAACCTGAGAGAAATGAATGCTTCTTGCAACACAAAGATGACAACCC
AAACCTCCCCCGATTGGTGAGACCAGAGGTTGATGTGATGTGCACTGCTTTTCATGACAATGAAGAGACATTTTTGAAAAAATACTTATATGAAATTGCCAGAAGACATCCTTACTTTTATGCCCCGGAACTCCTTTTCTTTGCTAAAAGGTATAAAGCTGCTTTTACAGAATGTTGCCAAGCTGCTGATAAAGCTGCCTGCCTGTTGCCAAAGCTCGATGAACTTCGGGATGAAGGGAAGGCTTCGTCTGCCAAACAGAGACTCAAGTGTGCCAGTCTCCAAAAATTTGGAGAAAGAGCTTTCAAAGCATGGGCAGTAGCTCGCCTGAGCCAGAGATTTCCCAAAGCTGAGTTTGCAGAAGTTTCCAAGTTAGTGACAGATCTTACCAAAGTCCACACGGAATGCTGCCATGGAGATCTGCTTGAATGTGCTGATGACAGGGCGGACCTTGCCAAGTATATCTGTGAAAATCAAGATTCGATCTCCAGTAAACTGAAGGAATGCTGTGAAAAACCTCTGTTGGAAAAATCCCACTGCATTGCCGAAGTGGAAAATGATGAGATGCCTGCTGACTTGCCTTCATTAGCTGCTGATTTTGTTGAAAGTAAGGATGTTTGCAAAAACTATGCTGAGGCAAAGGATGTCTTCCTGGGCATGTTTTTGTATGAATATGCAAGAAGGCATCCTGATTACTCTGTCGTGCTGCTGCTGAGACTTGCCAAGACATATGAAACCACTCTAGAGAAGTGCTGTGCCGCTGCAGATCCTCATGAATGCTATGCCAAAGTGTTCGATGAATTTAAACCTCTTGTGGAAGAGCCTCAGAATTTAATCAAACAAAATTGTGAGCTTTTTGAGCAGCTTGGAGAGTACAAATTCCAGAATGCGCTATTAGTTCGTTACACCAAGAAAGTACCCCAAGTGTCAACTCCAACTCTTGTAGAGGTCTCAAGAAACCTAGGAAAAGTGGGCAGCAAATGTTGTAAACATCCTGAAGCAAAAAGAATGCCCTGTGCAGAAGACTATCTATCCGTGGTCCTGAACCAGTTATGTGTGTTGCATGAGAAAACGCCAGTAAGTGACAGAGTCACCAAATGCTGCACAGAATCCTTGGTGAACAGGCGACCATGCTTTTCAGCTCTGGAAGTCGATGAAACATACGTTCCCAAAGAGTTTAATGCTGAAACATTCACCTTCCATGCAGATATATGCACACTTTCTGAGAAGGAGAGACAAATCAAGAAACAAACTGCACTTGTTGAGCTCGTGAAACACAAGCCCAAGGCAACAAAAGAGCAACTGAAAGCTGTTATGGATGATTTCGCAGCTTT
TGTAGAGAAGTGCTGCAAGGCTGACGATAAGGAGACCTGCTTTGCCGAGGAGGGTAAAAAACTTGTTGCTGCAAGTCAAGCTGCCTTAGGCTTASEQ ID NO 23CTAAAGAGAAAAAGAATGGAGACGATGAATACCCACTTCATCTTTGCSEQ ID NO 24ATGAAGTGGGTATTCATCGTCTCCATTCTTTTTCTCTTTAGCTCGGCTTATTCCAGGAGCTTGGATAAAAGASEQ ID NO 25ATGAAGTGGGTATTCATCGTCTCCATTCTTTTTCTCTTTAGCTCGGCTTATTCCAGGAGCTTGGATAAAAGAGATGCACACAAGAGTGAGGTTGCTCATCGGTTTAAAGATTTGGGAGAAGAAAATTTCAAAGCCTTGGTGTTGATTGCCTTTGCTCAGTATCTTCAGCAGTGTCCATTTGAAGATCATGTAAAATTAGTGAATGAAGTAACTGAATTTGCAAAAACATGTGTTGCTGATGAGTCAGCTGAAAATTGTGACAAATCACTTCATACCCTTTTTGGAGACAAATTATGCACAGTTGCAACTCTTCGTGAAACCTATGGTGAAATGGCTGACTGCTGTGCAAAACAAGAACCTGAGAGAAATGAATGCTTCTTGCAACACAAAGATGACAACCCAAACCTCCCCCGATTGGTGAGACCAGAGGTTGATGTGATGTGCACTGCTTTTCATGACAATGAAGAGACATTTTTGAAAAAATACTTATATGAAATTGCCAGAAGACATCCTTACTTTTATGCCCCGGAACTCCTTTTCTTTGCTAAAAGGTATAAAGCTGCTTTTACAGAATGTTGCCAAGCTGCTGATAAAGCTGCCTGCCTGTTGCCAAAGCTCGATGAACTTCGGGATGAAGGGAAGGCTTCGTCTGCCAAACAGAGACTCAA
GTGTGCCAGTCTCCAAAAATTTGGAGAAAGAGCTTTCAAAGCATGGGCAGTAGCTCGCCTGAGCCAGAGATTTCCCAAAGCTGAGTTTGCAGAAGTTTCCAAGTTAGTGACAGATCTTACCAAAGTCCACACGGAATGCTGCCATGGAGATCTGCTTGAATGTGCTGATGACAGGGCGGACCTTGCCAAGTATATCTGTGAAAATCAAGATTCGATCTCCAGTAAACTGAAGGAATGCTGTGAAAAACCTCTGTTGGAAAAATCCCACTGCATTGCCGAAGTGGAAAATGATGAGATGCCTGCTGACTTGCCTTCATTAGCTGCTGATTTTGTTGAAAGTAAGGATGTTTGCAAAAACTATGCTGAGGCAAAGGATGTCTTCCTGGGCATGTTTTTGTATGAATATGCAAGAAGGCATCCTGATTACTCTGTCGTGCTGCTGCTGAGACTTGCCAAGACATATGAAACCACTCTAGAGAAGTGCTGTGCCGCTGCAGATCCTCATGAATGCTATGCCAAAGTGTTCGATGAATTTAAACCTCTTGTGGAAGAGCCTCAGAATTTAATCAAACAAAATTGTGAGCTTTTTGAGCAGCTTGGAGAGTACAAATTCCAGAATGCGCTATTAGTTCGTTACACCAAGAAAGTACCCCAAGTGTCAACTCCAACTCTTGTAGAGGTCTCAAGAAACCTAGGAAAAGTGGGCAGCAAATGTTGTAAACATCCTGAAGCAAAAAGAATGCCCTGTGCAGAAGACTATCTATCCGTGGTCCTGAACCAGTTATGTGTGTTGCATGAGAAAACGCCAGTAAGTGACAGAGTCACCAAATGCTGCACAGAATCCTTGGTGAACAGGCGACCATGCTTTTCAGCTCTGGAAGTCGATGAAACATACGTTCCCAAAGAGTTTAATGCTGAAACATTCACCTTCCATGCAGATATATGCACACTTTCTGAGAAGGAGAGACAAATCAAGAAACAAACTGCACTTGTTGAGCTCGTGAAACACAAGCCCAAGGCAACAAAAGAGCAACTGAAAGCTGTTATGGATGATTTCGCAGCTTTTGTAGAGAAGTGCTGCAAGGCTGACGATAAGGAGACCTGCTTTGCCGAGGAGGGTAAAAAACTTGTTGCTGCAAGTCAAGCTGCCTTAGGCTTASEQ ID NO 26
ATGAAGTGGGTTTCTTTCATTTCCTTGTTGTTCTTGTTCTCCTCTGCTTACTCTAGATCTTTGGATAAGAGAGACGCTCACAAGTCCGAAGTCGCTCACAGATTCAAGGACTTGGGTGAAGAAAACTTCAAGGCTTTGGTCTTGATCGCTTTCGCTCAATACTTGCAACAATGTCCATTCGAAGATCACGTCAAGTTGGTCAACGAAGTTACCGAATTCGCTAAGACTTGTGTTGCTGACGAATCTGCTGAAAACTGTGACAAGTCCTTGCACACCTTGTTCGGTGATAAGTTGTGTACTGTTGCTACCTTGAGAGAAACCTACGGTGAAATGGCTGACTGTTGTGCTAAGCAAGAACCAGAAAGAAACGAATGTTTCTTGCAACACAAGGACGACAACCCAAACTTGCCAAGATTGGTTAGACCAGAAGTTGACGTCATGTGTACTGCTTTCCACGACAACGAAGAAACCTTCTTGAAGAAGTACTTGTACGAAATTGCTAGAAGACACCCATACTTCTACGCTCCAGAATTGTTGTTCTTCGCTAAGAGATACAAGGCTGCTTTCACCGAATGTTGTCAAGCTGCTGATAAGGCTGCTTGTTTGTTGCCAAAGTTGGATGAATTGAGAGACGAAGGTAAGGCTTCTTCCGCTAAGCAAAGATTGAAGTGTGCTTCCTTGCAAAAGTTCGGTGAAAGAGCTTTCAAGGCTTGGGCTGTCGCTAGATTGTCTCAAAGATTCCCAAAGGCTGAATTCGCTGAAGTTTCTAAGTTGGTTACTGACTTGACTAAGGTTCACACTGAATGTTGTCACGGTGACTTGTTGGAATGTGCTGATGACAGAGCTGACTTGGCTAAGTACATCTGTGAAAACCAAGACTCTATCTCTTCCAAGTTGAAGGAATGTTGTGAAAAGCCATTGTTGGAAAAGTCTCACTGTATTGCTGAAGTTGAAAACGATGAAATGCCAGCTGACTTGCCATCTTTGGCTGCTGACTTCGTTGAATCTAAGGACGTTTGTAAGAACTACGCTGAAGCTAAGGACGTCTTCTTGGGTATGTTCTTGTACGAATACGCTAGAAGACACCCAGACTACTCCGTTGTCTTGTTGTTGAGATTGGCTAAGACCTACGAAACTACCTTGGAAAAGTGTTGTGCTGCTGCTGACCCACACGAATGTTACGCTAAGGTTTTCGATGAATTCAAGCCATTGGTCGAAGAACCACAAAACTTGATCAAGCAAAACTGTGAATTGTTCGAACAATTGGGTGAATACAAGTTCCAAAACGCTTTGTTGGTTAGATACACTAAGAAGGTCCCACAAGTCTCCACCCCAACTTTG
GTTGAAGTCTCTAGAAACTTGGGTAAGGTCGGTTCTAAGTGTTGTAAGCACCCAGAAGCTAAGAGAATGCCATGTGCTGAAGATTACTTGTCCGTCGTTTTGAACCAATTGTGTGTTTTGCACGAAAAGACCCCAGTCTCTGATAGAGTCACCAAGTGTTGTACTGAATCTTTGGTTAACAGAAGACCATGTTTCTCTGCTTTGGAAGTCGACGAAACTTACGTTCCAAAGGAATTCAACGCTGAAACTTTCACCTTCCACGCTGATATCTGTACCTTGTCCGAAAAGGAAAGACAAATTAAGAAGCAAACTGCTTTGGTTGAATTGGTCAAGCACAAGCCAAAGGCTACTAAGGAACAATTGAAGGCTGTCATGGATGATTTCGCTGCTTTCGTTGAAAAGTGTTGTAAGGCTGATGATAAGGAAACTTGTTTCGCTGAAGAAGGTAAGAAGTTGGTCGCTGCTTCCCAAGCTGCTTTGGGTTTGSEQ ID NO 27ATGAAGTGGGTTTTCATCGTCTCCATTTTGTTCTTGTTCTCCTCTGCTTACTCTAGATCTTTGGATAAGAGASEQ ID NO 28N-Met-Lys-Trp-Val-Phe-Ile-Val-Ser-Ile-Leu-Phe-Leu-Phe-Ser-Ser-Ala-Tyr-Ser-CSEQ ID No 29N-(Phe/Trp/Tyr)-(Ile/Leu/Val/Ala/Met)-(Leu/Val/Ala/Met)-Thr-(Ile/Val/Ala/Met)-CSEQ ID No 30N-Leu-Phe-Leu-Phe-Ser-Ser-Ala-Tyr-Ser-Arg-Gly-Val-Phe-Arg-Arg-C
SEQ ID No 31N-Met-Lys-Trp-Val-X1-X2-X3-X4-X5-Leu-Phe-Leu-Phe-Ser-Ser-Ala-Tyr-Ser-Arg-Gly-Val-Phe-Arg-Arg-CSEQ ID No 32N-Met-Lys-Trp-Val-Phe-Ile-Val-Ser-Ile-Leu-Phe-Leu-Phe-Ser-Ser-Ala-Tyr-Ser-Arg-Ser-Leu-Asp-Lys-Arg-CSEQ ID No.33-Met-(Lys/Arg/His)-(Phe/Trp/Tyr)-(Ile/Leu/Val/Ala/Met)-SEQ ID No.34-TTCATCGTCTCCATT-SEQ ID No.355’-GCATGCGGCCGCCCGTAATGCGGTATCGTGAAAGCG-3’SEQ ID No.365’-GCATAAGCTTACCCACTTCATCTTTGCTTGTTTAG-3’SEQ ID No.375’-TTAGGCTTATA-3’
SEQ ID No.385’-AGCTTATAAGCC-3’SEQ ID No.395’-GTTAGAATTAGGTTAAGCTTGTTTTTTTATTGGCGATGAA-3’SEQ ID No.40AAGCTTAACCTAATTCTAACAAGCAAAGATGAAGTGGGTTTCTTTCATTTCCTTGTTGTTCTTGTTCTCCTCTGCTTACTCTAGATCTTTGGATAAGAGAGACGCTCACAAGTCCGAAGTCGCTCACAGATTCAAGGACTTGGGTGAAGAAAACTTCAAGGCTTTGGTCTTGATCGCTTTCGCTCAATACTTGCAACAATGTCCATTCGAAGATCACGTCAAGTTGGTCAACGAAGTTACCGAATTCGCTAAGACTTGTGTTGCTGACGAATCTGCTGAAAACTGTGACAAGTCCTTGCACACCTTGTTCGGTGATAAGTTGTGTACTGTTGCTACCTTGAGAGAAACCTACGGTGAAATGGCTGACTGTTGTGCTAAGCAAGAACCAGAAAGAAACGAATGTTTCTTGCAACACAAGGACGACAACCCAAACTTGCCAAGATTGGTTAGACCAGAAGTTGACGTCATGTGTACTGCTTTCCACGACAACGAAGAAACCTTCTTGAAGAAGTACTTGTACGAAATTGCTAGAAGACACCCATACTTCTACGCTCCAGAATTGTTGTTCTTCGCTAAGAGATACAAGGCTGCTTTCACCGAATGTTGTCAAGCTGCTGATAAGGCTGCTTGTTTGTTGCCAAAGTTGGATGAATTGAGAGACGAAGGTAAGGCTTCTTCCGCTAAGCAAAGATTGAAGTGTGCTTCCTTGCAAAAGTTCGGTGAAAGAGCTTTCAAGGCTTGGGCTGTCGCTAGATTGTCTCAAAGATTCCCAAAGGCTGAATTCGCTGAAGTTTCTAAGTTGGTTACTGACTTGACTAAGGTTCACACTGAATGTTGTCACGGTGACTTGTTGGAATGTGCTGATGACAGAGCTGACTTGGCTAAGTACATCTGTGAAAACCAAGACTCTATCTCTTCCAAGTTGAAGGAATGTTGTGAAAAGCCATTGTTGGAAAAGTCTCACTGTATTGCTGAAGTTGAAAACGATGAAATGCCAGCTGACTTGCCATCTTTGGCTGCTGACTTCG
TTGAATCTAAGGACGTTTGTAAGAACTACGCTGAAGCTAAGGACGTCTTCTTGGGTATGTTCTTGTACGAATACGCTAGAAGACACCCAGACTACTCCGTTGTCTTGTTGTTGAGATTGGCTAAGACCTACGAAACTACCTTGGAAAAGTGTTGTGCTGCTGCTGACCCACACGAATGTTACGCTAAGGTTTTCGATGAATTCAAGCCATTGGTCGAAGAACCACAAAACTTGATCAAGCAAAACTGTGAATTGTTCGAACAATTGGGTGAATACAAGTTCCAAAACGCTTTGTTGGTTAGATACACTAAGAAGGTCCCACAAGTCTCCACCCCAACTTTGGTTGAAGTCTCTAGAAACTTGGGTAAGGTCGGTTCTAAGTGTTGTAAGCACCCAGAAGCTAAGAGAATGCCATGTGCTGAAGATTACTTGTCCGTCGTTTTGAACCAATTGTGTGTTTTGCACGAAAAGACCCCAGTCTCTGATAGAGTCACCAAGTGTTGTACTGAATCTTTGGTTAACAGAAGACCATGTTTCTCTGCTTTGGAAGTCGACGAAACTTACGTTCCAAAGGAATTCAACGCTGAAACTTTCACCTTCCACGCTGATATCTGTACCTTGTCCGAAAAGGAAAGACAAATTAAGAAGCAAACTGCTTTGGTTGAATTGGTCAAGCACAAGCCAAAGGCTACTAAGGAACAATTGAAGGCTGTCATGGATGATTTCGCTGCTTTCGTTGAAAAGTGTTGTAGGCTGATGATAAGGAAACTTGTTTCGCTGAAGAAGGTAAGAAGTTGGTCGCTGCTTCCCAAGCTGCTTTGGGTTTGTAATAAGCTT
权利要求
1.一种多肽,其包括(i)前导序列,该前导序列包括(a)分泌前序列,和(b)下列基序-X1-X2-X3-X4-X5-其中X1是苯丙氨酸、色氨酸、或酪氨酸,X2是异亮氨酸、亮氨酸、缬氨酸、丙氨酸或甲硫氨酸,X3是亮氨酸、缬氨酸、丙氨酸或甲硫氨酸,X4是丝氨酸或苏氨酸,以及X5是异亮氨酸、缬氨酸、丙氨酸或甲硫氨酸;以及(ii)与前导序列异源的所需要的蛋白质。
2.权利要求1所述的多肽,其中X1是苯丙氨酸。
3.权利要求1或2所述的多肽,其中X2是异亮氨酸。
4.上述权利要求中任何一项所述的多肽,其中X3是缬氨酸。
5.上述权利要求中任何一项所述的多肽,其中基序的氨基酸被包括在取代天然存在氨基酸的多肽中。
6.上述权利要求中任何一项所述的多肽,其中X5是异亮氨酸。
7.上述权利要求中任何一项所述的多肽,其中基序是-Phe-Ile-Val-Ser-Ile-。
8.上述权利要求中任何一项所述的多肽,其中分泌前序列是白蛋白分泌前序列或其变体。
9.权利要求8所述的多肽,其中X1、X2、X3、X4和X5分别是在第-20、-19、-18、-17和-16的位置,而代替在那些位置处的天然存在的氨基酸,其中编号为使第-1位残基是天然白蛋白分泌原序列的C-末端氨基酸,并且其中X1、X2、X3、X4和X5是在权利要求1至7中任何一项所限定的氨基酸。
10.权利要求8或9所述的多肽,其中白蛋白分泌前序列或其变体是人白蛋白分泌前序列或其变体。
11.权利要求10所述的多肽,包括分泌前序列MKWVFIVSILFLFSSAYS。
12.上述权利要求中任何一项所述的多肽,其中前导序列包括分泌原序列。
13.权利要求12所述的多肽,其中白蛋白分泌前序列或其变体通过其C-末端的肽键而与分泌原序列、或其变体的N-末端氨基酸融合,由此形成前-原序列。
14.权利要求12或13所述的多肽,其中分泌原序列是白蛋白分泌原序列或其变体。
15.权利要求14所述的多肽,其中分泌原序列是人血清白蛋白分泌原序列或其变体。
16.权利要求14或15所述的多肽,其中分泌原序列基序是酵母MFα-1分泌原序列或其变体。
17.权利要求12所述的多肽,其包括序列MKWVFIVSILFLFSSAYSRY1Y2Y3Y4Y5其中,Y1是Gly或Ser,Y2是Val或Leu,Y3是Phe或Asp,Y4是Arg或Lys以及Y5是Arg或Lys,或包括该序列的变体。
18.权利要求17所述的多肽,其中Y1是Gly,Y2是Val以及Y3是Phe;或Y1是Ser,Y2是Leu以及Y3是Asp。
19.权利要求17或18所述的多肽,其中Y4是Arg以及Y5是Arg;Y4是Lys以及Y5是Arg;Y4是Lys以及Y5是Lys;或Y4是Arg以及Y5是Lys。
20.权利要求1至7中任何一项所述的多肽,其中至少部分所述基序存在于分泌前序列中。
21.上述权利要求中任何一项所述的多肽,其中所需要蛋白质的序列在其N-末端与前导序列的羧基末端氨基酸融合。
22.上述权利要求中任何一项所述的多肽,其中所需要的蛋白质是白蛋白或其变体、片段或融合体。
23.权利要求22所述的多肽,其中白蛋白是人白蛋白。
24.权利要求1至21中任何一项所述的多肽,其中成熟多肽是运铁蛋白或其变体、片段或融合体。
25.权利要求24所述的多肽,其中运铁蛋白是人运铁蛋白。
26.分离的多核苷酸,其包括编码由上述任何权利要求所限定的基序的序列。
27.权利要求26所述的多核苷酸,其包括SEQ ID No.15的序列。
28.权利要求26所述的多核苷酸,其包括SEQ ID No.16的序列。
29.权利要求26所述的多核苷酸,其包括SEQ ID No.17的序列。
30.权利要求26所述的多核苷酸,其包括SEQ ID No.18的序列。
31.权利要求26所述的多核苷酸,其包括SEQ ID No.34的序列。
32.权利要求30或31所述的多核苷酸,其包括SEQ ID No.24的序列。
33.权利要求32所述的多核苷酸,其包括SEQ ID No.25或其变体的序列,其变体具有SEQ ID No.24的前导序列并且编码由SEQ ID No.25编码的白蛋白的变体或片段。
34.权利要求30或31所述的多核苷酸,其包括SEQ ID No.27的序列。
35.权利要求34所述的多核苷酸,其包括SEQ ID No.21或其变体的序列,其变体具有SEQ ID No.27的前导序列并且编码由SEQ ID No.21编码的白蛋白的变体或片段。
36.包括SEQ ID No.21或其片段的序列的多核苷酸。
37.权利要求33、35或36中任何一项所述的多核苷酸,其中该多核苷酸包括编码异源蛋白质的DNA序列和DNA序列SEQ ID No.25或DNA序列SEQID No.21的连续或不连续的融合体DNA序列。
38.一种多核苷酸,是权利要求26至37中任何一项所述的多核苷酸的互补链。
39.权利要求26至38中任何一项所述的多核苷酸,其包括可操作连接的转录调节区。
40.权利要求39所述的多核苷酸,其中转录调节区包括转录启动子。
41.可自我复制的多核苷酸序列,其包括权利要求26至40中任何一项所述的多核苷酸。
42.包括权利要求26至41中任何一项所述的多核苷酸的细胞。
43.权利要求42所述的细胞,其是真核细胞。
44.权利要求43所述的细胞,其是真菌细胞。
45.权利要求44所述的细胞,其是曲霉菌属细胞。
46.权利要求44所述的细胞,其是酵母细胞。
47.权利要求46所述的细胞,其是糖酵母属、克卢费氏酵母属、裂殖酵母属或毕赤酵母属细胞。
48.包括权利要求42至47中任何一项所述的细胞和培养基的细胞培养物。
49.权利要求48所述的细胞培养物,其中培养基包含在权利要求1至22中任何一项所限定的多肽所生产的成熟的所需要蛋白质。
50.用于生产成熟的所需要蛋白质的方法,包括(1)在培养基中培养权利要求42至47中任何一项所述的细胞,其中该细胞作为生产权利要求1至25中任何一项所限定的多肽的结果,将成熟的所需要蛋白质分泌到培养基中,以及(2)使含有分泌的成熟蛋白质的培养基与细胞分离。
51.权利要求50所述的方法,另外包括从培养基分离成熟的蛋白质,以及任选地进一步纯化成熟的所需要蛋白质的步骤。
52.权利要求51所述的方法,另外包括配制的步骤,即上述步骤分离和/或纯化的成熟的所需要蛋白质,与治疗上可接受的载体或稀释剂配制在一起,从而产生适于施用于人类或动物的治疗性产物。
全文摘要
本发明提供一种多肽,其包括(i)前导序列,该前导序列包括(a)分泌前序列,和(b)下列基序-X
文档编号C07K14/765GK1681930SQ03822147
公开日2005年10月12日 申请日期2003年7月23日 优先权日2002年7月23日
发明者达雷尔·斯利普 申请人:达尔塔生物技术有限公司