专利名称::用于对蛋白质聚集进行预测以及设计聚集抑制剂的方法用于对蛋白质聚集进行预测以及设计聚集抑制剂的方法
技术领域:
:本发明涉及用于对蛋白质聚集进行预测以及设计聚集抑制剂的方法。其特别地但并非排他地涉及辅助进行用于稳定蛋白质以对抗聚集的化合物的设计的方法,从而潜在地增加蛋白质的保质期、降低蛋白质的免疫原性以及增加离体转译系统中的产出。
背景技术:
:细胞中或细胞内空间中错误折叠蛋白质的沉积^JL现与医学上许多严重的紊乱有关,其中的这些疾病诸如老年痴呆症、帕金森病和2型糖尿病。4^界用于治疗那些医学情况的健康服务系统的花费是巨大的,对那些受感染的人们以及对他们的家庭的影响也是巨大的。病例的数量很可能随预期寿命的增长而平稳增加。为解决这一增长中的问题,基于在早期对蛋白质形成聚集的能力进行干扰而开发着新的疗法。细胞中蛋白质的通常的生命周期开始于在核糖体的多肽的合成并继续从初始地、无折叠的状态经由可能包含一个或几个折叠中间体的折叠路径到达蛋白质生物活性的自然态。对于大多^t蛋白质,此自然态对应于紧密的折叠构象,虽然^1存在一些例外的,其中之一是天然无折叠的a-突触核蛋白(UverskyVN(2002)iVft'vd[);ww/<to/pwte/附.'爿/wiVifw/^eWotogyHw7s/w/7/ij;s/cs,ProteinSci.11:739-756)。生命周期结束于变'性和降解。细胞对协助进行蛋白质折叠过程的复杂的质量控制机制进行处理。这些机制中的第一个首先^1核糖体本身。第二,蛋白质在作为催化剂或助催化剂的热休克蛋白和伴娘蛋白的支持下以正确的方式对蛋白质进行折叠,或者对^"^折叠的蛋白质重新进行折叠(EvansMS,VlarkeTFIV,ClarkPL(2005)CV"/or附"ftVws6>/C^-7hi57flftV)Wfl/^/必"《/"^7^//她5,Prot,Pept.Let.12(2):189-195)。在重新折叠失败的情况下,由泛素-蛋白酶体系统对4^:折叠的蛋白质进行处理。第一步,把泛素连接到故障结构。这些标签对多肽链进行标记以用于降解,此任务由蛋白酶体来完成。可以在DobsonCM(2003)iV她/w/o/rfiVigflwd附/^/W/"g,Nature426:884-890以及VendruscoloM,ZurdoJ,MacpheeCE,DobsonCM(2003)/V她/"fl/irf附/^iMwg..a/"m必g附5^"fls^附6/yfl/frf/^"toVzi/"co附p/ex:A/o/og/cfl/sy他附s,Phil.Trans.R.Soc.Lond.A361:1205-1222)中找到对折叠过程和IH^折叠过程的更详细的描述。然而,细胞的质量控制会由于各种原因而失败,导致M折叠的蛋白质的积聚。这些蛋白质随后能够聚集而形成被称为淀粉样纤维、核心区域包括连续的p-片层组合的密集结构(DobsonCM(2005)iVj/wg/"to,/卵s,Nature435:747-749)。在活的组织中,蛋白质沉积(常常是以淀粉样聚集的形式)时常与各种疾病相关联,其中的许多疾病是与年龄有关的。例如,这些疾病包括诸如帕金森病、老年痴呆症和海绵状脑病的神经退化性疾病,以及系统性的(如免疫球蛋白轻链或淀粉样转曱状腺素蛋白)和周围组织的紊乱(如2型糖尿病)。在人类中,超过30个不同的g折叠被获知是与蛋白质沉积相关联的。特别是在预期寿命继续稳步增长的发达的世界中,感染那些疾病的人数的持续增M社会引起了空前的且日益严重的问题。据估计,2000年仅美国就约450万人感染了老年痴呆症,且病例的数量到2050年可能增长到1600万(HebertLE,ScherrPA,BieniasJL,BennettDA,EvansDA(2003)袭/^/膨rD/seflse/"幼eZ7.51.i^拜/她Vw..iVev/ece五对/扁tesC/;w7fg幼e20卯,Arch.Neurol.60:1119-1122)。人们感染此神经退化性疾病的危险据估计对于超过60岁年龄的人高达10个中1个,而对于超过85岁的则几乎2个中1个(EvansDA,FunkensteinHH,AlbertMS,ScherrPA,CookNR,ChownMJ,HebertLE,HennekensCH,TaylorJO(1989)/Veva/ewce。/J/由/舰f,sD/se肪e及e/ww^/,Jama262:2551-2556)。对健康系统的影响是非常大的,且一些作者预测神经退化疾病会成为死亡的主要原因(LozanoAM,KaliaSK(2005)iVewMove舰她/wP"由Vi^附,s,Sci.Am.,291(1):58-65)。此外,生物分子在溶液中形成聚集的倾向始终是药品设计中的关键问9题之一。治疗分子不仅必须是可溶性的还必须是反应性的且当以相对高的浓度来进行管理或长时间存放时不应形成聚集。在许多情形下,证明了找到这些多肽足够稳定的IH^是耗费时间的且昂贵的,且有时候采用当前现有的方法甚至是不可能的。因此,找到对折叠过程进行干扰的方式以阻止聚集的形成可以改进药品开发的效率。
发明内容因此,为了优选地协助对上述问题进行解决,所期望的是,能够设计与病理蛋白质或者与溶液中的治疗分子相互作用的化合物,从而化合物竟争性地结合到并阻断衍生聚集过程的最重要的部位。对获得此目标的一个逼近将涉及对会干扰聚集过程的肽衍生分子的设计。相应地,最广泛地来说,本发明一方面提供了一种用于设计蛋白质聚集抑制肽的方法,其涉及对侧链会与目标蛋白质中的易聚集区域相互作用的肽序列的识别。本发明的第一方面提供了一种用于对潜在的蛋白质聚集抑制肽序列进行预测的方法,包括步骤a)识别形成目标蛋白质中的聚集区域的至少一部分的肽序列;b)测定所述Ji^列是否形成p-片层(beta-sheet)的一部分;c)如果步骤b)中获得肯定的结果,则提取该片层的相邻的股;d)识别与所述肽序列相邻的股中的、侧链与所述肽序列相互作用的残基(residue),那些残基形成潜在的蛋白质聚集抑制肽序列。优选地,对目标蛋白质的复数个外源蛋白质实行所述测定步骤。相应地,即使目标蛋白质中的聚集区域不形成p-片层的一部分,也能够从在其它蛋白质中所找到的相似的或相同的序列以识别合适的肽序列。可以通过使用蛋白质结构的数据库来执行此测定,以及优选地,对所结构中的p-片层的一部分进行测定。在本发明的实施例中,使用来自包含大量实验结构和理论模型的结构生物信息学合作研究协会(RCSB)的蛋白质数据银#(PDB)的数据(BermanHM,WestbrookJ,FengZ,GillilandG,BhatTN,WdssigH,ShindyalovIN,BournePE(2000)r/ieiV她/wD"紐5""A:,Nuc.AcidsRes.28:235-242)。2005年6月27日的时候,PDB中有31639个结构。然而,也可以使用其它的结构数据库或数据银行。对聚集抑制肽进行预测的第一步是识别目标蛋白质中的一个或更多个聚集区域,以及形成此区域的至少一部分的肽序列。用于识别此区域的优选的方法是使用淀粉样聚集分布。DuBayKF,PawarAP,ChitiF,ZurdoJ,DobsonCM,VendruscoloM(2004)iW/"/wi幼eJZ^/wtey4欲re^fl《/ow6>/j附卢/fltogew/ciV/"一/^feOrfl/"s,J.Mol.Biol.341:1317-1326中以及PawarAP,DuBayKF,ZurdoJ,CWtiF,VendruscoloM,DobsonCM(2005)户mZ/"/ow朋</""欲reg她》w-smc一幼/e"/"/w她/"s"swc/她^/w/幼/le"wi/^^i^YiftVe必^flSM,J.Mol.Biol.350:379-392中对用于对多肽链内的聚集热点区域进行预测的这一理论方法进行了描述。该方法提供了能够被用来基于氨基酸的许多固有属性来为任意蛋白质计算淀粉样聚集倾向分布的算法。一旦获取了目标蛋白质的淀粉样聚集分布,通过对该分布中聚集倾向超过预定值(如l)的蛋白质部分进行考虑就能够识别聚集区域。可替选地或额外地,可以通过实验测量来识别聚集区域,例如,通过肽或蛋白质或其片段中每个残基的系统突变,并把这些肽或蛋白质或片段的片段进行合成并以离体试验对它们的聚集倾向进行分析。优选地,所述测定步骤包括子步骤识别蛋白质结构数据库中所包含的、包含与形成目标蛋白质中的聚集区域的至少一部分的肽序列相关的相关肽序列的一组蛋白质;以及在所述组内识别其中所^目关肽序列形成p-片层的一部分的那些蛋白质。为了增加可能的命中(hit)(即,所识别的其相关肽序列形成p-片层的一部分的蛋白质)的数量,相关肽序列优选地包括所关注的肽序列以及所述肽序列的片段。可替选地或额外地,为增加可能的命中的数量,相关肽序列可以包括包括具有所关注的肽序列的一个或更多个氨基酸的保守替换的序列。在此步骤的上下文中,保守替换是保留了被替换氨基酸的聚集属性的替换。具体地,可以以在PH7.0时聚集倾向在彼此0.2以内的^酸为!^!来选择保守替换。可替选地或额外地,可以以具有相似属性(例如,ii极性、芳香性)的残基为^fife来选择保守替换。更优选地,相关肽序列既包括正序的也包括反序的一个或更多个上述的肽序列。本方面的一个实施例中,识别数据库中所包含的一组蛋白质的子步骤包括^目关肽序列与所讨论的蛋白质的PDB文件中的"SHEET"(片层)行中所包含的残勤目比较。可替选地或额外地,识别数据库中所包含的一组蛋白质的子步骤包括识别所^目关肽序列中的、彼此之间形成氳键(hydrogenbonds)的那些残基。一个可以识别那些彼此之间形成氢键的残基的方法是,对至少相距三个残基的每对残基之间的欧几里德距离进行计算,如果该距离小于3.2埃,以及更优选如果该距离小于3.075埃,则假定形成氢键。在一个实施例中,使用来自所讨论的蛋白质的PDB文件的"ATOM"入口(entry)来计算欧几里德距离。优选地,该方法包括对所识别的彼此之间形成氢键的残基对以及它们之间的氢键进行显示的进一步的步骤。为了核对来自以上用于识别蛋白质组的方式之一的结果的有效性,来自两个方法的结果都可以用来对从其它方法所识别的残基进行交叉核对。可替选地或额外地,可以用其它用于识别蛋白质组的方法来执行这些交叉核对。该方法优选地包括对步骤d)中所识别的残基进行显示的进一步的步骤,以及还可以包括对关于这些被识别的残基所来自的蛋白质的信息进行显示的步骤。此显示可以采用所识别的(5-片层中的残基的3维排列的形式。优选地,该方法包括进一步的步骤对不直接参与与所述形成目标蛋白质中的聚集区域的一部分的肽序列的相互作用的、与潜在的蛋白质聚集抑制肽序列相邻的侧链和股的主干进行修饰,以使与所述肽序列的相互作用最大化以及增加潜在的蛋白质聚集抑制序列的潜在的聚集抑制属性。一旦识别了一个或更多个肽序列或"模板",则可以设计以及合成肽库,其在不直接涉及与所讨论的聚集区域的相互作用的;^板区域引入了变异性。随后可以使用专用的生化聚集和细胞毒性试验来对此库进行筛选,以对出现各种化合物的情况下蛋白质的毒性以及聚集率的变化进行研究。优选地,通过^^矣选M酸序列添加对诸如稳定性和可溶性的属性进行改进的修饰来构建库。例如,本文中所描述的方法可以包括e)合成肽库,所述肽库的成员包括步骤d)中所识别的残基,以及f)确定所述库的成员与目标蛋白质的结合亲合性。在库内可以识别一个或更多个相对于对照物以高亲合性结合到目标蛋白质的肽。这些肽会是候选的蛋白质聚集抑制肽。可以把4嫂现以高亲合性结合到目标的肽分离、纯化和/或合成。可以以对细胞过程的干扰对上述所预测的(predicted)或所识别的蛋白质序列进行筛选(即,毒理学)。例如,一种方法可以包括测定以上步骤d)中所识别的残基是否与蛋白质数据银行(或任何其它的蛋白质数据库)中存在的一个或更多个非目标蛋白质相互作用,优选地是能够介导诸如代谢途径、离子稳态结构蛋白、涉;5Uf应激的反应的蛋白质、调控基因表达、DNA修复等的基本(essential)细胞过程的非目标蛋白质。可以对所述目标蛋白质的复数个外源蛋白质实行所述测定步骤,优选地使用蛋白质结构的数据库。例如,识别数据库内的、包含与测定肽序列相关的相关肽序列的一组蛋白质;并在该组内识别其中相关肽序列与以上步骤d)中所识别的^4目互作用的那些蛋白质。候选的蛋白质聚集抑制肽序列可以被识别为不与介导基本细胞过程的蛋白质相互作用。可以在蛋白质错误折叠疾病的模型中确定上述所识别的肽序列的功效。蛋白质g折叠疾病的模型是本领域中/i^p的。适合的模型包括W达易聚集蛋白质的细胞、以及过表达易聚集蛋白质的诸如老鼠或果蝇模型的转基因动物模型以及那种可能会也可能不会面临诸如氧化应激等其它挑战的模型。例如,见JumiE,MouradianMM,J^"附flw(wr-狄/^eswVm/"cmi鄉mi"/ve(w:殿cws/^c/es/evc/ss"sce/^/6/鄉to13flfo;pfl附/"e,NeurosciLett.2002;320:146-50。LevN,MelamedE,OffenD,iVotefltso附ii/Ay/ieraews/ft'zes<ftj^^*e"ftViterf"e"fYA/fls/wwfl似aoV/flftVedfl附o^g,NeurosciLett.2006;399:27-32。McGowanE,EriksenJ,HuttonM,j</Kife,//ig^lfe/f"VMc》他《flse《>ffnms^w/cTrendsGenet.2006;22:281-9。WhitworthAJ,WesPD,PallanckLJ,Dms^p/w7"柳oflfe/s/w》weefflwewtorfrngcfecovefj/<w尸flrA:/ws。w,s必seose,DrugDiscovToday.2006萃2月;11(3-4):119-26。易聚集蛋白质包括如下的蛋白质、前体或片段(x-突触核蛋白(野生型或任何与帕金森症相关联的突变)、亨廷顿蛋白(以及其它具有延长的多聚谷氨酰胺或多聚丙氨酸重复的蛋白质)、p淀粉样蛋白(AP42)、Prion蛋白、胰乌淀粉样多肽(MAPP)、超氧化物歧化酶、Tau蛋白、a-l-抗胰蛋白酶以及其它的丝氨酸蛋白酶抑制剂、溶菌酶、玻璃粘连蛋白、晶体蛋白、纤维蛋白原a链、载脂蛋白AI、胱蛋白酶抑制剂、凝溶胶蛋白、乳铁蛋白、角膜上皮蛋白、降钓素、心钠素、催乳素、角蛋白、Medin(或全长乳凝集素)、免疫球蛋白轻链、转曱状腺素蛋白(TTR)、血清淀粉样蛋白A(SAA)、p2-微球蛋白、免疫球蛋白重链、或者其它任何与任何蛋白质,折叠紊乱相关联的蛋白质。可以对上述所识别的肽序列执行以下的一个或更多个的能力进行确定i.稳定蛋白质以对抗聚集;ii减小所存储的蛋白质失去活性的速率;iii.降低蛋白质的聚集介导免疫原性;iv.增加离体#^系统中蛋白质的产出;v.增加用于治疗使用的配方的溶液的稳定性;vi.抑制一个或更多个细胞过程;vii.防止蛋白质的寡聚或多聚。本发明进一步的方面提供了用于使用以上第一方面的步骤d)中所识别的残基来设计聚集抑制剂以治疗蛋白质,折叠疾病的方法;用于使用用于稳定蛋白质以对抗配方、溶剂和其它溶液中的聚集的化合物(例如,生物药品、抗体、酶等)的方法;用于^f吏用所识别的残基来设计化合物以增加这些蛋白质的保质期的方法;用于使用所识别的残基来设计化合物以降低蛋白质由于聚集的免疫原性的方法;以及用于使用所识别的残基来设计化合物以增加离体转译系统中蛋白质的产出的方本发明的另一方面提供了计算机程序,该计算^14呈序在计算机上运行时执行以上方面中任一方面的方法。本发明的另一方面提供了包含根据之前方面的计算机程序的计算机数据载体。本发明的进一步的方面提供了被配置成执行以上方法方面中任一方面的方法的计算机。优选地,此计算机^皮配置成对数据库进^t沐问,这些数据库包含获取预测所务使用的已知蛋白的信息。可以把这些数据库存储在本地,例如,存储在硬盘驱动器上或存储在存储器中,但优选地对其进行远程存储并通过诸如网络或因特网的通信链接来进4t^问。现在将参考附图对本发明的实施例进行描述,其中图1示出了AP42和a-突触核蛋白在PH7的淀粉样聚集分布;图2示出了,晶体蛋白D的突变在PH7的淀^^样聚集分布;图3示出了mutCRYD34-58的残基1至8的PeptideSearch(肽搜索)程序的输出;图4示出了肽搜索过程的流4呈图5示出了从PDB获取的pdb—seqres.txt以及ss.txt文件的节选;图6示出了p-片层中三个相邻的股中的氲键的预测;图7示出了用于对残基之间的氲键进,测的程序的实例输出;图8示出了肽搜索中命中的结果概况;以及图9示出了对找到(found)PDB中的短肽匹配的位置(position)进行了标识的mutCRYD34-58、Ap42和a-突触核蛋白的聚集倾向分布。1具体实施例方式下面将对本发明的实施例进行描述。将用,晶体蛋白D(mutCRYD)的突变来证明本实施例的方法论。为了示意的目的,M两个进一步的蛋白质进行了论述涉及帕金森病的a-突触核蛋白,以及与老年痴呆症相关联的A(342。人类眼睛的晶状体细胞中有丰富的mutCRYD。当#^折叠时,它能够形成呈现为白内障的聚集,导致视力模糊或失明(IK(mE,PristonM,SchorderetDF,BillingsleyGD,GirardPO,LubsenN,MunierFL(1999)T7rey-Oj^/fl/ZiVis朋</好w附fl"Cte/Yi"s:爿J°"zz/eMa^feC7e"m*,Am.J.Hum.Genet.65:1261-1267,以及DahmR(2004似^e,Sci.Am.,291(4):52-59)。,晶体蛋白D与该突变有三个戎基不同,R58H、R36S以及R14C,它们都被发现会增加聚集(PandeA,PandeJ,AsherieN,LomakinA,OgunO,KingJ,BenedekGB(2001)Crystalcataracts:Humangeneticcataractcausedbyproteincrystallization,PNAS,98(11):6116-6120)。a-突触核蛋白是140个残基的蛋白质,其M现是路易体(帕金森病人的大脑中所发现的会引起神经退化的密集的沉积-SpaiantiniMG,SchmidtML,LeeVMY,TrojanowskiJQ,JakesR,GoedertM(1997)a-S拜c/d"wi,6flfe,Nature.388:839-840)中的主要成分。A卩42是42个戎基的小疏水肽,在老年痴呆症的突触功能中断这一神经病状最常见的形式中起直接作用(SelkoeDJ(2002)jfe^/wc,sd/w"^<i,丰/c加7we,Science298:789-790)。形成密集的P-片层状结构的倾向,即聚集的倾向,在整个蛋白质中有所不同,取决于M酸组成和序列。本实施例方法的目的是识别候选的肽序列,这些候选的肽序列允许通过对目标蛋白质的易聚集区域进行封锁(block)来减少聚集形成的速度和量《聚集区域的识别PawarAP,DuBayKF,ZurdoJ,ChitiF,VendruscoloM,Dobson16CM(20050/""欲regattVW"prowe"朋d""欲fegflriow-SMscej9幼/e"r^V"s/w,她/"s1鹏oc/fl^w/,Awe"nflfe^"emftVed/smses,J.Mol.Biol.350:379-392对a-突触核蛋白和Ap42这两个蛋白质部分中的聚集的所谓的"敏感区域"进行了预测。更一般地,以上论文提出了允许对蛋白质的聚集倾向分布进行计算的算法,且该算法显示出了所给出的结果与广泛范围的实验测量3_相当吻合的。对于任何给定的肽序列,它允许对各单个残基的倾向或者对平滑地通过数个M酸的窗口的倾向进行计算。表1分别列出了每个M酸在PH7.0的倾向。表1:20个天然氨基酸中每个JL^酸分别在PH7.0的聚集倾向。<table>tableseeoriginaldocumentpage17</column></row><table>图1示出了根据此算法所计算的a-突触核蛋白和AP42的聚集倾向分布(以上的论文中也给出了)。左边的图示出了AP42在PH7的聚集倾向分布。未作改变的野生型AP42序列的聚集分布被绘制为中间的线,同时还有对沿该序列每个氨基酸位置的任何可能的突变进行测定后所获得的最大的和最小的倾向值。画出了Zprofagg=l的线来辅助对促聚集区域进行识别。通过实验过程所生成的同样的区域被示为阴影区域。类似地,右边的图示出了a-突触核蛋白在PH7的聚集倾向分布,也包括ZP、gg-l的线来辅助对促聚集区域进行识别。在此图中,蛋白质被i人为是纤维结构的大的区域由浅灰色阴影示出;高度淀粉样NAC区域由更深的灰色阴影示出;^C^现是该NAC区域内显著的淀粉样段的69-79区域由散列的线条示出。数值穿过阈值(例如,图1中的Zprofagg-1)的蛋白质部分被认为是具有最高的聚集倾向并被假定是在体纤维形成和聚集的核心区域。根据图1所预测的核心聚集区域在此实施例中被用作用于对任何可以作为抑制剂的相互作用对象进行检测的目标序列。将用mutCRYD来证明本实施例的方法论。图2示出了mutCRYD的聚集倾向分布,取七个残基的平均。如图1中的聚集倾向分布一样,添加了聚集倾向值1.0处的线来辅助在被认为对聚集敏感的区域与蛋白质的其它部分之间进行区分。为了进一步的搜索,选择了残基34至58。此区域具有预测聚集热点区域的两个顶点并包含两个突变。为了完整的分析,对所有聚集倾向大于1的区域都会进行考虑,但所选择的短片段已足以对所使用的方法进行证明。24-残基的查询序列是SARVDSGCWMLYEQPNYSGLQYFL,将被称为mutCRYD34-58。搜索-概述虽然对单个文件进行搜索来搜索序列是标准的流程且能够用大多数的文本编辑程序或命令行工具来实行,但文件中可能会容易出现上百个或上千个短序列的命中。手工地对它们中的每个进行考虑、寻找二级结构(structure)信息、以及随后核对PDB网站以求更多信息、以及使用3D工具来显现结构以及寻找残基间的相互作用以提取经由氩键紧密链接的肽,对于每个蛋白质会花费数星期或数月的时间。因此,开发了专用软件来对该过程进行处理。该软件被开发为大量的小工具,随后逐步被合并到称为PeptideSearch的单个的、综合的程序中。选择了编程语言PERL用于编写PeptideSearch,因为所有所使用的数据都来自纯文本文件且PERL提供了对那些文件进行解析以及提取和处理其中所包含的信息的强大的例程。PERL还是免费可用的软件,由于18这些原因而在生物信息学者中流行。图4呈现了本实施例的方法论以及软件的流程图,并提供了对下面的方法的详细阐述的概述。PeptideSearch靠调用许多的外部程序来扩展其功能性。图4中也示出了这些调用。在程序的使用中,用户的输入是目标序列加上许多^t,该程序最终生成包括肽和它们的相互作用对象的三维可视图的候选的肽的筒要概况。因此,识别任意蛋白质可能的抑制剂所需的时间从潜在的几个星期缩短到几个小时。PqptideSearch构建被称为'result.html,的HTML文件来^#每个命中的记录(record)。由程序和外部工具所构建的此文件以及所有其它的文件被存储在新的子目录中。此目录的名字来源于当前的日期和时间,从而磁盘上保留有所有程序的运行结果以用于将来的使用。在执行搜索时,P印tideSearch还把命中的有关信息打印到命令提示或控制台,同时还有额外的状态消息。一旦程序结束其运行,则'result.html,包含对所有所找到的命中的概览,使得对候选的肽进行选择是容易的。图3中呈现了对mutCRYD34-58的残基1至8进行搜索后程序的输出。搜索-详细的描述对于本实施例,搜索是以结构生物信息学合作研究协会(RCSB)的蛋白质数据银行(PDB)中的入口为基础的,因为这一可免费访问的在线的源包含大量的实验结构和理论模型。因此,在PBD中的一个肽序列内找到查询序列(querysequence)的全部或一部分给出了对相关结构的访问,允许对二级结构和相互作用对象进行识别。搜索的第一阶段是在PDB的所有的蛋白质入口中来搜索目标序列。这可以通过以下方式达到在本地对PDB文件进行镜像并分别对它们中的每个进行解析以求戎基的序列。然而,此途径在时间和空间方面都是没有效率的2005年6月27日的时候,PDB中有31639个结构,其中的许多是具有数个链的多聚体。此实施例所采用的替选方式是采用包含所有序列信息的单个文件一次并随后对其进行搜索以检测匹配。从RCSB的PDBftp服务器可获取该文件■ftp:〃ftp.rcsb.org/pub/pdb/derived_data。pdb_seqres.txt文件是FASTA格式的所有PDB序列的列表。类似地,在同样的地址可以找到包含FASTA格式的PDB中所有二级结构的文件ss.txt。本实施例所使用的文件版本的日期是2005年6月27日。二级结构文件呈现了初步的且快速的源,以执行序列到二级结构的匹配以及对p-片层构象中是否涉及命中进行检测。图5是来自两个文件的简短的节选分别来自seq_res.txt和ss.txt的前十行。下面的表2示出了ss.txt中所使用的缩写的含义。表2<table>tableseeoriginaldocumentpage20</column></row><table>对序列文件和结构文件进行清理以上所提及的两个文件是由PDB通过使用来自所有的PDB入口的数据而自动衍生出来的。由许多不同的程序确定了PDB文件中的二级结构信息。然而,两个文件的长H不相等的。图5中的摘选示出了其中的一个原因序列文件中的FASTA标题行更长,包含更详细的信息。考虑到数据的来源,期望对每个序列有一个结构入口且反之亦然。此外,首先,似乎文件中的行数可以是相同的,4吏得对两个文件中的内容进4亍匹配4艮方<更。然而,这些假设都不是真的行数并非总是匹配的。在文件上运行的、提取所有FASTA标题行的PERL脚本对于pdb_seqres.txt返回74560个入口,对于ss.txt返回69903个入口。在把文件用作输入之前,还有许多其它的问题需要解决。例如,ID的使用在两个文件内以及在两个文件之间是不一致的。序列文件4吏用诸如ltsv—的ID,并以lthl—、lthl—1、lthl—2,或以lpr2一A、lpr2一B来区分不同的链,而ss.txt则使用1TSV:一、1THL:—、1THL:—:1、1PR2:A、1PR2:B。此外,序列文件中的许多ID;二级结^J文件中没有相应的入口,且反之亦然诸如1J3W、10G8和1VGS的入口包含在ss.txt中但不在pdb-seqres.txt中。它们由蛋白质数据银行中的ID2CVZ、2BUH和2CV4所取代,其仅考虑了pdb—seqres.txt。把所有的唯一入口从两个文件移除要采用许多PERL脚本。然后,作为结果的文件包含68383个匹配的入口。由于一些序列在长度上不匹配,潜在的问题仍然存在。PeptideSearch程序被配置成在运行期间指出这些不一致。把查询匹配到序列所关注的实验结构是那些其中出现了来自查询串的氨基^列的结构。这意味着,需要对正向的串的精确的匹配进行搜索,对于mutCRYD34-58:SARVDSGCWMLYEQPNYSGLQYFL以;sjt于逆向的序列,此处LFYQLGSYNPQEYLMWCGSDVRAS。较之为短肽找到精确的序列匹配,在PDB中为长肽找到精确的匹配明显是更加不可能的。实际上,当为整个蛋白质搜索匹配时,很可能仅会找到一个匹配该蛋白质自身。即使当集中关注于蛋白质的敏感区域时,也会想要搜索出具有那些只是太长而不能在PDB中给出精确命中的M酸的延伸(stretch)的命中。由于PDB中不包括,晶体蛋白D的突变的结构,所以对于完整的24-残基的序列没有结果。为增加命中的产出,实施了两个进一步的方法。第一,目标蛋白质序列被分成子串,为这些子串中的每个子串搜索相互作用对象。这允许把结合到序列的一部分的肽识别出来。随后可以对这些分别进4于测定,例如,与其它的JI;M目结合,或者通过把几个这样的肽连接在一fet成更长的肽。21在PeptideSearch程序中,用户可以设置搜索序列的最小长度n以及最大长度m。随着试验,在找到仍然足够长而仍然有用的相互作用对象时,发现了长度范围在5至8个残基的查询序列给出了充足的命中数量。然而,也可以使用其它长度的子串。程序被配置成自动对长度在给定范围中的初始序列的所有邻接子串运行完整的搜索。因此,为长度/的完整的查询序列所搜索的查询序列的总数量q是第二,程序允许使用正则表达式。这允许把变异性引入搜索序列。相应地,PeptideSearch定义保守替换,当对#^酸序列文件进4亍搜索时对这些保守替换进行考虑。例如,根据表l,Gln(Q)和Asn(N)具有相似的聚集倾向,因此,用以增加有用命中的数量的一个选择将会是在搜索中对两个都进行考虑。例如搜索串QANT的正则表达式将会是[QNA[QNT。可以以类似的方式来使用其它的基于残基的聚集属性的替换。两个方法可以合并,从而把4每个下至最小长度的可能的子串转换成考虑上述保守替换的正则表达式。找到二级结构元素来自pdb—seqres.txt和ss.txt的数据都^l:在程序开始时^皮读取一次并^^存储在大的it组中。随后对来自两个数组的入口联合进行处理。如以上所注意到的,由于Jl^酸序列和结构的长度并非总是匹配,所以行数不能,皮用作引导。而是,用FASTA标题行作为导向,以确保搜索对共同所属的入口进行考虑以及确保两个文件中的信息保持同步。如果入口被分在几行,则通过把它们之间的换行符去掉来对它们进行联接。这为每个入口产生了两个串变量,一个用于完整的Jl^酸序列以及一个用于各自的二级结构。在这点上,如果两个串的长度不等,则不再认为给定的信息是可靠的。在此情况下,程序显示警告来使用户意识到不一致并建议对命中进行人工检查。PERL提供了用于对序列串进行搜索以对查询序列的出现进行搜索篮,单易用的例程,要么是寻找完美的匹配、要么是通过对正则表达式进行匹配。如果有任何的命中存在,则PeptideSearch把它们从序列串中提取出来并用二级结构串的相应区域对它们进行排列。这允许首先对匹配中有多少残基是在伸展的p-片层构造中的进行目视的核对。由于结构的附近(neighbourhood)也会是所关注的,该程序还被配置成输出匹配的左边和右边的许多结构信息和残基。此窗口的尺寸可以在程序选项中来进4ti殳置。理想地,此信息可以^fsi仅被用来对所有那些其二级结构文件指示存在p-片层的入口进行选择且I^^M"那些进行进一步的研究。然而,用所使用的文件,这会导致许多误才M3午多漏报。其主要原因是ss.txt中的预测时常不准确。当把排列与PDB文件中的实际结构相比较时会麦现这一点。因此,可见最好对序列中的每个命中都进行考虑,而不论ss.txt中的信息。这增加了所必须处理的命中的数量,进一步需要访问PDB,但它也确保了没有重要的候选肽被遗漏。获取PDB文件一^E—个入口中检测到查询序列,则需要获取更多的信息且必须要对实际的PDB文件进行处理。从FASTA标题行来提取PDBID。PeptideSearch中定义了本地的PDB目录。如果本地目录中有属于此ID的PDB文件,压缩的或未压缩的,则使用此本地的拷贝。否则,PeptideSearch使用其例程中的一个例程来自动访问剑桥晶体学数据中心(CCBC)的RCSB蛋白质数据银行ftp服务器的镜4象,ftp:〃pdb.ccdc,cam.ac.uk/rcsb/data/structures/divided/pdb/,并下载PDB文件的压缩拷贝。随后经由到程序WinRAR的系统调用来对此.Z-archive进行解压。处理PDB文件在打开PDB文件之前,程序对之前的命中是否使用了同样的PDBID进行核对。如果同样的^JJ^列内有数个命中,或者当文件中的结构是多聚体从而每个链上有相似的命中存在时,会是这种情况。如果ID是同样的,则数据仍包含在程序的数据数组内并能够被重新使用,节省了大量的时间。否则,打开PDB文件的本地拷贝,把数据读取到存储器。每个文件有两个部分是所关注的。第一是能够被用来对查询序列与P-片层的重叠进行识别的行。这些行以示出p-片层位置的"SHEET,,标识符开始。第二指的是给出了分子中每个颗粒的坐标的"ATOM,,入口。此信息允许对氩键进行预测,因为知道哪些残基实际上相互作用是提供了重要的信息的并在设计抑制剂肽上给了研究者更多的自由。例如,侧链不涉及相互作用的^会:故其它的为肽提供更好的生化属性的所取代。P-片层中的每个股都有一个"SHEET"行。这包含股中第一个和最后一个残基的索引。如果此股在片层中不是第一个,则该行还包含把此股和前面的股进行注册(register)的两个残基,即,被发现被氢键连接的单个的一对残基的索引。在http:〃www.rcsb.org/pdb/docs/format/pdbguide2.2/guide2.2一frame.html可以找到有关"SHEET,,和"ATOM"入口的完4Ht息。从那些行提取信息,M酸序列中的命中的起始点和末尾点提供了对重叠的测定如果片层的起始索引不大于命中的末尾的索引且片层的末尾索引不小于命中的开始,则存在重叠,在该情况下,对重叠的残基的数量进行计算。理想地,重叠的戎基的数量不应太小,因为它限定了潜在的抑制剂肽的长度。仅包括少量戎基的抑制剂不会很有效率,且设计出具有良好属性的稳定的肽将是困难的。程序使得用户可以定义阈值并把所有的重叠短于此阈值的命中从'result.html,的输出中排除。随后,在考虑了股的方向(平行或反平行)和注册的排列中,对与查询序列相重叠的p股以;^相邻的股(一个或两个,取决于第一个股在片层中的位置)进行显示。例如,如果肽序列是'ADDYYTATGHWYAT,,以及股分别经过(run)残基1至4、6至10、以及12至14,是在3和7、以及9和13具有注册的反平行p-片层构造,则排列的结果是ADDYHGTATYAT24在'result.html,中,在此排列中的查询序列的残基l^会;故示为红色。比方说,如果要寻找出在以上的肽序列中的索引7至10可以找到的'ATGHW,,则残基'HGTA,在该排列中会被高亮显示。排列允许迅速对那些在查询序列与P-片层之间具有大的重叠的命中进行筛选。它示出了有多少以及有哪些g形成p-片层,以及因此,如果它们的相互作用对象要被结合到短的抑制剂肽中的话,有多少以及有哪些残基会被封锁。虽然以上的搜索方法学提供了识别候选肽的一个途径,但对于当前的可用数据它不是十分完善的。具体地,'SHEET,行中所找到的残基的索引引用'ATOM,线中的索引,而不引用同样的文件中的'SEQRES,记录。蛋白质数据银行保证了对'ATOM,记录的引用进行测定以求正确性。然而,'pdb_seqres.txt,中的数据衍生自'SEQRES,记录,且它们的索引常常不一奏。例如,'SEQRES,入口以MET开始,而第一个'ATOM,入口是SER,或者序列是同样的,但第一个'ATOM,入口以残基索引21开始,而不是l。这意味着,虽然以上示出排列的技术可以正确地重新产生相对的p-片层的股位置,但残基的标识可能取自M酸序列的镣溪的部分。这还意味着,对与P-片层的重叠的识别可能首先就不正确查询序列实际上可以在结构中位于不同的位置。peptideAlign.class为确保当!^查看此命中的概况时能够发现该事件,使用'ATOM,入口开发了进一步的排列方法。这允许用可替选的方法来衍生候选的肽,或者用于对从上述'SHEET,搜索所获取的结果进行交叉核对。此排列方法还包括对残基之间的氩键进行检测和显示,使得该排列更加具有信息性。设计出了如下算法用于在'ATOM,数据中进行搜索对于至少相距三个残基并在所关注的p-片层部分内的所有原子对,对它们之间的欧几里德距离进行计算(使用标准公式d=如2+V+Az2,其中d是欧几里德距离,Ax、Ay和Az是各坐标的差)。如果所计算的距离小于3.075埃,则该对残基的索引被添加(push)到氢鍵存储数组。截止长度选自文献,且AA够大的以对主干原子与侧链之间的大多数氢键进行检测,而且U够小的以保持低的漏报数量。完成预测之后,股和键信息被写入被称为'bond.txt,的文件。此文件被用作中介的数据存储用以与另一应用共享信息被构建来用于画出图形化的P-片层排列的基于Java的工具'peptideAlign.class,。虽然PERL具有强大的例程来处理大量的文本,但Java提供了更容易使用的图形化功能。因此,通过使4peptideSearch.pI,使用系统调用来链接到P印tideAligh而把两个编程语言的属性进行了合并。后者构建排列的截屏,PERL程序随后把其加入到'result.html,中的当前命中的概览中。使用图形方便了对残基之间的氢键进行标识,这可以通过简单地画线来做到。PeptideAlign不直接关注反平行的p-片层构造,但如果像是在氢键穿过彼此的情形中那样应当对股的方向进行反转,则图形输出是进行了标识的。例如,图6中标识氢键的蓝色的线示出了需要反转中间的股的方向。进一步的算法被用来使股的方向正确并把它们相对于彼此进行移动以使键的总长度最小化。PeptideAlign从'bonds.txt,读取肽和键信息,连同预期输出图《象文件的名称。图像文件名称是hitX.png形式的,其中X表示命中的连续数量。程序把文件中的信息翻译成图形化表示并把控制返回到peptideSearch。图7中示出了实例输出文件包^计JH^截屏的文件的路径和名称,文件中的原子和键的编号(number),对于所有原子后面跟着残基ID,以及关于它们中的哪些是由键来键合的信息;右边的图形化表示示出了哪些残基是彼此键合的。最低限(Minimalist)PDB文件由于PDB的处理(curation),由'ATOM,搜索所生成的排列是精确的。如果这对应于由PeptideSearch所构建的一个,则'SEQRES,记录就是一致的。否则,将需要用户用肉眼对图形概览中的重叠进行核对。如果没有,则需要对PDB文件进行人工核对,以查看是否有不同的p-片层包含了查询序列的一部分或全部。目前,注意到的是,不可能从'ATOM,记录重新构建Jl&酸序列并对此进行搜索以求出现查询串。这是因为记录中常常缺失残基。例如,在pdblp9w.ent中,残基108后面所跟着的是残基121。可以用许多方式对间断进行解释,例如,由于实验数据不足、NMR或X射线的分辨率低、或者高度灵活的侧链导致信号模糊使得不可能精确确定原子的位置。另一解释仅仅是,提供数据的研究有时候仅关注于蛋白质的特定部分,例如活性部位,并因此没有对剩余的结构提W壬何预测。然而,可获得更完备的数据的情况下,这种搜索方法将是可独立应用的、以上所讨论的'SHEET,搜索的合适的替选。在p-片层中找到了命中的话,则查看残基中的哪些相互作用以及建立用于设计候选肽的支架是可能的。例如,不与查询序列中的^J^目互作用的残基会由其它的M酸来^^t,允许了要进^i殳计和测定的肽的范围更大。例如,在图6的短排列中,SARV与VTY相互作用。预测氲键是在A与V,以及V与Y之间。然而,T似乎并不与查询序列相互作用,所以可以把肽VXY用作用于构建候选肽的支架,可以用不同的氨基酸来取代X。实际中,该支架太短而无法起作用,因此优选地搜索长度为5个和更多个残基的肽。对每个成功的命中,PeptideSearch构建新的.pdb文件,其中包含p-片层中所涉及的所有原子的坐标。为做到这点,它把完备结构中包含了具有查询序列片段及其相互作用对象的P股的那部分^l取出来。文件可以用诸如Rasmol或vmd的任何通常的3D查看器来打开,并准许对所预测的侧链的氢键和空间方向有效率地进行验证。Peptide3D.class为给出新的.pdb文件中结构的预览,截屏^^到'resulthtml,的记录中。为做到这样,需要这样的3D查看器允许反映出(render)分子、把它们放进空间中的有信息性的方向中、以及进行截屏,所有这些都不需要用户的交互。Results.html一旦PeptideSearch通过pdb—seqres.txt中的所有入口完成了对所有可能的子串和突变的运行,它就用i统调用把浏览器窗口打开并在概览中呈现出所有它已经找到的命中。此概览为与每个命中相关的PDBID提供27了到PDB概况页的链接并提供了到Peptide3D的链接,该Peptide3D是以叩plet来实施的、允许以800x600象素格式对结构进行查看。结果用mutCRYD34-58作为输入^it行程序、把最小和最大子串长度设置为五、不允许突变并排除所有与p-片层的重叠小于四的命中,在pdb—seqres.txt中产生了153个精确的匹配,其中的47个是在p-片层中。这些结果中仅八个结果长于三个残基且后者,进在'resnlt.txt,中。事实上,此集合实际上仅给出了两个不同的命中,因为前两个以及最后六个匹配实际上是相同的,只是由于它们来自多聚体的不同的链。那些命中内的第一个是指PutatinveGlycineCleavageSystemTranscriptionalRepressor(PDBID1U8S,Putatinve甘氨酸断裂系统转录阻抑物)中所找到的序列SARVD(mutCRYD34-58残基1至5)。图3中呈现出了这一命中的结果(result),图6中对四残基重叠进行了描绘。在Endo國l,4誦Beta-Xylanase11中的序列PNYSG(mutCRYD34國58残基15至20)找到了第二个命中。图8中示出了来自HTML文件的此命中的结果的概况。图9在mutCRYD34-58的聚集倾向分布中对两个命中进行了高亮显示。图9还在各自的分布中示出了与a-突触核蛋白和Ap42这两个蛋白质的聚集热点区域相邻近或相接近的精确匹配的位置。对于a-突触核蛋白,子串的长度被设置为6至7的范围,以;5U寸于AP42,它被设置到5。对于mutCRYD,第一个命中作为聚集抑制剂的候选不会非常有效,因为它没有位于聚集的敏感区域内。然而,第二个命中具有封锁肽在此部位开始形成聚集的潜力。对于其它的两个蛋白质,命中所对应的相互作用对象中的每个相互作用对象都具有作为聚集抑制剂的潜力。当子串长度^L设置为5时,a-突触核蛋白的命中的数量大大增加。对a-突触核蛋白进行分析的结果是本申请人进一步专利申请的主题。使用上述软件设计了一系列肽来与a-突触核蛋白的区域61-66(EQVTN)和71-76(VTGVT)相互作用。28此分析识别了包括与a-突触核蛋白的戎基61-66(EQVTN)之间的区域相互作用的D-JL^酸序列的肽。一个适合的肽包括或包舍D-JL^酸序列QYSVU(下面的表3中所描述的ZP-0195)。其它适合的肽包括或包含具有一个、两个或三个^J^酸替换的D-M酸序列QYSVLI。例如,肽可以包含的D-^i^酸序列选自如下的一组,该组包含qykvli、qysvpi、qyspli、qypvli、rysvli、qysvli、qytvli、pysvli、或qysvlv。肽可以包括一个、两个或三个额外的N端残基。例如,肽可以包括或包含的序列选自如下的一组,该组包含ekysvli和drysvli。分析还识别了包括与a-symiclein的残基71-76(VTGVT)之间的区域相互作用的D-M酸序列的肽。例如,肽可以包含D-iJ^酸序列hhviva(ZP-0158)或者可以包括或包含具有一个、两个或三个"tj^酸替换的D-M酸序列hhviva。优选地,不对N端组氨酸残基进行替换。例如,肽可以包括或包含的序列选自如下的一组,该组包含hhvwa、hhvlva、hhvkva、hhveva、hpviva、hhvivp、hhviw、hhvivt、hhvivy、hhvivw、hhtiw、hhtivk、hhtvva、hhtlva、hhtlw、hhtevy以及hhttvy。对于区域61-65,肽AC-qysvli-NH2(ZP-0195)被设计iM目互作用以及防止聚集。对此序列的变异也进行测定,其中在任意给定位置的一个或更多个Jl^酸被另一个所替换,变异是在N-末端进行的,如添加额外的氨基酸和乙酰(ZP-0195至ZP-0230)。对于区域71-75,肽AC-hhviva-NH2(ZP-0158)被设计iM目互作用以及防止聚集。对该序列的变异也进行测定,其中在任意给定位置的一个或更多个M酸被另一个所替换。所有被测定的肽都是N端乙酰化的且序列开始处的2个组氨酸在所有的设计中保持恒定(ZP-0158至ZP-0194)o通过用50nMASYN和100fiM抑制剂、用50mMtris和150mMNaCl以及20jiM琉黄素T实行象集试验来对所有的肽对TBS中ASYN聚集的抑制进行测定。反应体积是200jiL。用仅具有ASYN的和仅具有緩冲剂的对照物(withASYNonlyandbufferonlycontrols)来在96孔的聚丙烯板中建立每个>^应。在37C摇晃48小时来孵化^^应,通过读取琉黄素T荧光来对聚集进行监控。使用把数据拟合到Sigmoidal函数f(x)=k+A/(l+exp(-b(t-t0)))的Zyentiafit软件对运动轨迹进行拟合,从而可以计算停滞时间、聚集的速率和ThT荧光的总的变化。根据肽的有效性给它们分级,下面的表3示出了那些为进一步的研究而选择的序列。选择是基于停滞时间的增加大于20%和/或ThT荧光或聚集速率的降低大于20%的肽。表3-被设计来与ASYN的区域61-66以及71-76相互作用的肽序列,其示出了离体防止ASYN聚集的有效性。<table>tableseeoriginaldocumentpage30</column></row><table>Zyentia码序列ThT荧光的降低%聚集速率的降低%停滞期的增加%ZP-0194Ac隱hhttvy-NH211.67.738.8ZP-0202Ac國qykvli画NH253.554.5-28.8ZP-0204Ac-qysvpi-NH21.4-5.623.6ZP-0205Ac-qyspli-NH216.6-11.930.6ZP-0206Ac画qypvli國NH23.38.425.9ZP-0207Ac國qpsvli-NH25.53.629.7ZP-0212Ac-rysvli-NH251.144.9-14.4ZP-0213Ac匿ekysvli醒NH225.612.929.4ZP-0214Ac國drysvli-NH220.44.8-12.6ZP-0215NH3漏qysvli-NH227.617.53.1ZP-0221NH3-qytvli-NH224.722.8-22.4ZP-0222NH3-qykvli-NH242.334.37.7ZP-0228NH3-pysvli-NH240.846.238.2ZP-0229NH3-qysvlv-NH217.824.333.5才艮据结果来i更计化合物通过上述方法或软件工具所识别的命中可以被用作用来设计聚集抑制剂或稳定剂的模板。可以使用分子动态计算方法或其它适合的计算方法来基于这些模m化合物的库进行测定以求它们与目标序列的亲合性。计算方法可以把具体的力场和能量极小化例程应用于基于模板的各种抑制剂,以使得抑制剂与目标聚集多肽之间的相互作用最大化。(见DasB,MeirovitchH,NavonIM,iV/^濯fl/ice挑e幼o/fe/tf^-5^Yi/eimcow欲"zVte(/丰/iiifeflftVmsfl/7p/zWto附odefo/7Wte/ws,'JComput.Chem.2003;24:1222-31以及deBakkerPI,DepristoMA,BurkeDF,BlimdellTL,""欲""/o"户"g附e"&:<淑cn'附/rtflftVw朋s似船,/cfl//70加f/"/幼e31JMS£i/orcey^/flfw/幼幼eso/vflftV"附^flfe/.Proteins,2003;51(1):21-40)。可以用聚集试验离体对所选择的化合物库进行测定来识别会抑制目标多肽聚集的先导(lead)化合物。当稳定剂/聚集抑制剂需要抗其它蛋白酶时,可以使用逆对映体(retro-enantio)衍生物(反向C-N序列和D-氨基酸)。可以把所识别的稳定剂/聚集抑制剂与其它的蛋白质/肽融合。与稳定剂/聚集抑制剂融合的蛋白质/肽可以作为载体用以针对目标输送到身体的具体位置、具体器官、具体细胞类型等;促进细胞内的输送;促进透过血脑屏障;增加血浆半衰期;以t或者与另一蛋白质或受体相互作用。权利要求1.一种用于对潜在的蛋白质聚集抑制肽序列进行预测的方法,包括步骤a)识别形成目标蛋白质中的聚集区域的至少一部分的肽序列;b)测定所述肽序列是否形成β-片层的一部分;c)如果步骤b)中获得肯定的结果,则提取该片层的相邻的股;d)识别与所述肽序列相邻的股中的、侧链与所述肽序列相互作用的残基,那些残基形成潜在的蛋白质聚集抑制肽序列。2.根据权利要求1所述的方法,该方法中,对所述目标蛋白质的复数个外源蛋白质实行所述测定步骤。3.根据权利要求2所述的方法,其中,使用蛋白质结构的数据库来实行所述测定步骤。4.根据权利要求3所述的方法,其中,所述测定步骤包括子步骤识别所述数据库中所包含的、包含与所述肽序列相关的相关肽序列的一组蛋白质;以及在所述组内识别其中所勤目关肽序列形成p-片层的一部分的那些蛋白质。5.根据权利要求4所述的方法,其中,所ii^目关肽序列包括正序的所述肽序列和包括反序的所述肽序列两者。6.根据权利要求4或权利要求5所述的方法,其中,所勤目关肽序列包括所述肽序列以及所述肽序列的片段。7.根据权利要求4至6中任一权利要求所述的方法,其中,所^目关肽序列包括包含有所述肽序列内的一个或更多个氨基酸的保守替换的序列。8.根据权利要求7所述的方法,其中,以在PH7.0时聚集倾向在彼此0.2以内的M酸为^l来选择所述保守替换。9.根据权利要求4至8中任一权利要求所述的方法,其中,所述识别子步骤包括把所述相关肽序列与所讨论的蛋白质的PDB文件中的"SHEET,,行中所包含的残勤目比较。10.根据权利要求4至8中任一权利要求所述的方法,其中,所述识别子步骤包括识别所^目关肽序列中的、彼此之间形成氩鍵的那些残基。11.根据权利要求10所述的方法,其中,为了识别彼此之间形成氢键的那些残基,对至少相距三个残基的每对^之间的欧几里德距离进行计算,以及如果该距离小于3.075埃则假定形成氩键。12.根据权利要求11所述的方法,其中,使用来自所讨论的蛋白质的PDB文件的"ATOM,,入口来计算欧几里德距离。13.根据权利要求11或权利要求12所述的方法,进一步包括对所识别的形成氢键的^J^对以及它们之间的氢键进行显示的步骤。14.根据权利要求9或权利要求10所述的方法,其中,把所获取的结果与通过实行根据权利要求11至13中任一权利要求的方法所获取的结果相比较来对所识别的残基进行交叉核对。15.^L据任一在前权利要求所述的方法,其中,步骤d)中所识别的残基是那些侧链经由氢键与所述肽序列相互作用的残基。16.根据任一在前权利要求所述的方法,其中,所述识别步骤使用聚集倾向分布。17.根振权利要求16所述的方法,该方法中,所述识别步骤在所述聚集倾向分布中选择聚集倾向大于1的肽残基。18.根据权利要求1至15中任一权利要求所述的方法,其中,以实验的方式来执行所述识别步骤。19.如任一在前权利要求所述的方法,进一步包括对步骤d)中所识别的残基进行显示的步骤。20.根据权利要求19所述的方法,其中,所述显示步骤包括对所识别的p-片层中的残基的3维排列进行显示。21.如任一在前权利要求所述的方法,进一步包括步骤测定步骤d)中所识别的残基是否与一个或更多个其它的蛋白质相互作用。22.根据权利要求21所述的方法,该方法中,对所述目标蛋白质的复数个外源蛋白质实行所述测定步骤。23.根据权利要求22所述的方法,其中,使用蛋白质结构的数据库来实行所述测定步骤。24.根据权利要求23所述的方法,其中,所述蛋白质结构是介导基本细胞过程的结构。25.根据权利要求23或权利要求24所述的方法,其中,所述测定步骤包括子步骤识别所述数据库中所包含的、包含与所述肽序列相关的相关肽序列的一组蛋白质;以及在所述组内识别其中所^目关肽序列与所述所识别的残勤目互作用的那些蛋白质。26.如任一在前权利要求所述的方法,其中,步骤a)中所识别的聚集区域的部分是螺旋、环、p-转角或p-凸起的一部分。27.如任一在前权利要求所述的方法,包括产生包括步骤d)中所识别的残基的蛋白质聚集抑制肽。28.如任一在前权利要求所述的方法,进一步包括步骤e)合成肽库,所述肽库的成员包括步骤d)中所识别的残基,以及f)确定所述库的成员与目标蛋白质的亲合性。29.—种用于产生蛋白质聚集抑制肽的方法,包括步骤a)识別形成目标蛋白质中的聚集区域的至少一部分的肽序列;b)测定所述肽序列是否形成p-片层的一部分;c)如果步骤b)中获得青定的结果,则提取该片层的相邻的股;d)识别与所述肽序列相邻的股中的、侧链与所述肽序列相互作用的残基,那些残基形成潜在的蛋白质聚集抑制肽序列,e)合成肽库,所述肽库的成员包括步骤d)中所识别的残基,以及f)确定所述库的成员与目标蛋白质的亲合性。30.根据权利要求28或权利要求29所述的方法,包括从所述库把显示出相对于对照物而与目标蛋白质有高亲合性的肽识别为蛋白质聚集抑制肽。31.根据权利要求30所述的方法,包括对从所述库所识别的肽进行分离。32.根据权利要求30所述的方法,包括对从所述库所识别的肽进行合成。33.根据权利要求27、权利要求31或权利要求32所述的方法,包括在蛋白质4^折叠疾病的模型中确定所述肽或肽库的功效。34.根据权利要求33所述的方法,其中,所述模型包括过表达易聚集蛋白质的细胞。35.根据权利要求34所述的方法,其中,易聚集蛋白质选自如下的组a-突触核蛋白(野生型或任何与帕金森症相关联的突变)、亨廷顿蛋白(以及其它具有延长的多聚谷氨酰胺或多聚丙氨酸重复的蛋白质)、|5淀粉样蛋白(A卩42)、Prion蛋白、胰岛淀粉样多肽(hIAPP)、超氧化物歧化酶、Tau蛋白、a-l-抗胰蛋白酶以及其它的丝氨酸蛋白酶抑制剂、溶菌酶、玻璃粘连蛋白、晶体蛋白、纤维蛋白原(x链、载脂蛋白AI、胱蛋白酶抑制剂、凝溶胶蛋白、乳铁蛋白、角膜上皮蛋白、降钾素、心钠素、催乳素、角蛋白、Mediii(或全长乳凝集素)、免疫球蛋白轻链、转甲状腺素蛋白(TTR)、血清淀粉样蛋白A(SAA)、(52-^t球蛋白、免疫球蛋白重链、或者任何其它与任何蛋白质g折叠紊乱相关联的蛋白质。36.才艮据权利要求27、权利要求31或权利要求32所述的方法,包括确定所述肽执行以下的一个或更多个的能力i.稳定蛋白质以对抗聚集;ii减小所存储的蛋白质失去活性的速率;iii.降低蛋白质的聚集介导免疫原性;iv.增加离体转译系统中蛋白质的产出;v.增加用于治疗使用的配方的溶液的稳定性;vi.抑制一个或更多个细胞过程;vii.防止蛋白质的寡聚或多聚。37.—种设计用于蛋白质#^折叠疾病的治疗的聚集抑制剂的方法,包括步骤根据权利要求1至22中任一权利要求对蛋白质聚集抑制肽进行预测;以及使用该预测的步骤d)中所识别的^来i史计聚集抑制剂。38.—种设计用于稳定蛋白质以对抗聚集的化合物的方法,包括步骤:根据权利要求1至22中任一权利要求对蛋白质聚集抑制肽进行预测;以及使用该预测的步骤d)中所识别的^t^来设计用于稳定蛋白质以对抗聚集的化合物。39.—种用于设计化合物以增加蛋白质的保质期的方法,包括步骤根据权利要求1至22中任一权利要求对蛋白质聚集抑制肽进行预测;以及使用该预测的步骤d)中所识别的残基来设计化合物以增加蛋白质的保质期。40.—种用于设计化合物以减少蛋白质的聚集介导免疫原性的方法,包括步骤根据权利要求1至22中任一权利要求对蛋白质聚集抑制肽进行预测;以及使用该预测的步骤d)中所识别的残基来设计化合物以减少蛋白质的聚集介导免疫原性。41.一种用于设计化合物以增加离体转译系统中蛋白质的产出的方法,包括步骤根据权利要求1至22中任一权利要求对蛋白质聚集抑制肽进行预测;以及使用该预测的步骤d)中所识别的残基来设计化合物以增加离体转译系统中蛋白质的产出。42.—种设计用于增加用于治疗使用的配方的溶液的稳定性的化合物的方法,包括步骤根据权利要求1至22中任一权利要求对蛋白质聚集抑制肽进行预测;以及使用该预测的步骤d)中所识别的残基来i殳计具有增加的溶液稳定性的化合物。43.—种用于确定化合物对细胞过程的影响的方法,包括步骤根据权利要求1至22中任一权利要求对蛋白质聚集抑制肽进行预测;以及针对介导所述细胞过程的蛋白质序列的集合来对该预测的步骤d)中所识别的残基进行筛选。44.一种用于设计会被用来防止蛋白质的寡聚或多聚的化合物的方法,其中该寡聚或多聚由易聚集区域来介导,包括步骤根据权利要求l至22中任一权利要求对蛋白质聚集抑制肽进行预测;以及使用该预测的步骤d)中所识别的^来设计通过与所述易聚集区域相互作用将会抑制该寡聚或多聚的化合物。45.—种用于设计会被用来抑制目标肽或多肽的活性的化合物的方法,包括步骤a)识别形成目标蛋白质中的活性区域的至少一部分的肽序列;b)测定所述肽序列是否形成p-片层的一部分;c)如果步骤b)中获得肯定的结果,则4^取该片层的相邻的股;d)识别与所述肽序列相邻的股中的、侧链与所述肽序列相互作用的6残基,那些残基形成潜在的蛋白质聚集抑制肽序列;以及e)使用步骤d)中所识别的残基来设计会抑制目标蛋白质的活性的化合物。46.根据权利要求37至45中任一权利要求所设计的化合物,包括47.根据权利要求37至45中任一权利要求所设计的化合物,包括48.根据权利要求37至45中任一权利要求所设计的化合物,包括49.一种计算M序,该计算机程序在计算机上运行时执行权利要求1至45中任一权利要求的方法。50.—种包含根据权利要求49的计算,序的计算机数据载体。51.—种被配置成执行权利要求1至45中任一权利要求的方法的计算机。52.根据权利要求51的计算机,其中,该计算机被配置成对外部数据库进行访问,所述外部数据库包含获取预测所务使用的已知蛋白质的信息。全文摘要本发明提供了一种用于对蛋白质聚集进行预测以及设计聚集抑制剂的方法。这种用于对潜在的蛋白质聚集抑制肽序列进行预测的方法包括步骤a)识别形成目标蛋白质中的聚集区域的至少一部分的肽序列;b)测定所述肽序列是否形成β-片层的一部分;c)如果步骤b)中获得肯定的结果,则提取该片层的相邻的股;d)识别与所述肽序列相邻的股中的、侧链与所述肽序列相互作用的残基,那些残基形成潜在的蛋白质聚集抑制肽序列。本发明还提供了用于使用以上方法中所识别的残基来设计化合物的方法;这些方法所产生的化合物以及用于实行以上方法的计算机程序。文档编号G06F19/00GK101501694SQ200780029032公开日2009年8月5日申请日期2007年7月24日优先权日2006年8月4日发明者卡伊·J·科尔霍夫,米凯莱·文德鲁斯科洛,赫苏斯·苏尔多申请人:英国龙沙生物医药股份有限公司