一种药物靶标的高通量检索方法
【技术领域】
[0001] 本发明涉及一种药物靶标的高通量检索方法,属于生物信息学领域。
【背景技术】
[0002] 尽管大多数药物具有较高的选择性,任何药物进入人体或者动物体内都具有与多 个蛋白结合的潜在能力。传统方法是通过体外和体内的生物实验的方法检测和预测药物的 蛋白靶标。从设计到实施这些实验,都需要消耗大量的时间和资源U'3。生物医药研究已经 认识到,运用计算机和大数据的方法可以为这些生物实验提高先导信息。这样可以避免研 究弯路,节约大量的时间和研究成本。到目前为止,全球共享的蛋白质数据库(PDB)已经积 累了大约110, 〇〇〇以上的蛋白质三维结构数据,许多蛋白质和配位体分子相互结合形成复 合物。因此蛋白数据库中包含数百个药物分子和数千个其它化学分子 4'5。可以运用这些信 息来发现药物新靶标,理解药物的作用机理,支持新药研发,开拓已知药物的多功效,以及 开发检测疾病分子的试剂等等 6。
[0003] 药物分子与蛋白质受体相互作用的靶点区域通常像一个口袋,被称为结合口袋。 结合口袋往往用分子模型来表示围绕药物分子周围的状态,包括空腔的大小,空间构象和 物理化学性质。研究药物结合口袋的状态可以运用各种工具在计算机上直接操作可视的分 子模型。此外,药物的结合口袋可以通过图像展示,或者通过文字详细描述,这也是目前最 为广泛流行的方式。具有挑战性的任务是如何开发有效的工具来描述药物结合口袋的特 征。这些方法大致分为三类。首先,在结合药物的氨基酸序列寻找模式的基础上,直接找到 一些方法。例如,Sheinerman等人运用CSA数据库提供了两到六个残基从酶的催化残基的 主题模板7。研究了八个激酶抑制剂的序列变异,并观察到每个抑制剂的所有高亲和力的目 标有类似的残基在特定的位置重要的结合。然而,在另一方面,一些研究发现,许多小分子 抑制多个激酶和共享小的整体序列相似性m'11"11。其次,一些方法采用了表面上的贡献,根 据每个原子的范德瓦尔斯半径,目前的结合口袋,这可能是定量测量的几何形状的结合口 袋 12'13'14〇第三,一些方法提出的结合药物的物理化学性质。cavbase应用pseudospheres 代表参与分子结合口袋的原子的位置和理化性质15'16。静电表面的有效位置图,其疏水性和 静电势的表面上的补丁的曲率表示。这些方法确实能描述药物结合口袋,但它们很难适用 于对大量的蛋白质数据库中的结构筛选。
【发明内容】
[0004] 本发明所要解决的技术问题是提供一种药物靶标的高通量检索方法。
[0005] 发明人在之前专利ZL200880003164. 2中,开发了蛋白质折叠形状码(PFSC),为描 述蛋白结构指纹创立了基础。通过数学推导得到一组27向量,这组向量能够覆盖任何五个 连续氨基酸残基所有可能的折叠形状。用26英文字母加上符号形成27蛋白质折叠形 状码(PFSC),与27个向量一一对应。因此,任何已知具有三维结构的蛋白质可以转化为一 维的PFSC字母表示。对于蛋白质结构,PFSC码的表达可以从N-端开始至C-端结束,涵盖 每5个氨基酸的折叠构象,没有任何遗漏和缺失,包括二级结构片段和三级结构片段。最重 要的特点是,所有27PFSC向量具有相关性,可以对蛋白质构象的相似性进行定量评价。
[0006] 在蛋白质折叠形状码的基础上17,发明人新近开发的药物靶标检索技术(PBSDD) 可以高通量检索蛋白质数据库,发现药物的多蛋白靶标。
[0007] 本发明的药物靶标的高通量检索方法,包括如下步骤:
[0008] 1)以药物和标靶的复合体为参考,定义药物结合口袋:首先,定义距离药物分子 的每一个原子3埃的残基片段,接着,根据氢键相互作用或范德瓦尔斯相互作用,定义关键 残基片段,每一个残基片段需要含有一个关键残基片段,关键残基片段的长度等于五个氨 基酸;
[0009] 2)将结合口袋中的所有片段用蛋白质的结构指纹表示(PSF),蛋白质的结构指纹 包括氨基酸序列,蛋白质折叠形状码,物理化学性质和向量偶合;
[0010] 3)输入数字化的药物结合口袋,检索全球已知蛋白结构数据库,进行指纹比对和 定量评估,然后按照指纹相似性从高到低排列;
[0011] 4)选择蛋白折叠码的相似性分数和氨基酸物理化性质的相似性得分同时处于前 2千名的结构蛋白为可能靶点区,分析和预测药物的可能靶标蛋白。
[0012] 步骤1)中所述的药物和标靶的复合体,是药物和已知标靶的复合体,也可以是药 物与通过软件筛选出的标靶的复合体。
[0013] 所述蛋白质折叠形状码,对应27个描述五个连续氨基酸残基的折叠形状的向量。 如同在专利ZL200880003164. 2中描述,所述向量通过以下方法构建:
[0014]A)取蛋白质中每五个连续的氨基酸作为一个基本单元;
[0015]B)计算每个基本单元中的第一个二面角,该二面角是第一,第二,第三个氨基酸决 定的平面与第二、第三、第四个氨基酸决定的平面的夹角;该二面角为al,a2,a3所确定的 范围之一;
[0016]C)计算每个基本单元中的第二个二面角,该二面角是第二、第三、第四个氨基酸决 定的平面与第三、第四、第五个氨基酸决定的平面的夹角,该二面角为bl,b2,b3所确定的 范围之一;
[0017] D)计算每个基本单元中的第一与第五个氨基酸之间的伸张距离,所述伸张距离为 cl,c2,c3所确定的范围之一;
[0018]E)依据步骤B,C,D得到的数值确定每个基本单元的向量。
[0019]所述al从 0。~130。,a2 从 130。~-130。,a3 从-130。~0。;bl从 0。~ 130°,b2 从 130° ~-130°,b3 从-130° ~0°;cl从 0 ~7.0 埃,c2 从 4.0 ~17 埃,c3 大于12埃。
[0020] 步骤2)中所述物理化学性质表示每一个氨基酸残基侧链的物理化性质,用7个字 符分别表示,极性用N表示,电性S,酸性A,碱性B,芳香性0,亲水性H,憎水性P;
[0021] 步骤2)中所述向量耦合,每5个连续氨基酸形成的肽段的两端分别具有不同的折 叠特征,螺旋折叠用a表示,片状折叠用b表示,无规则折叠用*表示,定义9种向量:a- >a,b->b,a->b,b一>a, *一>a,a一>*, *一>b,b一>*,*一>* 来描述每个肽段的折叠特征, 相邻的两个肽段共用四个氨基酸形成向量耦合。例如,V折叠码的向量是b-〉a,A折叠码 的向量是a->a。a表示螺旋特征,b表示片状特征。VA两个向量偶合即b->aa一>a。这 个向量偶合说明V向量的C端是螺旋特征,A向量的N端也是螺旋特征,这两个向量很好的 共用之间的4个氨基酸。
[0022] 对大量蛋白结构数据进行检索,相似性的定量评价是至关重要的。对大量蛋白质 结构比对,需要一个统一的相似性的评分标准。关于氨基酸序列比对,已经有许多方法可以 很好地定量评估其相似性。最困难的是关于蛋白质三维空间结构相似性的定量评估。蛋 白质折叠结构对齐(PFSA)提供了一种比较蛋白质结构的相似性得分方法。每一个蛋白质 采用蛋白折叠形状码来表达空间构象。蛋白质折叠形状码对齐后,对每一个对应的蛋白折 叠码进行比对。如果蛋白折叠码相同得2分,如果蛋白折叠码相似得1分(定义每个蛋白 折叠码与其空间上相邻近的蛋白折叠码相似,如图6所示,蛋白折叠码"A"与其相邻近的 "H,D,V,L,Y,P"相似,蛋白质折叠码"B"与其相邻近的"E,G,V,J,M,S"相似",详细打分情况 见图5),如果蛋白折叠码不相同或相似得0分。然后将分数加合进行归一化处理,将总分值 (PFSA-S)数值规范在一和零之间。运用PFSA相似性分数(PFSA-S)标记相似性。相同的 蛋白质结构其PFSA-S数值是一。相似性较高的片段得分较高,没有任何相似性数值为零。 接着,根据氨基酸物理化性质进行相似性估计和打分。蛋白折叠码的相似性分数和氨基酸 物理化性质的相似性得分分别独立处理。全球蛋白数据库的十二万蛋白结构可以产生将近 五百万的指纹。检索之后只保留高分数段的一万个指纹。在高分数段中,蛋白折叠码的相 似性分数和氨基酸物理化性质的相似性得分同时处于前2千名的结构蛋白可以确认为可 能靶点区。向量耦合可以帮助进一步分析筛选。
[0023]氨基酸物理化性质的相似性估计和打分按如下步骤来进行:首先对氨基酸的侧链 极性、侧链电荷数、酸碱性、芳香性以及亲疏水性等5个属性按照如下公式来打分:
[0024]
[0025] 其中,PC⑴-S指每个氨基酸属性的得分,IDR指相同氨基酸的残基数,IDP:指性 质相同但氨基酸不同的残基数,ANP指不同性质且氨基酸不相同的残基数。然后使用以下 公式对得到的5个PC(i)_S得分取平均值取得到氨基酸物理化性质相似性得分。
[0026]
[0027]本发明具有的有益效果在于:
[0028] 1.将药物结合靶点转化为数字化的蛋白结构指纹表达。这样为开发计算机编码方 法,储存,分析数据,评估药物靶标创造了基础条件。
[0029] 2.可以对药物结合蛋白靶点进行定量化评估。这和目前对蛋白结合靶点的描述停 留在图形化展示和文字定性上完全不同。
[0030] 3.对药物蛋白靶点的定量化评估提供了统一的评估方法,过程具有普遍适用性, 产生的结果数据先后一致性。解决了蛋白不同参数不同,不同人不同处理方法的问题。
[0031] 4.实现了通过高通量筛选蛋白数据发现药物靶标的可能。由于该方法的建立,极 大地加速了对大数据库的检索。对全球共享的蛋白数据库的检索,其它方法在超级计算机 运作需要几年时间完成。同样工作量,采用我们的结构指纹检索技术在个人计算机上大约 需要12小时。因此,药物蛋白结构靶点指纹技术使充分运用全球蛋白数据库中已经积累的 大量数据变为现实。
[0032] 5.不仅仅适用于药物分子蛋白靶标的预测,还可以用于任何小分子化合物的蛋白 靶标筛选用于支持药物研发设计,以及针对疾病的检测分子开发。
【附图说明】
[0033] 图1,舒尼替尼药物分子的靶点蛋白结构指纹定义。
[0034]图2,运用相似性分数为判据,筛选出相似性高的蛋白靶标进行分析。
[0035] 图3,对于筛选蛋白结构的蛋白折叠码对齐比对。
[0036] 图4,对于筛选蛋白结构的蛋白三维结构空间比对。
[0037] 图5,PFSA打分矩阵。
[0038] 图6, 27个PFSC码空间分布图