一种hiv-1整合酶突变株对evg耐药倍数变化值的预测方法
【技术领域】
[0001] 本发明设及一种基于遗传算法(GA)和多元逐步回归算法的整合酶(1脚突变株对 ElvitegraviHEVG)耐药倍数变化(FC)值的预测方法。属于生物信息学领域。
【背景技术】
[0002] 近年来,HIV-1IN已成为研发抗AIDS药物的最具吸引力的祀标,针对IN的药物开 发成为热点。IN抑制剂主要分为:肤类抑制剂,核巧类抑制剂,多径基化的芳香族化合物W 及二酬酸值KAs)类抑制剂。其中,只有DKAs类IN抑制剂及其衍生物在体外抑酶活性测试 及动物模型实验中均表现出较好的选择性和抑制活性,因此DKAs及其衍生物成为了最有 前景的IN抑制剂。
[0003]目前进入临床研究的IN抑制剂及上市的3种抗IN药物均为DKAs类衍生物。Merk 公司研发的Raltegravi;r(RAL,MK-0518)已于2007年10月获准上市,成为第一个上市的抗 IN药物。随后,GileadSciences公司的ElvitegraviHEVG,GS-9137)和ViiVHealthcare 公司与日本化ionogi公司联合研制的Dolutegravir值TG,S/GSK-572)也分别于2012年 及2013年被FDA批准上市。然而,由于HIV-1是RNA病毒,其基因组由单链RNA逆转录为 cDNA的过程由RT催化,而RT对转录错误无校正功能,因此,转录过程中出现的碱基错配常 导致基因突变,造成了病毒在复制中发生高频突变,导致HIV-1对作用于运些关键酶的抑 制剂不再敏感,产生耐药性。
[0004]目前,在临床医生的诊断服务应用方面,线性回归被成功用于从HIV-1的IN基因 型来预测IN蛋白可能出现的耐药突变残基,方法则是通过建立药物的敏感性与编码HIV-1 关键酶的基因突变之间的函数。2013年,KoenVanderBor曲t等人对该方法进行进一步 拓展,用线性回归模型来预测IN基因突变所关联的耐药突变W及该耐药突变会导致IN抑 制剂所产生的耐药性(用FC表示)。该研究基于试验所得RAL导致IN产生的众多耐药突 变株的IC50值与野生型IC50值相比所得倍数变化(FC)值,得到一个突变残基与耐药倍 数变化的多元线性回归模型,可预测RAL对某耐药株可能具有的抑制活性。对于上市药物 EVG而言,预测其可用于哪些耐药突变株,对新产生的耐药株会产生怎样的耐药性尚未进行 研究。
[0005] 目前,已上市的IN药物均已出现了高度耐药性,耐药性的出现使得药效显著降 低,阻碍了AH)s的治疗。指导医生在临床合理使用已有药物W及研发新的INI十分迫切。 本发明的目的是提供一种基于GA和多元逐步回归算法的HIV-1IN突变株对EVG耐药倍数 变化值的预测方法,用于预测IN突变株的FC值,从而预测IN突变株的耐药性。表型测试 可W提供有用的附加信息,特别是对于更复杂的突变模式。该方法可预测上市药物EVG对 其在HIVResistanceDat油ase数据库中出现的耐药株是否有效,且会产生怎样的耐药性, 运都将为医生临床用药提供指导。
【发明内容】
[0006] 本发明的目的是为了提供一种基于GA和多元逐步回归算法的HIV-1IN突变株对 EVG耐药倍数变化值的预测方法,用于预测IN突变株的FC值,从而预测IN突变株的耐药 性。
[0007] 本发明的目的可W通过如下技术方案解决,包括如下步骤:
[0008] (1)编码数据集,得到IN对于EVG产生耐药突变株的倍数变化数据集,并将 数据集进行二进制编码,发生突变的残基用1表示,未发生突变的残基用0表示,例如 1010100011110010101,则一个突变株可由一组基因型表示;FC值统一进行log变换,由此 建立一个突变的基因型如1010100011110010101及其表现型即logFC值--对应的数据 集。
[0009] (2)将步骤(1)数据集分类,根据突变导致残基侧链理化性质变化是否一致,将数 据集中的基因型进行了Ξ种不同类型的分类的整合:根据耐药突变株中同一残基发生不同 突变,导致IN侧链理化性质产生的变化是否一致,IN侧链理化性质产生的变化包括侧链的 体积变化、电荷性质变化W及综合考虑体积电荷变化,将数据集中的基因型进行了Ξ种不 同的整合,分类参照表1给出:
[0010] 表1数据集中基因型的Ξ种不同整合
[0011]
[0012] (3)聚类分析除去异常值:将步骤(2)整合后的任一组数据集中相同基因型的大 量表现型1〇评C值用质屯、聚类法进行聚类分析,除去距离最大的一组数值,得到除去异常 值的数据集。本步骤可在SPSS20软件中的"分析一分类一系统聚类"模块中实现。
[0013] (4)GA得到优秀种群个体:将步骤(3)得到去除异常值的数据集用基于Matl油 R2014a软件编写的GA程序进行筛选,筛选:R2大于等于0. 95或者最大世代数为500的种 群数达到20,去除重复值后,得到优秀种群个体。
[0014] 算法代码见现有相关技术,具体步骤如下:
[0015] (4-1)设置参数:GA的参数设定为:种群规模为20,交叉概率为0. 70,变异概率为 0. 05,最大世代数为500,收敛条件为R2〉= 0. 95的种群数达到20。
[0016] (4-2)产生初始种群;
[0017] (4-3)计算适应度;
[0018] (4-4)判断R2是否大于等于0. 95或者最大世代数为500,若是,输出结果,若否, 则进行选择,交叉,变异运算,产生新一代种群,继续判断,直到产生20组优秀种群或迭代 次数达到500;经过运算最后得到20组优秀种群,去除重复值后,得到优秀种群个体。
[0019] (5)建立多元逐步回归模型:将步骤(4)中的优秀种群个体,运用基于Matl油 R2014a软件编写的多元逐步回归算法,将数据集进行训练,得到回归方程和复相关系数等。
[0020] 将数据集进行训练,得到回归方程和复相关系数等的同时并进行显著性检验,多 元逐步回归算法代码见现有相关技术,具体步骤优选如下:
[0021] (5-1)计算相关系数矩阵;
[0022] (5-2)初始化设置;
[0023] (5-3)W突变残基为自变量,1〇评C的值为因变量,计算自变量的贡献值,用偏回 归平方和来衡量贡献大小,其中偏回归平方和公式为:
[0024] Uj=
[00巧]选出贡献值即偏回归平方和最大的某范围的自变量,对其进行显著性F引入检 验,判断是否选入该变量,其中阔值Fi= 0. 01,F2= 1. 06 ;对于已选入的变量,选择出其中 最小贡献值的变量,并进行显著性F剔除检验,判断是否剔除该变量,每次引入或剔除都需 要执行F检验,保证所有显著的自变量引入到方程中;F值的公式为:
[002引
,其中η为输入的数据组数,m为自变量个数。
[0027] 每次引进变量或者剔除变量时,需要对矩阵进行变换,使用的方法是求解求逆紧 凑变换法(又称消去变换),变换公式:
[0028]
[0029] 变换之前要对原始数据进行标准化处理,计算每列的平均值和离差平方和的方 根:
[0030]
[0031] 经过对矩阵中数据的标准化计算后,可得标准化后的数据矩阵,标准化后矩阵的 协方差矩阵即为相关系数矩阵,相关系数矩阵可表示为:
[0032]
[003引 巧-4)当再无变量引入时,结束运算。输出回归方程,复相关系数等。
[0034] (6)将新突变株的基因型按照步骤似整合,然后带入到回归方程,便可得到相对 应的预测值。
[003引该发明可从陕速预测出突变型IN对EVG的耐药性,简化了预测模型,且提高了预 测精度。
【附图说明】
[0036] 图1是本发明的预测方法流程图。
[0037] 图2是GA的流程图。
[0038] 图3是多兀逐步回归算法的流程图。
【具体实施方式】
[0039] 下面结合附图1和实施例对本发明做进一步的说明,但本发明并不仅限于W下实 施例。
[0040] 实施例1
[0041] 按IN残基侧链体积变化是否一致的因素整合基因型为例,来具体说明本发明的 实施过程:
[0042] (1)编码数据集。得到IN对于EVG产生耐药突变株的FC数据集,并将数据集进 行二进制编码,发生突变的残基用1表示,未发生突变的残基用0表示。FC值统一进行log 变换。由此建立一个突变的基因型及其表现型logFC值一一对应的数据集。如表2所示。
[0043] 表2主要突变基因型及其对应表现型数据集
[0044]
[0045]
[0046] 表2继续
[0047]
[0048] 表2继续
[0049]
[0050] 表2继续
[0051]
[00閲 表2继续
[0053] (2)将基因型整合。按照同一残基突变的体积变化因素,合并相同残基突变后体积 变化相同的项。如表3所示。由于数据量大,表3只显示了一部分数据。
[0054]表3同一残基突变按体积变化因素整合
[00巧]
[0056] (3)聚类分析除去异常值:将步骤(2)整合好的数据集中相同基因型的大量表现 型1〇评C值用质屯、聚类法进行聚类分析,除去距离最大的一组数值,得到除去异常值的数 据集。本步骤可在SPSS20软件中的"分析一分类一系统聚类"模块中实现;
[0057] (4)GA得到优秀种群个体。将步骤(3)得到去除异常值的数据集用基于Matl油 R2014a软件编写的GA程序进行筛选。GA的参数设定为:种群规模为20,交叉概率为0.70, 变异概率为0. 05,最大世代数为500,收敛条件为R2〉= 0. 95的种群数达到20。
[0058] 经过运算最后得到20组优秀种群,去除重复值后,得到优秀种群个体,共148个。 由于算法的性质,每次运行的结果可能会略有不同。优秀种群个体见表4。由于数据量大, 表4只显示了一部分数据。
[0059] 表4-体积模型GA部分结果
[0060]
[0061] (5)建立多元逐步回归模型。将步骤(4)中的数据集按照3:1的比例,分为训练集 和待预测集。将训练集进行训练,得到回归方程:
[0062]Y=0. 39095+0. 28883Xi+0. 53775X2+0. 79109X3+1. 1135X4+0. 82851Xs+〇. 20262Xe+〇 .7IO6IX7+O. 〇66656Xs+〇. 17636X9+1. 1172Xi〇+0. 6:M23Xii+0. 9615Xi2+L0076X口+0. 9〇473Xi4+ 1. 2623Xi5
[0063]Multiple