基于级联神经网络结构的蛋白质关联图的预测方法

文档序号:9235642阅读:524来源:国知局
基于级联神经网络结构的蛋白质关联图的预测方法
【技术领域】
[0001] 本发明设及一种蛋白质关联图的预测方法,特别是一种基于级联神经网络结构 的蛋白质关联图的预测方法。
【背景技术】
[0002] 蛋白质关联图的研究是蛋白质空间结构研究的重要前提和基础。从蛋白质的氨基 酸序列确定蛋白质关联图无论是从计算还是实验的角度都是一项难题。主要原因在于,蛋 白质关联图具有非局部特性,即位于蛋白质序列头部的氨基酸完全可能会和位于尾部的氨 基酸产生连接,该种非局部特性使得蛋白质关联图的预测需要复杂和大量的计算。如果通 过实验方法(目前主要是X射线晶体及核磁共振两种方法)确定蛋白质关联图将十分耗时, 同时也不经济。在目前已发现的约两千多万的蛋白质中,通过实验的方法确定蛋白质关联 图结构的只有仅仅约十万左右,并且,诸如膜蛋白等特殊蛋白质很难通过上述实验的方法 确定蛋白质关联图。两者之间数量上巨大的差距意味着急需通过信息科学,采用计算的方 法进行蛋白质关联图的计算预测。只有该样才能缩小该个鸿沟,加快后续W蛋白质关联图 为基础的研究工作。
[0003] 从蛋白质的氨基酸序列数据中成功的预测蛋白质关联图属于子图同构求解问题, 是NP难问题。通常采用的解决方法是将问题简化,例如,在计算蛋白质中两个氨基酸之间 是否连接时,假定两者之间至少需要有一定的间距N,即该两氨基酸之间还有至少N个氨基 酸。使得实际的计算量大大降低。但是,对于不同长度的蛋白质如果采用统一的间距,使得 对于长度较小的蛋白质间距N会过大而遗漏过多连接信息,对于长度较大的蛋白质间距N 又会过小导致计算量的增加。另外,对于长度为L的蛋白质的关联图中连接数与L线性增 长,而非连接数则与L2线性增长。使得对于不同长度区间的蛋白质的关联图中连接数的分 布有很大区别,即长度越长的蛋白质,其关联图中连接分布越稀疏。同时,对于不同长度的 蛋白质其结构特性也会有不同程度的差异,从而决定了蛋白质关联图的差异。
[0004] 现有基于单神经网络的预测算法;对不同长度的蛋白质均采用同一个神经网络进 行计算预测。尽管该样可W降低网络结构设计和训练学习的复杂度,但同时对蛋白质关联 图的预测会造成如下缺陷: 1、因蛋白质的多样性,基于单个神经网络的方法只有一个神经网络,显然单神经网络 结构的单一性使其无法对不同长度的蛋白质进行优化处理,导致预测精度不高,并随待测 蛋白质长度的变化而出现较大波动。
[0005] 2、由于基于单个神经网络的方法无论是在训练学习环节还是在计算预测环节都 在一个且无法自然分解的神经网络上进行计算处理,并行化计算必然会因紧禪合而产生大 量通讯量,导致基于单神经网络的方法在面对目前巨量的蛋白质数据时,无法实现高效的 并行化计算。

【发明内容】

[0006] 本发明的目的在于为了解决上述问题而提供一种基于级联神经网络结构的蛋白 质关联图的预测方法。该方法能根据不同长度的蛋白质先采用对应的神经网络子网组进行 计算预测,再通过最终的级联神经网络得到更精确的蛋白质关联图。
[0007] 为达到上述目的,本发明的构思是;首先读取数据集并进行分类处理,同时初始化 6个神经网络子网及1个级联神经网络,其次对数据集进行编码并进行神经网络子网的训 练学习,然后再进行级联网络的训练学习,最后将待预测蛋白质编码后输入级联网络的子 网输入层,经过子网层的第一级计算和级联网络的最终计算得到待测蛋白质的关联图。
[0008] 根据上述发明构思,本发明采用下述技术方案: 一种基于级联神经网络结构的蛋白质关联图的预测方法,采用6个神经网络子网W及 由该6个神经网络子网形成的1个级联网络的结构,其特征在于该方法具体步骤如下: A. 建立标准的6个神经网络子网及1个级联网络,所述的每个神经网络子网由输入层、 中间隐含层及输出层组成; B. 读取蛋白质数据集,并依据蛋白质长度进行分类,将蛋白质长度在51-70之间的蛋 白质数据划为数据子集1,长度在71-90之间的蛋白质数据划为数据子集2,长度在91-130 之间的蛋白质数据划为数据子集3,长度在131-190之间的蛋白质数据划为数据子集4,长 度在191-290之间的蛋白质数据划为数据子集5,长度在291-450之间的蛋白质数据划为 数据子集6 ;从每个数据子集随机选取50个蛋白质数据作为训练集,剩余作为测试集,最终 得到6个训练集和6个测试集; C. 采用反向传播算法,使用6个训练集对相应的6个神经网络子网进行训练学习,得 到训练后的6个神经网络子网; D. 分别使用6个训练集及步骤C所得训练后的6个神经网络子网对级联神经网络进 行训练学习,得到最终可用于蛋白质关联图预测的级联神经网络; E. 将步骤B所得6个测试集中的待预测蛋白质进行编码,依次将编码后的每个蛋白质 数据对应输入到步骤C所得的训练后的神经网络子网组进行级联网络结构中第一层预测, 得到该蛋白质初步的关联图;重复本步骤,直到完成测试集中所有蛋白质的第一层预测; F. 将步骤E所得的蛋白质初步的关联图输入至级联神经网络,得到蛋白质最终的关联 图。
[0009] 上述步骤C中采用反向传播算法对神经网络子网的训练学习具体步骤为: C-1.从6个神经网络子网中选择尚未进行训练学习的神经网络子网; C-2.选取待训练学习神经网络子网所对应的训练数据集; C-3.输入编码后的训练样本对至神经网络子网输入层; C-4.计算神经网络子网各层输出; C-5.计算神经网络子网输出总误差; C-6.检查神经网络子网总误差是否达到精度要求,如果满足则进入步骤C-8,否则进入 步骤C-7 ; C-7.根据反馈误差调整神经网络子网各层权值,返回步骤C-4 ; C-8.检查是否完成所有6个子网的训练学习,如果全部完成则结束,否则返回步骤 C-1。
[0010] 上述步骤E中所述的对蛋白质进行编码的具体方法为: E-1.采用每对氨基酸使用一个唯一向量表示,一共有20 X (20+1)/2,即210种氨基酸 对,对每对氨基酸采用210位进行编码;分别使用1位及3位进行权重及二级结构编码,该 样每对氨基酸编码提高到了 218位(210+(1+3) X2); E-2.针对每对氨基酸对U i),同时对(i-J?,户户幻、(iW,九幻、。巧 J巧)采用上述同样的编码方式,该样每对氨基酸编码提高到了 1090 (218X5); E-3.针对每对氨基酸对U i),同时对a-J?,A巧)、a-2,AW)、化0进行上述同 样的编码方式,其中义该样每对氨基酸编码提高到了 1744 (1090+218X3); E-4.考虑待编码氨基酸对选择的最小间隔、待编码氨基酸对实际间隔长度W及待测 蛋白质长度进行编码,分别采用1位,该样最终每对氨基酸编码为1747 (1744+3)位,即含 有1747位元素的一位向量。
[0011] 上述步骤D中级联神经网络的训练学习具体步骤为: D-1.根据训练集中蛋白质的长度,选择对应的神经网络子网组,子网组由所在子网乂 及子网巧日组成。例如,假设所有6个子网根据所覆盖蛋白质长度升序依次编号为 1、2、3、4、5及6,如果该蛋白质长度落在编号为3的子网所涵盖的蛋白质长度范围内,那么 该蛋白质所属的子网组为子网2、3及4。
[0012] D-2.将训练蛋白质编码后输入子网组中,子网组中每个神经网络独立并行进行计 算输出; D-3.汇总子网组中各子网的输出,同3个平衡因子一起输入至级联网络输入层,完成 级联网络的训练学习。
[0013] 本方法避免了基于单神经网络方法无法根据蛋白质长度选择更适合的神经网络 进行计算预测的缺陷,对于不同长度的蛋白质能取得更好且更稳定
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1