基于Torch监督式深度学习的基因性状识别方法

文档序号:10725443阅读:909来源:国知局
基于Torch监督式深度学习的基因性状识别方法
【专利摘要】本发明涉及生物信息技术领域,具体涉及基于Torch监督式深度学习的基因性状识别方法,它采用如下的技术方案:步骤一:基因PNG图像信息数据的预处理,以符合用于Torch深度学习模型训练的Tensor数据对象;步骤二:利用Torch构建深度学习模型,在深度卷积神经网络模型中对Tensor训练数据进行训练,得到理想的训练数据识别结果后输出标签向量和权重参数;步骤三:在模型训练成功后,可以针对结果标签的某一类别提取所有训练完成后各个连接之间的权重参数,再对基因图像数据信息进行反编码,从而得到与基因对应性状的相关SNP位点以及相应权重参数;具有能够更方便及智能的进行基因的对应性状分类,对未知性状的基因进行自我识别等优点。
【专利说明】
基于Torch监督式深度学习的基因性状识别方法
【技术领域】
[0001]本发明涉及生物信息技术领域,具体涉及一种基于Torch监督式深度学习的基因性状识别方法。
【【背景技术】】
[0002]人类基因组计划奠定了从基因切入研究疾病的基础,人们希望找到人类发病与基因之间的关系。全基因组关联研究(GWAS,Genome-Wide Associat1n Study)的基本原理是在同层人群中选择满足一定统计学数量的病例组和对照组样本,比较全基因组范围内SNP位点在病例组与对照组中的频率差异,若某个SNP位点在病例组中出现的频率明显高于或低于对照组,则认为该SNP位点与复杂疾病存在某种关联。虽然,GWAS已经发现了很多与复杂疾病相关的SNP位点,但是GWAS仍然存在很多问题,其成果与人们的预期差距甚远。
[0003]在基因的间接识别法(Extrinsic Approach)中,人们利用已知的mRNA或蛋白质序列为线索在DNA序列中搜寻所对应的片段。由给定的mRNA序列确定唯一的作为转录源的DNA序列;而由给定的蛋白质序列,也可以由密码子反转确定一族可能的DNA序列。因此,在线索的提示下搜寻工作相对较为容易,搜寻算法的关键在于提高效率,并能够容忍由于测序不完整或者不精确所带来的误差。BLAST是目前以此为目的最广泛使用的软件之一。
[0004]BLAST(Basic Local Alignment Search Tool)是一套在DNA数据库或蛋白质数据库中进行相似性比较的分析工具。BLAST程序能迅速使目标基因序列与公开数据库进行相似性序列比较。BLAST采用一种局部的算法获得两个序列中具有相似性的序列,并且对一条或多条序列(可以是任何形式的序列)在一个或多个核酸或蛋白序列库中进行比对。然而,BLAST却也存在一定的局限性,并不能进行深度学下的依照对应性状进行基因分类和自我识别,而且对于大数据量的基因数据集进行智能化的对应性状分类和自我识别显得无能为力。
[0005]Torch目标是通过极其简单过程、以最大的灵活性和速度建立自己的科学算法。Torch拥有一个由大型社区驱动的完善的生态系统,包括机器学习算法、计算机视觉,信号处理,并行处理,图像,视频,音频和网络等领域,并且作为Lua的顶级项目而获得Lua社区的支持,这些促使了 Torch的快速发展。Torch目标是让你通过极其简单过程、以最大的灵活性和速度建立自己的科学算法。Torch的核心是通过广泛认可的神经网络基本模型,提供简便的优化方式,同时具有最大的灵活性,用以快速实现复杂的神经网络的拓扑结构。利用Torch深度学习框架进行基因信息数据的分析、识别,将会在基因与其对应性状识别及分类上取得突破性的成果。

【发明内容】

[0006]本发明的目的在于针对现有技术的缺陷和不足,提供一种结构简单,设计合理、使用方便的基于Torch监督式深度学习的基因性状识别方法,它通过采用深度学习算法,构建一个对生物基因信息识别并找出与对应性状之间联系的模型,使用这个模型对未知性状的基因信息进行识别;具有能够更方便及智能的进行基因的对应性状分类,对未知性状的基因进行自我识别等优点。
[0007]本发明所述的基于Torch监督式深度学习的基因性状识别方法,它采用如下的技术方案:
[0008]步骤一:基因PNG图像信息数据的预处理,以符合用于Torch深度学习模型训练的Tensor数据对象;
[0009]步骤二:利用Torch构建深度学习模型,在深度卷积神经网络模型中对Tensor训练数据进行训练,得到理想的训练数据识别结果后输出标签向量和权重参数;
[0010]步骤三:在模型训练成功后,可以针对结果标签的某一类别提取所有训练完成后各个连接之间的权重参数,再对基因图像数据信息进行反编码,从而得到与基因对应性状的相关SNP位点以及相应权重参数,从而识别该基因信息的对应性状,发现其表现性状与该基因SNP的关联关系。
[0011]进一步地,步骤一中:基因信息数据预处理,按照样本数据的某种性状设计标签向量,调用Torch的load函数读取每个需要处理的样本数据为Tensor数据对象,则每个Tensor数据对象设置有两个属性:data和label。
[0012]进一步地,步骤二中:利用Torch构建深度学习模型,根据输入的Tensor数据的尺寸,反复调用add()函数在调用Sequential!;)函数创建模型容器Model中分别插入卷积层、下采样层、全连接层以及激活函数构建深度卷积神经网络模型。
[0013]进一步地,步骤三中:通过提取训练结果的权重参数,以未知性状基因进行数据信息的反编码,得到与基因对应性状的相关SNP位点以及相应权重参数,以其与训练模型提取的权重参数进行比照分析,从而识别该基因信息的对应性状。
[0014]采用上述结构后,本发明有益效果为:本发明所述的基于Torch监督式深度学习的基因性状识别方法,它通过采用深度学习算法,构建一个对生物基因信息识别并找出与对应性状之间联系的模型,使用这个模型对未知性状的基因信息进行识别;具有能够更方便及智能的进行基因的对应性状分类,对未知性状的基因进行自我识别等优点。
【【附图说明】】
[0015]此处所说明的附图是用来提供对本发明的进一步理解,构成本申请的一部分,但并不构成对本发明的不当限定,在附图中:
[0016]图1是本发明技术方案的实施架构示意图。
[0017]图2是本发明实施中基因信息数据的预处理示意图。
[0018]图3是本发明实施中SequentialO函数架构简图。
[0019]图4是本发明实施中构建深度卷积神经网络模型示意图。
[0020]图5是本发明实施中卷积网络训练模型具体结构图。
[0021 ]图6是本发明实施中构建容器模型Mode I示意图。
[0022]图7是本发明实施中基因性状识别流程示意图;
【【具体实施方式】】
[0023]下面将结合附图以及具体实施例来详细说明本发明,其中的示意性实施例以及说明仅用来解释本发明,但并不作为对本发明的限定。
[0024]如图1-图7所示,本【具体实施方式】所述的基于Torch监督式深度学习的基因性状识别方法,它采用如下的技术方案:
[0025]步骤一:基因PNG图像信息数据的预处理,以符合用于Torch深度学习模型训练的Tensor数据对象;
[0026]步骤二:利用Torch构建深度学习模型,在深度卷积神经网络模型中对Tensor训练数据进行训练,得到理想的训练数据识别结果后输出标签向量和权重参数;
[0027]步骤三:在模型训练成功后,可以针对结果标签的某一类别提取所有训练完成后各个连接之间的权重参数,再对基因图像数据信息进行反编码,从而得到与基因对应性状的相关SNP位点以及相应权重参数,从而识别该基因信息的对应性状,发现其表现性状与该基因SNP的关联关系。
[0028]进一步地,步骤一中:基因信息数据预处理,按照样本数据的某种性状设计标签向量,调用Torch的load函数读取每个需要处理的样本数据为Tensor数据对象,则每个Tensor数据对象设置有两个属性:data和label。
[0029]进一步地,步骤二中:利用Torch构建深度学习模型,根据输入的Tensor数据的尺寸,反复调用add()函数在调用Sequential!;)函数创建模型容器Model中分别插入卷积层、下采样层、全连接层以及激活函数构建深度卷积神经网络模型。
[0030]进一步地,步骤三中:通过提取训练结果的权重参数,以未知性状基因进行数据信息的反编码,得到与基因对应性状的相关SNP位点以及相应权重参数,以其与训练模型提取的权重参数进行比照分析,从而识别该基因信息的对应性状。
[0031]本具体实施例中:
[0032]在数据预处理阶段,针对每个基因信息样本数据设计标签向量β,具有某种性状的样本数据则在标签向量β相应的维度中设置为I,否则设置为0;并将标签向量β中表征的人体特性的相应顺序记录下来。
[0033]这样,对于每个样本数据由两部分组成,一部分是表征基因信息的图像数据;一部分是表征样本性状的标签向量。
[0034]调用Torch的load函数读取每个需要处理的样本数据为Tensor数据对象,则每个Tensor数据对象设置有两个属性:data和Iabe I。
[0035]data为一个4维的Tensor数据变量,第一维表不读取样本的序号;第二维表不样本图像数据的颜色管道序号,其中O表示R通道,I表示B通道,2表示G通道;第三维和第四维分别表示每个颜色通道中的位置。
[0036]S卩data[25][l][260][127]表示序号为25的样本图像数据中在B颜色通道中行位置为260,列位置为127的位置点的标量数值。
[0037]label读取为一个二维的Tensor变量,第一维同样表不样本的序列号,第二维表不该样本数据表征的基因对应性状。
[0038]即label[32] [104]表示序列号为32的样本数据在标签向量中是否表征第105个位置相应的特性(位置标号从O开始)。
[0039]步骤B利用Torch构建深度学习模型,首先,调用Sequential ()函数创建模型容器Model,它是一个将各个层以前馈全联结方式将各个层聚集一起的函数工具。[OO4O]进一步地,根据输入的Tensor数据的尺寸,反复调用add()函数在Model中分别插入卷积层、下采样层、全连接层以及激活函数构建深度卷积神经网络模型。具体模型构建的过程如下:
[0041 ] 输入图像尺寸1920 X 1920 X3,调用SpatialConvolut1nO函数,设置卷积核尺寸大小为5 X 5 X 3,卷积步幅为5,则卷积后的图像尺寸为384 X 384 ; 一共设置96个卷积核;则卷积后产生的数据大小为384 X 384 X 96;本层共有7296个参数需要训练。
[0042]针对上述产生的数据,调用激活函数ReLUO,使得基因信息关联具有非线性特性,该函数调用的不改变输入Tensor数据变量的维度尺寸大小。ReLU函数模型如下所示:
[0043]f(x)=max(0,x)
[0044]针对产生的384 X 384 X 96激活数据,调用SpatialLPPool ing()函数,采用一个2 X2大小的采样窗口,以采样步幅2对原始数据进行采样处理;则采样后结果为192 X 192 X 96,本层需训练的参数为192.
[0045]将上述采样数据进行切分为两部分,每部分为192X 192X48,然后分别对这两部分调用SpatialConvolut1nMM()函数,设置本层卷积核大小为3 X 3 X 48,卷积步幅为3,则卷积后的数据大小为64 X 64,一共设置256个卷积核。
[0046]分别在两台不同的计算机上进行计算,卷积后产生两块数据大小为64X64X128的基因信息数据;本层一共需要训练110592个参数。
[0047]调用激活函数,针对产生的2 X 28 X 28 X 192的激活数据,调用SpatialLPPooling()函数,采用一个2 X 2大小的采样窗口,以采样步幅2分别对两块数据进行采样处理;则采样后的结果为14 X 14 X 192,本层需要训练768个参数。
[0048]得到采样数据后,本层对两块采样数据进行单独卷积;设置卷积核大小为5X 5 X192;分别调用Spa t i a I Convo I ut i on ()函数,卷积步幅为I;每个卷积核只对本台机器的数据进行卷积,卷积后的数据大小为1X 10,一共设置384个卷积核,每台计算机单独训练192个卷积核;卷积后产生两块数据大小为1X 1X 192的基因数据;本层一共需要训练1843584个参数。
[0049]在此卷积层后,调用SpatialConvolut1n丽()函数,对分布在两台计算机上的进行混合卷积计算,卷积核大小设置为1X 10X384,通过此卷积核,二维的基因数据被压缩成一维数据,即本层一个数据点表示上一层的一个二维基因数据;一共设置4096个卷积核,卷积后在两台计算机分别分布在2048个神经节点的一维基因数据集;本层一共需要训练157290496个参数。
[0050]分布在两台计算的基因数据块混合全连接一个具有2048个神经元的网络层;分别调用Reshape ()函数和Linear ()函数,将重构后的Tensor变量数据与本层的神经元进行全连接,分别在两台计算机设置全连接层,则此层一共需要训练16777216个参数。
[0051]分别调用LinearO和SoftMaxO函数,在一台计算机上合并两台计算机上一层全连接的神经元单元,本层设置最后的神经元单元1024个,一共有4194304个参数需要训练;之后使用SoftMaxO对该层1024个神经元进行回归分析,得到训练输出的标签向量。
[0052]步骤C需构建容器模型Model为一个序列化对象,它具有两个属性output和gradlnput;其中output表示模型的输出,即上述训练输出的标签向量。
[0053]gradlnput表明输入数据的梯度信息,这两个属性分别是f orwar d ()和updateGrad Input ()函数的最后一次调用的返回结果。
[0054]通过这两个属性状态,我们在模型训练成功后,可以针对结果标签的某一类别提取所有训练完成后各个连接之间的权重参数,再对基因图像数据信息进行反编码,从而得至IJ与基因对应性状的相关SNP位点以及相应权重参数,从而识别该基因信息的对应性状,发现其表现性状与该基因SNP的关联关系
[0055]本发明所述的基于Torch监督式深度学习的基因性状识别方法,它通过采用深度学习算法,构建一个对生物基因信息识别并找出与对应性状之间联系的模型,使用这个模型对未知性状的基因信息进行识别;具有能够更方便及智能的进行基因的对应性状分类,对未知性状的基因进行自我识别等优点。
[0056]以上所述仅是本发明的较佳实施方式,故凡依本发明专利申请范围所述的构造、特征及原理所做的等效变化或修饰,均包括于本发明专利申请范围内。
【主权项】
1.基于Torch监督式深度学习的基因性状识别方法,其特征在于:它采用如下的技术方案: 步骤一:基因PNG图像信息数据的预处理,以符合用于Torch深度学习模型训练的Tensor数据对象; 步骤二:利用Torch构建深度学习模型,在深度卷积神经网络模型中对Tensor训练数据进行训练,得到理想的训练数据识别结果后输出标签向量和权重参数; 步骤三:在模型训练成功后,可以针对结果标签的某一类别提取所有训练完成后各个连接之间的权重参数,再对基因图像数据信息进行反编码,从而得到与基因对应性状的相关SNP位点以及相应权重参数,从而识别该基因信息的对应性状,发现其表现性状与该基因SNP的关联关系。2.根据权利要求1所述的基于Torch监督式深度学习的基因性状识别方法,其特征在于:步骤一中:基因信息数据预处理,按照样本数据的某种性状设计标签向量,调用Torch的load函数读取每个需要处理的样本数据为Tensor数据对象,则每个Tensor数据对象设置有两个属性:data和Iabe I。3.根据权利要求1所述的基于Torch监督式深度学习的基因性状识别方法,其特征在于:步骤二中:利用Torch构建深度学习模型,根据输入的Tensor数据的尺寸,反复调用add()函数在调用SequentialO函数创建模型容器Model中分别插入卷积层、下采样层、全连接层以及激活函数构建深度卷积神经网络模型。4.根据权利要求1所述的基于Torch监督式深度学习的基因性状识别方法,其特征在于:步骤三中:通过提取训练结果的权重参数,以未知性状基因进行数据信息的反编码,得到与基因对应性状的相关SNP位点以及相应权重参数,以其与训练模型提取的权重参数进行比照分析,从而识别该基因信息的对应性状。
【文档编号】G06F19/24GK106096327SQ201610399255
【公开日】2016年11月9日
【申请日】2016年6月7日
【发明人】尹勰, 谢清禄, 余孟春
【申请人】广州麦仑信息科技有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1