鉴别dna基因序列中编码区域与非编码区域的系统的利记博彩app
【专利摘要】本发明提供一种鉴别DNA基因序列中编码区域与非编码区域的系统,计算一个DNA序列的DRT谱,通过其在k=3处与其他地方的谱值的比较来判别这个序列究竟是外显子还是内含子:DRT谱在k=3处的值高于其它地方的值,则为外显子;否则,为内含子。通过数值化的DNA序列的离散Ramanujan谱及其信噪比,用来区分蛋白质的编码区域与非编码区域,测试结果显示了本发明方法的可靠性。对比于傅里叶变换,离散Ramanujan谱的计算量更小,精度更高。
【专利说明】鉴别DNA基因序列中编码区域与非编码区域的系统
【技术领域】
[0001] 本发明涉及一种鉴别DNA基因序列中编码区域与非编码区域的系统。
【背景技术】
[0002] 随着科学技术的进步,现代的生物学技术得到蓬勃发展。越来越多的数学方法和 信号处理技术被应用于研究生命科学领域,形成了生物信息学这一前沿学科。
[0003] 现在大多使用离散傅里叶变换(DFT)来作为鉴别DNA基因序列中编码区域与非编 码区域的方法,该方法由于采用浮点运算,而计算机的计算精度是有限的,所以存在着计算 误差,并且浮点运算耗费很多的计算时间。
[0004] 首先,现代计算机是用有限位存储实数的,这会导致舍入误差。对于离散傅里叶变
【权利要求】
1. 一种鉴别DNA基因序列中编码区域与非编码区域的系统,其特征在于,包括数据处 理模块、显不模块、输入输出模块和存储模块; 存储模块:存放DNA序列的片段的数据文件,并存放数据处理模块得到的结果文件; 显示模块:对数据处理模块的过程及结果进行显示; 输入输出模块:用于对数据处理模块进行数据输入或输出; 数据处理模块:读取存储模块内的DNA序列的片段的数据文件,得到一个完整DNA序 列,计算DNA序列经过离散Ramanujan变换后所得的DRT谱在3处的信噪比,进行编码区域 与非编码区域的鉴别,具体为: 计算一个DNA序列的DRT谱,DRT的谱为 P(k) = |X(k)2,k= 1, 2,......,N,X(k)为DRT的Ramanujan系数; 通过其在k= 3处与其他地方的谱值的比较来判别这个序列究竟是外显子还是内含 子:DRT谱在k= 3处的值高于其它地方的值,则为外显子;否则,为内含子。
2. 如权利要求1所述的鉴别DNA基因序列中编码区域与非编码区域的系统,其特 征在于,数据处理模块通过在k= 3处的信噪比来判断鉴别外显子与内含子,长度为N
的DNA序列在k= 3处的信噪比为 其中,ABN为平均背景噪声,其定义为 ?
3. 如权利要求2所述的鉴别DNA基因序列中编码区域与非编码区域的系统,其特征在 于,数据处理模块从存储模块中读取一个完整DNA序列的具体步骤为: 数据处理模块读取存储模块中DNA序列的片段的数据文件,获取文件长度并存储,设 当前位置为〇 ; 初始化RFT算法的各项参数;所待测序列的长度LengthOfTestSeq初始化为0,将一 维数组TheFinalResult清零,大小为DRTWIDTH,将三维数组AllTheXqArray清零,大小为 4*DRTWIDTH*DRTWIDTH; 从当前位置读取数据文件; 如读取的数据为'A',则设Layerlndex为0 ; 如读取的数据为'T',则设Layerlndex为1 ; 如读取的数据为'C',则设Layerlndex为2 ; 如读取的数据为'G',则设Layerlndex为3 ; 对数组AllTheXqArray [Layerlndex]的每一列递增取模,递增值为1,取该列在数组中 的位置为模,并在相应的位置加1;将LengthOfTestSeq加1, 循环上述读取步骤,直至数据文件读取完全,得到一个完整DNA序列。
4. 如权利要求1-3任一项所述的鉴别DNA基因序列中编码区域与非编码区域的系统, 其特征在于,数据处理模块计算DNA序列经过离散Ramanujan变换后所得的DRT谱在3处 的信噪比TheSNROfRFT,具体为: 将数组TheFinalResult清零,对所有的i,i= 1,2, 3,计算MidResult[i] [j] [k]*TheCqArray[j] [k],其中,k = 0,…,j, j = 0, 1,…,DRTWIDTH-1 ; 将三维数组MidResult中的具有相同第一、二维的元素分别相加,得到新的二维数组MidResult2,大小为4*DRTWIDTH ; 对所有的i,i = 1,2,3,计算MidResult3[i][j]为(MidResult2[i][j]/LengthOfTes tSeq*ThePhiFunPara[j])的平方,其中j = 0,…,DRTWIDTH-1 ;MidResult3为一个二维数 组,大小为4*DRTWIDTH ; 将最终结果数组的值相加;对所有的j,j =〇, 1,…,DRTWIDTH-1,计 算TheFinalResult[j] = MidResult[0][j]+MidResult[l][j]+MidResult[2] [j]+MidResult[3] [j]; DNA序列经过离散Ramanujan变换后所得的DRT谱在3处的信噪比TheSNROfRFT为TheFinalResult[2]除以TheFinalResult数组中除去第一个元素的所有元素的平均值。
【文档编号】G06F19/18GK104408331SQ201410628891
【公开日】2015年3月11日 申请日期:2014年11月10日 优先权日:2014年11月10日
【发明者】滑伟 申请人:南京工程学院