用于snp分析和基因组测序的系统和方法【专利摘要】本发明涉及用于SNP分析和基因组测序的系统和方法。在一个实施方案中,包含处理器和存储可由处理器执行的指令的存储器的系统创建核酸序列的索引。该索引包含多个元素。每个元素对应于核酸序列的排列。接收代表核酸序列的数据。在数据中在核酸序列的第一位置鉴定该核酸序列的子序列。计算子序列的散列以确定索引的相应元素。将反映第一位置的位置数据存储于索引的相应元素中。【专利说明】用于SNP分析和基因组测序的系统和方法发明领域[0001]本文中公开的实施方案一般涉及在计算机系统上创建和使用专用索引(application-specificindices),更具体地,涉及基于接收的样品创建核酸序列或氨基酸序列的索引的系统和方法。[0002]发明背景[0003]单核苷酸多态性,或SNP,是来自同一物种的个体的DNA序列之间或个体中成对染色体之间的单核苷酸差异。例如,在一个个体中(或在第一成对染色体上),DNA的区段可能包含核苷酸序列TTICTTGTA,而在另一个个体中(或在第二成对染色体上),相应的DNA区段可能包含核苷酸序列TT£CTTGTA。这些不同序列中的每一种被称为等位基因。[0004]许多SNP不是有害的。大多数SNP见于基因间(例如外显子中)或基因的非编码区中。这些非编码SNP在DNA指纹法技术中有用。[0005]即使当SNP存在于基因的编码区中时,SNP也可能与野生型基因同义,[0006]如此,该SNP可能不影响最终转录的氨基酸序列。例如,TTI和Τ--两者均转录为氨基酸苯丙氨酸。[0007]由编码区SNP提供的遗传变异导致给定物种中表型的正常变化。等位基因给予人类不同的遗传性状,例如如金色(blonde)、深色(brunette)、红色或黑色头发。然而,一些编码区SNP能导致遗传关联的疾病或病症。由于一些疾病可追溯到SNP,因此遗传学家一直对定位(mapping)和检测SNP感兴趣。[0008]一个基因中的突变足以导致一些疾病如亨延顿氏病(Huntington'sdisease)和多囊性肾病(polysystickidneydisease)1和2。然而,更经常地,多个SNP牵涉导致复杂病症如哮喘、癌症、糖尿病、心脏病和许多其他病症。在这些复杂病症中,一个或多个SNP的存在可能充当某人有形成该病症的更高风险的指示物。SNP还与药物代谢有关,从而产生个体化医药的可能性,其中根据他或她的遗传构成为该个体提供治疗。[0009]SNP以许多方式检测。例如,一种方法使用SNP芯片,其为附接有单链DNA片段的小娃玻璃晶片(siliconglasswafer)。每条附接的单链DNA片段具有对应于已知SNP的独特序列。DNA样品被转化成单链DNA,并添加荧光染料标记物。将经标记的样品DNA片段在芯片上温育,而具有匹配已知SNP的核苷酸序列的经标记的样品DNA会与芯片上结合的已知SNP杂交。不结合的DNA被清洗掉,然后计算机扫描芯片以检测荧光标记物的位置,由此检测结合具有已知SNP的DNA的样品DNA,且如此,鉴定出DNA样品中的SNP。然而,该规程是费时的,且仅检测已知的SNP。[0010]与SNP检测有关的是DNA测序。为了开发已知SNP的集合,必须首先对DNA测序以充当未知样品的参照。SNP芯片是用于鉴定SNP的一种可行方法,因为人类基因组(和其他基因组)均已完整测序。通过比较同一物种内的几个基因组和/或来自几个基因组的同一个基因,仓ij建共有序列(consensussequence),且来自共有序列的变异被鉴定为SNP。[0011]鸟枪测序(Shotgunsequencing)是用于对完整基因组测序的一种普遍使用的方法。在鸟枪测序中,DNA被片段化为随机区段。这些区段被测序,且测定的核酸片段的序列被称为"读段(read)"。片段化过程生成重叠的读段,基于其重叠区域将其比对。[0012]尽管序列比对由计算机完成,但测序仍然是一项耗时的过程。Bowtie,一种用于比对序列的软件程序,声称能在每小时将2500万个各35个碱基对的读段比对。Bowtie还使用Burrows-Wheeler索引为基因组创建索引。如此,使用Bowtie程序来为人基因组(其包含约30亿个碱基对)建立索引将花费超过8小时。此外,使用SNP芯片方法来检测已知的人SNP可能需要数小时来制备和处理芯片(如上文描述的),且不能用SNP芯片检测新的SNP。[0013]与DNA测序领域有关的是宏基因组学(metagenomics)的研究。宏基因组学是对从环境直接获得的无数种基因组的研究,其在不能在实验室中培养或容易研究的微生物的研究中尤其重要。宏基因组学用于理解环境中的遗传多样性。在宏基因组学中,可以将环境样品的所有遗传材料作为整体来研究,而不是首先分离和鉴定特定物种的遗传材料。然而,宏基因组学研究的一个方面聚焦于确定哪些物种存在于未区分的样品中,其通过对样品中的DNA测序并将其与已知的DNA序列比较进行。当测序揭示新的基因组时,宏基因组学中的DNA测序还用于发现先前未知的物种。经常地,可通过属对新基因组分类,即使该物种之前从未被鉴定出来。[0014]宏基因组学还牵涉开发一种途径来确定特定物种是否在含有来自几个物种的DNA的样品中。一种在样品中确定物种的方法可能牵涉对来自样品的遗传材料测序,然后将序列与已知序列的库比较以确定存在哪些物种。经常地,在将序列与已知序列比较之前,不将序列解析到完整基因组中。而是,将序列"读段"与序列库比较以确定匹配库中物种序列的样品序列的百分数。对于特定物种的百分数匹配越高,则来自物种的DNA就越可能存在于样品中。鉴于目前的序列分析技术,这是一项耗时的任务。[0015]根据以上内容,需要分析序列DNA和检测SNP的更快方法。还需要对来自环境样品的多个基因组测序和鉴定,并检测含有许多基因组的样品中单个基因组存在的更快的途径。最后,存在对序列同时测序和比较的需要,使得能在完整基因组测序之前鉴定出SNP,从而可以在测序完成前鉴定基因组或序列。[0016]发明概述[0017]公开的实施方案包括用于使用索引对核酸序列,包括DNA、RNA和合成序列测序的系统和方法。还公开了使用索引在序列测定期间或之后鉴定序列内SNP和鉴定序列(例如通过属或种)的系统和方法。公开的实施方案包括用于使用索引对肽和蛋白质(包括掺有标准和非标准氨基酸的序列)测序的系统和方法。还公开了用于使用索引在序列测定期间或之后鉴定序列内氨基酸取代的系统和方法。[0018]提供了一种用于为核酸序列创建索引的方法。所述方法生成索引。该索引包含多个元素且每个元素对应于核酸序列的排列。所述方法接收代表核酸序列的数据,并在所述数据中鉴定核酸序列的子序列。从核酸序列的第一位置检索(retrieve)子序列。所述方法计算子序列的散列(hash)以确定所述索引的相应元素,并在索引的相应元素中存储反映第一位置的位置数据。[0019]提供一种比对核酸序列的方法。所述方法接收代表核酸序列的数据,并在数据中鉴定所述核酸序列的子序列。所述方法计算子序列的散列以确定所述索引的相应元素。所述相应元素包括反映含有子序列部分的参照核酸序列的一个或多个位置的位置数据。所述方法在参照核酸序列的一个或多个位置处将所述子序列与参照核酸序列进行比较,并基于所述比较,确定是否错配大于预定阈值的碱基数目。当错配碱基的数目小于预定的阈值时,该方法确定子序列与参照核酸序列比对。[0020]提供一种检测SNP的方法。所述方法接收代表多个比对的核酸序列的数据,并基于多个比对的核酸序列,生成共有序列。所述方法将共有序列与参照核酸序列比较。当共有序列的元素与参照核酸序列的相应元素错配时,且当与共有序列元素相关的置信度水平超过预定的置信度阈值时,该方法确定所述共有序列的元素是SNP。[0021]提供在一种或多种核酸序列的样品中鉴定一个或多个物种的方法。所述方法接收代表所述核酸序列的数据,并在数据中鉴定核酸序列的多个子序列。所述方法将多个子序列与多个索引中的每一个比对。每个索引代表至少一个参照核酸序列。对于每个参照核酸序列,所述方法计算与所述参照核酸序列比对的子序列数目相对于子序列的总数目的比率,并输出计算比率。[0022]提供一种为氨基酸序列创建索引的方法。所述方法生成索引。该索引包含多个元素,且每个元素对应于氨基酸序列的排列。所述方法接收代表氨基酸序列的数据,并在数据中鉴定所述氨基酸序列的子序列。从氨基酸序列的第一位置检索所述子序列。所述方法计算子序列的散列以确定所述索引的相应元素,并在索引的相应元素中存储反映第一位置的位置数据。[0023]提供一种比对氨基酸序列的方法。所述方法接收代表氨基酸序列的数据,并在数据中鉴定所述氨基酸序列的子序列。所述方法计算子序列的散列以确定索引的相应元素。所述相应元素包括反映含有子序列部分的参照氨基酸序列的一个或多个位置的位置数据。所述方法在参照氨基酸序列的一个或多个位置处将子序列与参照氨基酸序列进行比较,并基于所述比较,确定是否错配大于预定阈值的氨基酸数目。当错配氨基酸的数目小于预定的阈值时,所述方法确定子序列与参照氨基酸序列比对。[0024]提供一种检测氨基酸取代的方法。所述方法接收代表多个比对的氨基酸序列的数据,并基于多个比对的氨基酸序列,生成共有序列。所述方法将共有序列与参照氨基酸序列比较。当共有序列的元素与参照氨基酸序列的相应元素错配时,且当与所述共有序列元素相关的置信度水平超过预定的置信度阈值时,该方法确定共有序列的元素是氨基酸取代。[0025]提供一种包含程序指令的非暂时性计算机可读介质,所述程序指令在由处理器执行时,导致处理器实施用于创建核酸序列索引的方法。该方法生成索引。该索引包含多个元素,且每个元素对应于核酸序列的排列。所述方法接收代表核酸序列的数据,并在所述数据中鉴定所述核酸序列的子序列。从核酸序列的第一位置检索所述子序列。所述方法计算子序列的散列以确定索引的相应元素,并在索引的相应元素中存储反映第一位置的位置数据。[0026]提供一种包含程序指令的非暂时性计算机可读介质,所述程序指令在由处理器执行时,导致处理器实施用于比对核酸序列的方法。所述方法接收代表核酸序列的数据,并在数据中鉴定所述核酸序列的子序列。所述方法计算子序列的散列以确定所述索引的相应元素。所述相应元素包括反映含有子序列部分的参照核酸序列的一个或多个位置的位置数据。所述方法在参照核酸序列的一个或多个位置处将所述子序列与参照核酸序列进行比较,并基于所述比较,确定是否错配大于预定阈值的碱基数目。当错配碱基的数目小于预定的阈值时,所述方法确定子序列与参照核酸序列比对。[0027]提供一种包含程序指令的非暂时性计算机可读介质,所述程序指令在由处理器执行时,导致处理器实施用于检测SNP的方法。所述方法接收代表多个比对的核酸序列的数据,并基于多个比对的核酸序列,生成共有序列。所述方法将共有序列与参照核酸序列比较。当共有序列的元素与参照核酸序列的相应元素错配时,且当与所述共有序列元素相关的置信度水平超过预定的置信度阈值时,该方法确定所述共有序列的元素是SNP。[0028]提供一种包含程序指令的非暂时性计算机可读介质,所述程序指令在由处理器执行时,导致处理器实施在一种或多种核酸序列的样品中鉴定一个或多个物种的方法。所述方法接收代表所述核酸序列的数据,并在数据中鉴定核酸序列的多个子序列。所述方法将多个子序列与多个索引中的每一个比对。每个索引代表至少一个参照核酸序列。对于每个参照核酸序列,所述方法计算与所述参照核酸序列比对的子序列的数目相对于子序列的总数目的比率,并输出计算比率。[0029]提供一种包含程序指令的非暂时性计算机可读介质,所述程序指令在由处理器执行时,导致处理器实施用于为氨基酸序列创建索引的方法。所述方法生成索引。该索引包含多个元素,且每个元素对应于氨基酸序列的排列。所述方法接收代表氨基酸序列的数据,并在所述数据中鉴定所述氨基酸序列的子序列。从氨基酸序列的第一位置检索所述子序列。所述方法计算子序列的散列以确定索引的相应元素,并在索引的相应元素中存储反映第一位置的位置数据。[0030]提供一种包含程序指令的非暂时性计算机可读介质,所述程序指令在由处理器执行时,导致处理器实施用于比对氨基酸序列的方法。所述方法接收代表氨基酸序列的数据,并在数据中鉴定所述氨基酸序列的子序列。所述方法计算子序列的散列以确定所述索引的相应元素。所述相应元素包括反映含有子序列部分的参照氨基酸序列的一个或多个位置的位置数据。所述方法在参照氨基酸序列的一个或多个位置处将子序列与参照氨基酸序列进行比较,并基于所述比较,确定是否错配大于预定阈值的氨基酸数目。当错配氨基酸的数目小于预定的阈值时,所述方法确定子序列与参照氨基酸序列比对。[0031]提供一种包含程序指令的非暂时性计算机可读介质,所述程序指令在由处理器执行时,导致处理器实施用于检测氨基酸取代的方法。所述方法接收代表多个比对的氨基酸序列的数据,并基于多个比对的氨基酸序列,生成共有序列。所述方法将共有序列与参照氨基酸序列比较。当共有序列的元素与参照氨基酸序列的相应元素错配时,且当与共有序列元素相关的置信度水平超过预定的置信度阈值时,该方法确定所述共有序列的元素是氨基酸取代。[0032]提供了一种用于为核酸序列创建索引的系统。所述系统包括处理器和存储可由所述处理器执行的指令以生成索引的存储器。该索引包含多个元素且每个元素对应于核酸序列的排列。所述指令还能接收代表核酸序列的数据,并在所述数据中鉴定所述核酸序列的子序列。从核酸序列的第一位置检索所述子序列。所述指令还能计算子序列的散列以确定索引的相应元素,并在索引的相应元素中存储反映第一位置的位置数据。[0033]提供一种用于比对核酸序列的系统。所述系统包括处理器和存储可由处理器执行的指令以接收代表核酸序列的数据的存储器。所述指令还能在数据中鉴定所述核酸序列的子序列,并计算子序列的散列以确定所述索引的相应元素。所述相应元素包括反映含有子序列部分的参照核酸序列的一个或多个位置的位置数据。所述指令还能在参照核酸序列的一个或多个位置处将所述子序列与参照核酸序列进行比较,并基于所述比较,确定是否错配大于预定的阈值的碱基数目。当错配碱基的数目小于预定的阈值时,所述指令还能确定子序列与参照核酸序列比对。[0034]提高一种用于检测SNP的系统。所述系统包括处理器和存储可由所述处理器执行的指令以接收代表多个比对的核酸序列的数据的存储器。所述指令还能基于多个比对的核酸序列,生成共有序列。所述指令进一步能将共有序列与参照核酸序列比较,并且当共有序列的元素与参照核酸序列的相应元素错配时,且当与共有序列元素相关的置信度水平超过预定的置信度阈值时,确定所述共有序列的元素是SNP。[0035]提供在一种或多种核酸序列的样品中鉴定一个或多个物种的系统。所述系统包括处理器和存储可由所述处理器执行的指令以接收代表所述核酸序列的数据的存储器。所述指令还能在数据中鉴定核酸序列的多个子序列并将多个子序列与多个索引中的每一个比对。每个索引代表至少一个参照核酸序列。对于每个参照核酸序列,所述指令进一步能计算与参照核酸序列比对的子序列的数目相对于子序列的总数目的比率,并输出计算比率。[0036]提供一种用于为氨基酸序列创建索引的系统。所述系统包括处理器和存储可由所述处理器执行的指令以生成索引的存储器。该索引包含多个元素,且每个元素对应于氨基酸序列的排列。所述指令还能接收代表氨基酸序列的数据,并在数据中鉴定所述氨基酸序列的子序列。从氨基酸序列的第一位置检索所述子序列。所述指令进一步能计算子序列的散列以确定所述索引的相应元素,并在索引的相应元素中存储反映第一位置的位置数据。[0037]提供一种用于比对氨基酸序列的系统。所述系统包括处理器和存储可由所述处理器执行的指令以接收代表氨基酸序列的数据的存储器。所述指令还能在数据中鉴定所述氨基酸序列的子序列,并计算子序列的散列以确定索引的相应元素。所述相应元素包括反映含有子序列部分的参照氨基酸序列的一个或多个位置的位置数据。所述指令还能在参照氨基酸序列的一个或多个位置处将所述子序列与参照氨基酸序列进行比较,并基于所述比较,确定是否错配大于预定阈值的氨基酸数目。当错配氨基酸的数目小于预定的阈值时,所述指令进一步能确定子序列与参照氨基酸序列比对。[0038]提供一种用于检测氨基酸取代的系统。所述系统包括处理器和存储可由所述处理器执行的指令以接收代表多个比对的氨基酸序列的数据的存储器。所述指令还能基于多个比对的氨基酸序列,生成共有序列,并将共有序列与参照氨基酸序列比较。当共有序列的元素与参照氨基酸序列的相应元素错配时,且当与共有序列元素相关的置信度水平超过预定的置信度阈值时,该指令进一步能确定所述共有序列的元素是氨基酸取代。[0039]应理解前述的一般性描述和以下详细描述均仅为例示性和解释性的,且不限制所公开的实施方案。[0040]附图简述[0041]纳入本说明书并构成本说明书一部分的附图例示了几个实施方案。在附图中:[0042]图1是例示与本文中公开的实施方案一致的计算系统的示例框图。[0043]图2例示与本文中公开的实施方案一致的核酸序列的示例索引。[0044]图3是例示与本文中公开的实施方案一致的用于创建反映核酸序列或氨基酸序列的数字输入的索引的示例方法的流程图。[0045]图4是例示与本文中公开的实施方案一致的使用参照核酸序列的索引比对反映核酸序列的数字输入的示例方法的流程图。[0046]图5是例示与本文中公开的实施方案一致的用于在反映核酸序列的数字输入中检测SNP的示例方法的流程图。[0047]图6是例示与本文中公开的实施方案一致的使用至少一个参照核酸序列的至少一个索引在反映核酸序列的数字输入中鉴定一种或多种物种的示例方法的流程图。[0048]发明详述[0049]现将对各个实施方案进行详细提述,其例子在附图中例示。在任何可能之处,将贯穿附图使用相同的参考编号以指示相同或相似的部分。而且,除非另外指示,不定冠词"一个"或"一种"在说明书和权利要求书中的使用意为包括其引入的一个/种或超过一个/种特征。[0050]图1显示配置为实施一个或多个软件过程的例示性系统,所述软件过程在执行时提供所公开实施方案的一个或多个方面。图1不意图限于公开的实施方案,因为用于执行本文中公开的过程和特征的组件可以变化。[0051]依照某些公开的实施方案,可以提供包括计算机101和网络108的计算系统100。本领域普通技术人员已知的其他组件可以纳入系统100中以处理、传播、提供和接收与公开的实施方案一致的信息。[0052]计算机101可以包括计算机系统组件,如一个或多个服务器,台式计算机,工作站,输入板(tablet),手持式计算设备,存储器设备,和/或连接组件的内部网络。在一个实施方案中,计算机101可以是包括一个或多个处理器、存储器设备和界面组件104的服务器。例如,计算机101可以包括处理单元102、存储器106和界面组件104。计算机101可以是单个服务器或者可以配置为分布式计算机系统,包括交互操作(interoperate)以实施与公开的实施方案有关的一个或多个进程和功能性的多个服务器或计算机。[0053]处理单元102可以包括一个或多个已知的处理设备,如来自由Intel?制造的Pentium?家族或由AMD?制造的Turion?家族的微处理器。处理单元102可以包括单核或多核处理器系统,其提供同时实施并行进程的能力。例如,处理单元102可包括单核处理器,其配置为具有本领域技术人员已知的虚拟处理技术。在某些实施方案中,处理单元102可使用逻辑处理器以同时执行和控制多个进程。处理单元102中的一个或多个处理器可以执行虚拟机(virtualmachine)技术,或其他类似的已知技术来提供对多个软件进程、应用、程序等进行执行、控制、运行、操作、存储等的能力。在另一个实施方案中,处理单元102可包括多核处理器布置(例如双核或四核),其配置为提供并行处理功能性以允许电子计算系统100同时执行多个进程。本领域普通技术人员会理解可以执行提供本文中公开的能力的其他类型的处理器布置,如Cray超型计算机中使用的那些。[0054]在一些实施方案中,计算机101可以是超型计算机,如CrayXMT或CrayXMT2。超型计算机可以包括与存储器配对的多核处理器布置,其配置为提供相对于消费者级的台式计算机、便携式电脑(laptop)等更大的并行处理功能性。例如,CrayXMT可以包含128TB(百万兆字节)的存储器和能并行执行多达8,192个线程的处理器核。类似地,CrayXMT2可以包括512TB的存储器和128个处理器核,其中每个处理器核能执行128个线程,总共16,384个线程。[0055]计算机101可以包含一个或多个存储设备,其配置为存储由处理单元102(或其他组件)使用以实施与所公开实施方案有关的某些功能的信息。在一个例子中,存储器106可以包含指令以使得处理单元102中的一个或多个处理器能够执行一个或多个应用,如服务器应用、网络通信过程、和已知在计算机系统上可用的任何其他类型的应用或软件。或者,可将指令、应用程序等存储于外存储器(externalstorage)或经过网络108可从存储器获得。所述一个或多个存储设备可以是易失性(volatile)或非易失性、磁性、半导体、磁带、光学、可移动、不可移动或其他类型的存储设备或真实的计算机可读介质。[0056]在一个实施方案中,存储器106可以包含指令,该指令当由处理单元102中的一个或多个处理器执行时,实施与本文中公开的功能性一致的一个或多个进程。与公开的实施方案一致的方法、系统和制品不限于配置为实施专门任务的分别的程序或计算机。例如,计算机101可以包含存储器,其可以包含一个或多个程序以实施一个或多个功能,该功能用于创建所公开实施方案的核酸元素序列或氨基酸元素序列的索引。而且,处理单元102中的一个或多个处理器可以执行与系统100远程定位的一个或多个程序。例如,系统100可访问一个或多个远程程序,该远程程序当执行时,实施与所公开实施方案有关的功能。存储器106可以包含一个或多个存储器设备,其存储数据和用于实施所公开实施方案的一个或多个特征的指令。存储器106还可以包含由存储器控制器设备(例如服务器等)或软件控制的一个或多个数据库,如文件管理系统、MicrosoftSQL数据库、SharePoint数据库、Oracle?数据库、Sybase?数据库或其他关系数据库的任意组合。[0057]计算机101还可以本地或经由网络108通信连接至一个或多个存储器设备(例如数据库(未显示))。远程存储器设备可以配置为存储信息并且可由计算机101访问和/或管理。例如,远程存储器设备可以是文件管理系统、MicrosoftSQL数据库、SharePoint数据库、Oracle?数据库、Sybase?数据库或其他关系数据库。然而,公开的实施方案的系统和方法不限于分别的数据库或甚至数据库的使用。[0058]计算机101还可以包含一个或多个1/0设备,其可以包含用于接收来自输入设备的信号或输入并向一个或多个允许通过电子计算系统1〇〇接收和/或传输数据的输出设备提供信号或输出的一个或多个接口。例如,接口组件104可以向一个或多个输入设备如一个或多个键盘、鼠标设备等提供接口,所述输入设备使得计算机101能够接收来自一个或多个用户的数据。另外,接口组件104可以包括配置为在计算机101的组件之间或计算机101的外部如网络108发送和接收信息的组件。[0059]网络108可以是提供通信、交换信息、和/或协助计算机101与其他用户或计算系统之间的信息交换的任何类型的网络。在一个实施方案中,网络108可以是因特网、局域网或其他适宜的连接,其使得计算机101能够在系统100的组件之间发送和接收信息。[0060]计算机101可以创建核酸序列或氨基酸序列的索引。该索引可以包含多个元素,每个元素对应于核酸序列或氨基酸序列(或另一种序列类型)的排列。计算机101可以使用多种数据结构来执行索引,所述数据结构如数据库、矩阵、阵列、链表、树等。数据结构的选择可以变化且对于任何实施方案均不是关键性的。计算机101可将索引存储于存储器106。更具体地,索引可以存储于硬盘上;计算机101还可以将索引加载到RAM中用于提高性能。[0061]一种不例核酸序列显不于下表1中。[0062]表1[0063]【权利要求】1.一种用于创建核酸序列的索引(index)的系统,其包含:处理器;和存储可由所述处理器执行的指令的存储器,所述指令用于:生成所述索引,其中所述索引包含多个元素(element),且每个元素对应于所述核酸序列的排列(permutation);接收代表所述核酸序列的数据;在所述数据中鉴定所述核酸序列的子序列,其中从所述核酸序列的第一位置检索(retrieve)所述子序列;计算所述子序列的散列(hash)以确定所述索引的相应元素;并在所述索引的相应元素中存储反映所述第一位置的位置数据。2.权利要求1的系统,其中所述存储器还存储可由所述处理器执行的指令,该指令用于:在所述数据中鉴定所述核酸序列的第二子序列,其中从所述核酸序列的不同于所述第一位置的第二位置检索所述子序列;计算所述第二子序列的散列以确定所述索引的第二相应元素;并在所述索引的第二相应元素中存储反映所述第二位置的位置数据。3.权利要求2的系统,其中所述第二位置相对于所述第一位置偏移所述核酸序列的一个喊基(thesecondpositionisoffsetbyonebaseofthenucleicacidsequencerelativetothefirstposition)〇4.权利要求1的系统,其中所述核酸序列包括DNA、cDNA、RNA、mRNA或PNA之一。5.权利要求1的系统,其中所述子序列的长度是16个碱基。6.-种用于比对核酸序列的系统,其包含:处理器;和存储可由所述处理器执行的指令的存储器,所述指令用于:接收代表所述核酸序列的数据;在所述数据中鉴定所述核酸序列的子序列;计算所述子序列的散列以确定所述索引的相应元素,其中所述相应元素包括反映含有所述子序列部分的参照核酸序列的一个或多个位置的位置数据;在所述参照核酸序列的一个或多个位置处将所述子序列与所述参照核酸序列进行比较;基于所述比较,确定是否错配大于预定阈值的碱基数目;并当错配碱基的数目小于预定阈值时,确定所述子序列与所述参照核酸序列比对。7.权利要求6的系统,其中所述预定阈值是3个碱基。8.权利要求6的系统,其中所述子序列是第一子序列,且其中所述存储器还存储可由所述处理器执行的指令,该指令用于:形成与所述第一子序列相等且偏移预定数目的碱基的第二子序列(formasecondsubsequenceequaltothefirstsubsequenceoffsetbyapredeterminednumberofbases);计算所述第二子序列的散列以确定所述索引的第二相应元素,其中所述第二相应元素包括反映含有所述第二子序列部分的所述参照核酸序列的一个或多个位置的位置数据;并在所述参照核酸序列的一个或多个位置处将所述第二子序列与所述参照核酸序列进行比较。9.权利要求8的系统,其中所述预定数目的碱基是16个碱基。10.-种用于检测SNP的系统,其包含:处理器;和存储可由所述处理器执行的指令的存储器,所述指令用于:接收代表多个比对的核酸序列的数据;基于所述多个比对的核酸序列,生成共有序列;将所述共有序列与参照核酸序列比较;并当所述共有序列的元素与所述参照核酸序列的相应元素错配时,且当与所述共有序列元素相关的置信度水平超过预定的置信度阈值时,确定所述共有序列的元素是SNP。11.权利要求10的系统,其中所述预定的置信度阈值是〇.80。12.在一种或多种核酸序列的样品中鉴定一个或多个物种的系统,其包含:处理器;和存储可由所述处理器执行的指令的存储器,所述指令用于:接收代表核酸序列的数据;在所述数据中鉴定所述核酸序列的多个子序列;将所述多个子序列与多个索引中的每一个比对,其中每个索引代表至少一个参照核酸序列;对于每个参照核酸序列,计算与所述参照核酸序列比对的子序列的数目相对于子序列的总数目的比率;并输出计算比率。13.权利要求12的系统,其中输出计算比率还包括:展示3个最高的计算比率和相关参照核酸序列的标识(identification);或展示超过预定的比率阈值的计算比率。【文档编号】G06F19/22GK104217134SQ201410228956【公开日】2014年12月17日申请日期:2014年5月27日优先权日:2013年5月29日【发明者】S.托马斯,N.德林杰申请人:诺布里斯股份有限公司