对双标记序列进行处理和/或基因组定位的方法

文档序号:6122435阅读:468来源:国知局
专利名称:对双标记序列进行处理和/或基因组定位的方法
技术领域
本发明是关于一种用于对双标记序列(ditags叫uence)进行处理的方法 和系统。尤其是关于一种用于建立双标记序列的数据库或文件(file)的方 法和系统。本发明还提供了用于对双标记序列进行基因组定位(genome mapping)的方法和系统。
背景技术
自人类和几种其它生物体的基因组序列完成之后,注意力已经被引向对 包括基因编码转录本单位在内的功能元件和调整基因表达水平的调控顺式 作用元件进行基因组注释。主要挑战之一是鉴定人类和模式生物体内的所有基因和由基因表达的 所有转录本。在基因的注释中,全长cDNA克隆和测序是最决定性的,并且 被看作转录本分析的黄金标准(gold standard)。然而,当用于跨越大量物种 和生物条件(biological condition)的大量转录本时,这种方法昂贵且缓慢。 有基于短标记(shorttag)的方法,例如基因表达系列分析(serial analysis of gene expression, SAGE)禾口大规丰莫平行湖!j序技术(massively parallel signature sequence, MPSS)。这些基于短标记的方法提取出14-20碱基对(bp)的标 签(signature)用于代表每个转录本。然而,常规的SAGE途径依赖于例如 NlaIII的限制酶(restriction enzyme, RE)识别位点的存在,并且缺乏限定 基因组中基因分界的能力。而且,标记的特异性通常很差,产生的关于转录 本结构的信息经常不完整且很模糊。基因鉴别标签(Gene Identification Signature, GIS)分析,或者末端成 对的双标记(Paired-End diTag, PET)分析,是一种新的方法学,其能够精确鉴别基因组中被表达的基因的转录起始位点(transcription start site, TSS) (也称为转录启动作用位点(transcription initiation site, TIS))和多腺苷酸 化位点(polyadenylation site, PAS),从而有助于基因组范围内的转录子组 布图(US 2005/0059022)。作为5,长SAGE (5, LongSAGE, 5'LS)禾B 3,长 SAGE (3,LongSAGE, 3'LS)分析方法的改良,开发了 GIS (或PET)分析 (Wei, C-L., Ng, P., Chiu, K.R, Wong, C.H., Ang, C.C., Lipovich, L" Liu, E., and Ruan Y., 2004, 5,LongSAGE and 3'LongSAGE for transcriptome characterization and genome annotation. Proc. Natl. Acad. Sci. USA 101, 11701-11706)。起始于全长cDNA克隆,GIS以同样的顺序和取向将每个全 长cDNA分子的最初 18 bp (5'标记)和最终~18 bp (3'标记)连接,大小 的变化由II型限制酶消化的天然不精确性引起,以这样的方式保持了链、顺 序(由5,至3,)和取向。以这样的方式建立并排序了包括GIS双标记 (GISditag)(也称作PET、 GIS ditag或双标记)的库(library)。然而,目 前尚未发现有效的方法用于从所述库中鉴定GIS双标记以及构建GIS双标记数据库。需要对GIS双标记进行定位以发现它们在基因组中相对应的基因。然 而,还没有具体公开过对GIS双标记进行定位的方法。而且尚不存在容易适 用于对基因组的GIS双标记进行定位的计算算法。过去,SAGE和MPSS标 记匹配于由已知序列得到的病毒数据库中的标记基因对(tag-gene pair)。使 用该方法,将不能对在病毒数据库中不存在的新的转录本进行定位。两种最 常用的序列比对工具为基本的局部比对检索工具(basic local alignment search tool, BLAST)和类似于BLAST的比对工具(BLAST-like alignment tool, BLAT)。然而它们不是为短标记序列设计的。而且,BLAT经常导致 结果很差或不正确,BLAST则要求时间长并且因此不适于大规模定位。因此在该技术领域需要新的方法和系统来组织并分析GIS双标记数据,以及用于将双标记序列定位于基因组的有效方法和系统。 发明内容本发明阐述了上述问题,并且提供了对双标记核苷酸序列进行处理的新 的方法和/或系统。进而本发明提供了将双标记核苷酸序列定位于基因组的方 法和/或系统。根据第一方面,本发明提供了对双标记核苷酸序列进行处理的方法,该 双标记序列包括核酸分子或核酸分子的片段或者基因组片段的5'末端标记 和3'末端标记,该方法包括建立至少包括一种双标记序列的数据库或文件。根据具体的方面,所述双标记序列的数据库或文件是通过从包括双标记 的至少一个库的序列中提取双标记序列而建立的。所述库可以为包括至少一种双标记序列的核酸序列库。所述库可以包括至少一种双标记多联体(concatemer)。特别地,所述多联体包括一种或多种 双标记。更特别地,双标记的库的每个双标记序列以间隔子(spacer)核苷 酸序列为侧翼(flank),并且通过输入所述间隔子核苷酸序列从所述库中提 取双标记序列。当所述双标记的库包括至少一种两个或两个以上双标记的多 联体时,所述多联体在5,-3,方向上包括第一个双标记上游侧翼的间隔子、最 后一个双标记下游侧翼的间隔子,并且其中每两个相邻的双标记被位于它们 之间的间隔子间隔开。在图19中表示了带侧翼的且被间隔子序列间隔开的 双标记多联体的例子。双标记的库可以包括一种或多种间隔子序列,每个间 隔子序列的核苷酸序列与其它间隔子序列不同。间隔子序列的大小(以碱基 对计)以及它们的核苷酸序列可以取决于在所述库的建立中所使用的限制 酶。也可以取决于所使用的实验条件。进而,不同的间隔子序列可以用于构 建不同的库、不同的组织、不同的物种、不同的多联体等。所述库可以包括任何类型核酸的双标记序列,例如单链和/或双链的DNA和/或RNA。双标记可以由基因或外显子的转录本制备,或者它们可以 由基因组的部分(或部位)制备。优选地,双标记由全长cDNA的5'标记和 3'标记制备。对包括双标记的库的核酸序列进行测序。 一个或多个双标记库 的这些序列可以用作提取双标记序列以及建立双标记的数据库或文件的序 列源。更特别地,本发明的方法包括-由双标记的库提供核苷酸序列,其中,所述双标记库的每个双标记序 列以间隔子核苷酸序列为侧翼;以及-通过输入所述间隔子核苷酸序列来提取所述双标记序列,以建立双标记的数据库或文件。更特别地,通过输入下列参数来提取所述双标记序列 -至少一种间隔子核苷酸序列;-最小的双标记碱基对(bp)数目,其中,所述数目为选自32-38范围内 的数;以及-最大的双标记碱基对(bp)数目,其中,所述数目为选自36-42范围内 的数。优选地,所述最小的双标记碱基对数目为34和/或最大的双标记碱基对 数目为40。特别地,根据本发明,所述双标记序列可以包括至少为16个碱基对的5' 末端标记和至少为14个碱基对的3'末端标记。此外,所述双标记序列可以 包括基因、外显子、部分基因组、或者它们的片段的转录本的5'末端标记和 3'末端标记。更特别地,所述双标记序列可以包括全长cDNA的5'末端标记 和3'末端标记。根据另一方面,本发明的方法还包括对所述数据库或文件的双标记序列 进行质量控制检查。所述质量控制检査可以在库、板(plate)、孔(well)、序列和/或双标记水平上进行。所述质量控制检查可以在将双标记序列定位于 基因组之前执行。通过控制检查,操作者可以通过考虑来决定除去导致错误 并且与双标记序列不相符的序列。根据任何已知的定位方法,可以进行包括将双标记定位于基因组的步 骤。特别地,本发明的方法还包括在匹配的至少一个5'末端和至少一个3'末端之间沿着基因组序列鉴定至少一个区段;以及鉴定至少一个染色体位置 (chromosomal location)、基因、它们的片段、或者外显子位置。根据另一方面,本发明的方法还包括将双标记定位于基因组的步骤。特 别地,所述定位的步骤包括将至少一种双标记序列定位于基因组,包括将双 标记序列的5'和3'末端标记匹配到基因组的至少一部分。更具体地,本发明提供了一种用于将双标记核苷酸序列定位于基因组的 方法,该方法包括-建立包括至少一种双标记序列的数据库或文件,所述双标记序列包括核酸分子或核酸分子片段的5'末端标记和3'末端标记;-选择性地,对所述数据库或文件的双标记序列进行质量控制检查;以及-将所述至少一种双标记序列定位于基因组,包括将双标记序列的5'和 3'末端标记匹配到基因组的至少一部分。特别地,所述双标记库的每个双标记序列以间隔子核苷酸序列为侧翼并 且通过输入所述间隔子核苷酸序列从所述库中提取所述双标记序列。因此,本发明提供了一种将双标记在基因组定位的方法,其中,在建立 数据库和/或文件的步骤过程中,通过输入下列参数来提取所述双标记序列-至少一种间隔子核苷酸序列;-最小的双标记碱基对(bp)数目,其中,所述数目为选自32-38范围内 的数;-最大的双标记碱基对(bp)数目,其中,所述数目为选自36-42范围内 的数。优选地,所述最小的双标记碱基对数目为34和/或最大的双标记碱基对 数目为40。所述定位步骤还可以包括在匹配的至少一个5'末端和至少一个3'末端 之间沿着基因组序列鉴定至少一个区段;以及鉴定至少一种染色体位置 (chromosomal location)、基因、外显子位置、或者它们的片段。被鉴定出 来的基因位置可以导致发现新的基因位置。因此,本发明还提供了一种用于发现新基因的方法,该方法包括-建立包括至少一种双标记序列的数据库;-将所述至少一种双标记序列定位于基因组,包括将双标记序列的5'和 3'末端标记匹配到基因组的至少一部分;以及-将发现的位置或序列与现有的数据库或数据进行比较,以确定所述发 现的位置或序列是否是新的位置和/或新的基因。特别地,根据本发明的任一方面的方法中,双标记序列包括至少为16 个碱基对(bp)的5,末端标记和至少为14个碱基对(bp)的3'末端标记。 特别地,16-18 bp。优选地,18bp的5'末端标记和16bp的3,末端标记。根据本发明的任一方面的方法中,双标记序列的提取和/或基因组定位 可以通过因特网在计算机上执行和/或介质支持(medium support)的因特网 而执行。根据另一方面,本发明提供了一种用于处理双标记序列的系统。根据另 一方面,本发明还提供了一种对双标记序列进行基因组定位的系统(双标记 至基因组的定位系统(ditag-to-genome mapping system))。根据具体的方面, 本发明任一方面的系统也被称为GIS双标记工具(GISditagTool)。因此,本发明提供了用于对双标记核苷酸序列进行处理的系统,该系统包括用于建立包括至少一种双标记序列的数据库或文件的至少一个模块,所 述双标记序列包括核酸分子或核酸分子的片段或者基因组的片段的5'末端牛示i己禾卩3'^g牛示"i己。特别地,双标记序列的数据库和文件是通过从包括双标记序列的至少一 个库的序列中提取双标记序列而建立的。特别地,双标记的库的每个双标记序列以间隔子核苷酸序列为侧翼并且 通过输入所述间隔子核苷酸序列从所述库中提取双标记序列。如上所述并具 体如图19中所示,当所述双标记的库包括至少一种两个或两个以上双标记 的多联体时,所述多联体在5,-3'方向上包括第一个双标记上游侧翼的间隔 子、最后一个双标记下游侧翼的间隔子,并且每两个相邻双标记被位于它们 之间的间隔子间隔开。特别地,本发明的系统中,操作者选择至少一种链接,该链接激活所述 模块,所述模块启动至少一个用户界面,并且其中所述操作者将以下参数输 入该用户界面-至少一种间隔子核苷酸序列;-最小的双标记碱基对(bp)数目,其中,所述数目是选自32-38范围内 的数;以及-最大的双标记碱基对(bp)数目,其中,所述数目是选自36-42范围内 的数;并且由此产生被提取的双标记的数据库或文件。优选地,所述最小的双标记碱基对数目为34和/或最大的双标记碱基对 数目为40。所述用户界面可以为图形用户界面。特别地,本发明的系统中,所述双标记序列包括基因、外显子、基因组 的部分、或者它们的片段的转录本的5'末端标记和3'末端标记。根据另一方面,本发明的系统还包括双标记序列的数据库或文件的质量控制模块。所述用于质量控制的模块可以在库、板、孔、序列和/或双标记水 平上使用。所述质量控制检查可以在将双标记序列定位于基因组之前执行。 由于控制检查,操作者可以通过考虑来决定去除导致错误并且与双标记序列 不相符的序列。根据另一方面,本发明的系统还包括用于将至少一种双标记序列定位于 基因组的模块,包括将双标记序列的5,和3'末端标记匹配到基因组的至少一 部分。因此,本发明还提供了用于对双标记序列进行基因组定位的系统(双标 记至基因组的定位系统),该系统包括-用于建立(创建)包括至少一种双标记序列的数据库和/或文件的模块, 所述双标记序列包括核酸分子或它们的片段的5'末端标记和3'末端标记;-选择性地包括的用于对双标记序列的数据库或文件进行质量控制的模 块;以及-另外的用于将至少一种双标记序列定位于基因组的模块,包括将双标记序列的5'和3,末端标记匹配到基因组的至少一部分。根据另一方面,本发明的系统至少包括-第一用户界面,该第一用户界面至少包括用于提取(提取器)双标记序列的链接和用于将双标记定位于基因组的链接;-第二用户界面,该第二用户界面由操作者通过选择或点击提取器而被激活,该第二用户界面包括用于输入最小双标记碱基对(bp)数目、最大标 记碱基对(bp)数目、以及至少一种间隔子序列的核苷酸序列的字段(field);-第三用户界面,该第三用户界面用于将双标记序列在基因组或染色体位置中定位;以及-第四用户界面,该第四用户界面显示定位结果,其中,所述双标记与 基因组比对。本发明任一方面的系统能够由操作者在电脑上操作,并且所述操作通过 因特网在计算机上执行和/或通过介质支持的因特网执行。根据另一方面,本发明提供了一种包括计算机程序的计算机可读介质, 该计算机程序在与计算机关联时为可操作的,并且其中所述计算机程序包括 本发明任一方面的系统。关于定位步骤,如上所述,可以使用任何已知的定位方法。然而,根据具体实施方式
,为了调整双标记数据,可以使用Suffix Array-based Tag to Genome (SAT2G)算法将双标记序列在基因组序列中定位,所述基因组序 列在高级数据结构Compressed Suffix Array (CSA)上建立并索引。因此,根据本发明的一方面,本发明的方法或系统还提供了包括以下步骤的定位方法和/或系统-建立包括至少一种双标记序列的数据库,所述双标记序列包括来自核酸分子或核酸分子的片段的5'末端标记和3,末端标记,例如来自基因转录 本;-将5,末端标记匹配到基因组序列的至少一部分以由此从基因组序列中 鉴定出至少一个5,位点,至少一个5,位点的每个都具有与5'末端标记匹配的 序列;-将3'末端标记匹配到基因组序列的至少一部分以由此从基因组序列中 鉴定出至少一个3,位点,至少一个3'位点的每个都具有与3'末端标记匹配的 序列;-鉴别至少一段存在的区段,所述至少一段存在的区段的每段为沿着基 因组序列在所述至少一个5'位点之一和至少一个3'位点之一之间的序列 区段,所述至少一段存在的区段的每段都具有序列长度;以及-鉴别至少一个可行的基因位置,所述可行的基因位置的每个为所述至 少一种存在的区段之一,所述区段的序列长度不超过预定的基因长度。根据本发明的另一方面,提供了一种定位系统,该系统包括 -用于通过提取至少一种双标记而建立数据库的装置,所述双标记包括来自核酸分子或核酸分子的片段的5'末端标记和3'末端标记,例如来自基因转录本;-用于将5'末端标记匹配到基因组序列的至少一部分以由此从基因组序 列中鉴定至少一个5'位点的装置,至少一个5'位点的每个都具有与5'末端标 记匹配的序列;-用于将3'末端标记匹配到基因组序列的至少一部分以由此从基因组序 列中鉴定至少一个3'位点的装置,至少一个3'位点的每个都具有与3'末端标 记匹配的序列;-用于鉴别至少一段存在的区段的装置,所述至少一段存在的区段的每 段为在沿着基因组序列所述至少一个5'位点之一和至少一个3'位点之一之间的序列区段,所述至少一段存在的区段的每段都具有序列长度;以及-用于鉴别至少一个可行的基因位置的装置,所述可行的基因位置的每 个为所述至少一种存在的区段之一,所述区段的序列长度不超过预定的基因 长度。根据本发明的另一方面,提供了一种定位方法,该方法包括下列步骤 -建立双标记的数据库,包括提取至少一种双标记,例如来自双标记库或来自现有的双标记数据库,所述双标记序列包括来自核酸分子或核酸分子的片段的5'末端标记和3'末端标记,例如来自基因转录本;-将5'末端标记匹配到基因组序列的至少一部分以由此从基因组序列中鉴定出至少一个5,位点,至少一个5,位点的每个都具有与5'末端标记匹配的序列;-将3'末端标记匹配到基因组序列的至少一部分以由此从基因组序列中 鉴定出至少一个3'位点,至少一个3'位点的每个都具有与3'末端标记匹配的序列;-鉴别至少一段存在的区段,所述至少一段存在的区段的每段为在所述至少一个5'位点之一和至少一个3'位点之一之间沿着基因组序列的序列 区段,所述至少一段存在的区段的每段都具有序列长度;以及-从至少一种存在的区段鉴定出至少一种可行的基因位置,每一至少一 种所述可行的基因位置为至少一种序列长度不超过该区段预定的基因长度 的所述至少一种存在的区段之一,它的序列顺序以及其中对应的与5'-存在 的区段-3,结构一致的至少一个5'位点之一和至少一个3'位点之一跟基因组 序列相应部分的序列顺序相匹配,5'位点与其中对应的至少一个5'位点之一 以及至少一个3'位点之一具有5'-3'取向,并且与每一存在的区段相对应的 至少一个5'位点之一以及至少一个3'位点之一被定位于同一染色体中。


图l: GIS双标记的结构和GIS双标记至基因组的定位。在此图所示的 例子中,GIS双标记产生于全长cDNA库。每个双标记[SEQ ID N0:1]包括 与全长克隆的末端一致的5'和3'标记(每个约18 bp)。双标记的直接的GIS 双标记至基因组的定位确定染色体中相应基因的边界;图2显示了应用于基因组注释中的GIS双标记(这里也称为双标记)技 术的5'和3'末端标记的示意图。该图还显示了双标记多联体的制备;图3显示了根据本发明实施方式的转录本定位方法的流程图;图4显示了用于实施图3的转录本定位技术的GIS双标记[SEQ ID N0:1] 的示意图;图5显示了 GIS双标记[SEQIDNO:2](PET)至基因组的定位。用SAT2G 分两步进行PET序列的定位。首先,5'标记和3'标记分别与基因组集合 (genome assembly)比对;对于5'标记要求16 bp的正确匹配长度并且对于3'标记要求14 bp。然后,在第二步骤中,在染色体中的靶定位的检索中将所述5'比对与相应的3'比对配对。如果5'和3'标记都在同一染色体、同一 链、同一方向,在5'至3'的顺序中,并且在一百万bp距离内,则所述靶得 以鉴定;图6显示了图3的转录本定位方法的伪代码(pseudo code)"Find—Sites", 用于从基因组序列中正向和反向检索5'位点和3'位点;图7显示了图3的转录本定位方法的伪代码"Match—sites—1",用于鉴 别存在的区段的序列长度,随后所述序列长度与预定的长度相比较从而用于 鉴别可行的基因位置;图8显示了图3的转录本定位方法的伪代码"Match—sites—2",用于鉴 别存在的区段,当满足不同的条件时,随后从中得到可行的基因位置;图9: GIS双标记工具(GISditagTool)的数据管理实体关系图。所述实 体关系描述了结构化查询语言(mySQL)表的系统结构(architecture)。所 述系统结构依次由项目(project)、库、板、孔(各自代表序列)、双标记和 基因组位置组成。提取历史(extractHistory)表和定位历史(mapHistory) 表分别记录双标记提取和定位的行为。生物体、组织、状态、基因组以及序 列中心(s叫uenceCenter)表提供了该过程所需的背景信息;图10: GISditagTool模块和mySQL数据库。根据一种实施方式, GISditagTool包括四个模块,即项目模块、提取器模块、检查器模块和定位 模块。它们中的每一个起到不同的作用。项目用于数据和文件组建;提取器 用于双标记提取;检查器用于质量控制;以及定位用于标记至基因组的定位。 mySQL有理数数据库(DB)管理系统为那些模块之间的活动提供了从容的 运输(trafficking);图11至图14显示了根据本发明一个方面的四个GISditagTool模块的流 程图。具体地,图ll显示了项目模块流程图,图12显示了提取器模块流程图,图13显示了检查器模块流程图,以及图14显示了定位模块流程图;图15: GISditagTool的提取和质量控制(QC)用户界面(从A至F)。 可以通过提取器模块(B)上传序列读取,用于双标记提取。提取参数可以 在此阶段得到修改。QC以序列顺序进行。最上面的面板(A)显示所有项 目的统计。当激活检查器模块时,用于所有库的双标记统计得到展示(C)。 点击库、库中的板,以及接着板中的孔,用户能分别评估板(D)、孑L (E) 和序列(F)的质量;图16显示了图15的GISditagTool的用户界面(A)禾卩(B);图17显示了图15的GISditagTool的用户界面(C)禾Q (D);图18显示了图15的GISditagTool的用户界面(E);图19显示了图15的GISditagTool的用户界面(F);图20: GISditagTool中显示的定位结果。用户界面(G)禾Q (H)。定位 模块比对双标记和基因组,并通过UCSC浏览器提供定位概要(G)以及浏 览能力(H)。基于发现于基因组中的靶的数目,双标记被分组成不同的类(例 如PET0、 PET1、 PET2等)。
具体实施方式
定义-双标记GIS双标记,也称为双标记,根据US 2005/005卯22定义并制备,在此其全部的内容引入作为参考。-数据以任何形式在电脑程序中运行的信息。这里所用的数据包括任何有关双标记的信息,特别是有关双标记的碱基对和双标记的核苷酸序列。-数据管理系统也被称为DBMS或dbms,是一种软件系统,该软件系 统为用于具体应用或一组相关应用的数据体组建和管理提供便利。-数据库为了本发明的目的,双标记数据集合(或一般为信息),在DBMS中至少包括双标记的核苷酸序列。它还可以包括进一步的信息例如所 用的一个或多个间隔子的碱基对(bp)大小和核苷酸序列、双标记的方向、库或序列鉴别(ID)号等。所述数据或信息得到采集、存取和/或存储在计算机系统和/或计算机可读介质内。所述数据库还可以在因特网上获得。数据 库的定义还包括信息或数据体,使用数据库管理系统的设备将所述信息或数 据体容纳在计算机系统和/或计算机可读介质中。-文件(也称为计算机文件)信息的集合,参考文件名,例如,用户创 建的文件、程序数据或程序本身。为了本发明的目的,文件定义为至少包括 双标记的核苷酸序列的双标记数据集合(或者一般为信息)。它还可以包括 进一步的信息例如所用的一个或多个间隔子的碱基对(bp)大小和核苷酸序列、双标记的方向、库或序列鉴别(ID)号、数目(拷贝数)等。数据或信息得到采集、存取和/或存储在计算机系统和/或计算机可读介质内。所述文 件还可以在因特网上获得。双标记的一个或多个文件可以收集到文件的索引 中。完整基因组注释依赖于精确地鉴定通过转录本起始位点(transcription initiation site, TIS)和多腺苷酸化位点(PAS)结合的转录本单位。为此, 开发了一对互补的方法,即5'LongSAGE (基因表达的长系列分析)和 3,LongSAGE (Wei et al., 2004,参见以上)。所述方法基于原始SAGE (基因 表达的系列分析)和LongSAGE方法,所述LongSAGE方法利用典型的全 长cDNA克隆技术以能够高通量地提取每个转录本的最初的20个碱基对 (bp)和最后的20个碱基对(bp)。将5,禾卩3, LongSAGE标记定位于基因 组能够定位TIS和PAS。然而,使得自基因组序列中同样转录本的5'和3'标记匹配并不总是直截 了当的,有时可以十分模糊。 一种解决方案是通过使5,和3,标记相互连接来 克隆相同转录本的5'和3,标记。为了实现上述方案,包括克隆适配体(adapter)和载体的特别设计的装置将得自相同转录本的5'标记和3'标记连 接到双标记中。使用代表个体转录本的每个双标记,可以将多个双标记连接来用于克隆 和测序。不像单一的标记序列,当在基因组序列中定位时,可以用精确限定 的转录本框将成对的双标记序列特定地增殖。该方法命名为基因鉴别标签 (GIS)分析,其可以准确对由基因或基因的核酸分子或它们的片段编码的 转录本单位的5,和3,末端进行定位,在公开号为US 2005/0059022的美国专 利申请中得以描述(其全部内容此处并入作为参考)。图1和图2中展示了 GIS分析(也被称为GIS技术或方法)的例子。根 据GIS分析的具体方面,常规的cap-trapper法应用于富集在cDNA片段的每 一末端具有Mmel限制位点的全长cDNA和合并的适配体序列。然后在克隆 载体中克隆cDNA片段以构建GISflcDNA (全长cDNA)库。然而,GIS方 法不限于flcDNA,而是可以用于任何核酸分子或其片段,例如用于部分基 因组。从所述库中制备的质粒被Mmel (II型限制酶)消化并在其结合位点 下游20bp处断裂。然而,任何识别不对称限制位点的限制酶可以用在GIS 方法中。特别地,可以使用任何适于GIS方法目的的II型限制酶。消化之后, 用已知的克隆载体,将库的flcDNA嵌入物从质粒上放出,以留下5,和3,末 端的18bp标签。载体的再环化将产生GIS单一双标记库。然后将所述库的 双标记切下来并纯化用于多联体化和克隆以产生最终用于测序分析的GIS 双标记库。通常GIS双标记克隆的每一序列读取展示15个双标记。双标记 序列的每一单位包括至少为16个碱基对(bp)的5'末端标签和至少为14个 碱基对(bp)的3'末端标签,具有间隔子以间隔开一个双标记序列与另一个 双标记序列。特别地,所述双标记包括18bp的5'末端标签和18bp的3'末 端标签。更特别地,所述双标记包括18 bp的5'末端标签和16 bp的3'末端 标签。间隔子序列的长度取决于所使用的酶或者取决于所使用的实验条件,例如所述间隔子可以为12bp。因此包括GIS双标记(也简略表示为双标记)的库可以如以上所述建立。 然后对包括双标记的所述库的核酸分子的序列进行测序。所述序列信息可以 在一个或多个数据库中采集。然而,目前还没有公开有效的方法用于从所述 库中选择双标记序列,也没有公开双标记数据库的构建。而且,双标记需要定位以发现它们在基因组上对应的基因。然而没有具 体公开用于双标记的定位方法。再者,没有现成的容易适用于将双标记序列 定位于基因组的计算机算法。因此,本发明提供了对双标记序列进行处理的新的方法和/或系统。进 而,本发明提供了用于将双标记核苷酸序列定位于基因组的方法和/或系统。 根据具体的方面,本发明的方法和系统将用具体的参考得以解释,但不限于称为GISditagTool的方法和系统。特别地,GISditagTool将参考图10至图 20得到更详细地解释。根据第一方面,本发明提供了一种对双标记核苷酸序列进行处理的方 法,该双标记序列包括核酸分子或核酸分子的片段或者基因组片段的5'末端 标记和3'末端标记,该方法包括建立至少包括一种双标记序列的数据库或文 件。根据具体的方面,所述双标记序列的数据库或文件是通过从包括双标记 的至少一个库的序列中提取双标记序列而建立的。所述库可以为包括至少一种双标记序列的核酸序列库。所述库可以包括 至少一种双标记多联体(concatemer)。特别地,所述多联体包括一种或多种 双标记。更特别地是,双标记库的每个双标记序列以间隔子核苷酸序列为侧 翼,并且通过输入间隔子核苷酸序列从所述库中提取双标记序列。当所述双 标记库包括至少一种两个或两个以上双标记的多联体时,所述多联体在5'-3'方向上包括第一个双标记上游侧翼的间隔子、最后一个双标记下游侧翼的间隔子,并且其中每两个相邻双标记被位于它们之间的间隔子间隔开。在图19 中表示了带侧翼的且被间隔子序列间隔开的双标记多联体的例子。5'侧翼间 隔子和/或3'侧翼间隔子的长度可以不同。特别地,它们的长度可以在双标 记的多联体之间或者一个库或者更多库的双标记的多联体内变化。双标记的 库可以包括一种或多种间隔子序列,每个间隔子序列的核苷酸序列与其它间 隔子序列不同。间隔子序列的大小(以碱基对计)以及它们的核苷酸序列可 以取决于在所述库的建立中所使用的限制酶。也取决于所使用的实验条件。 进而,不同的间隔子序列可以用于构建不同的库、不同的组织、不同的物种、 不同的多联体等。在图19中,提供了双标记多联体中双标记与间隔子的排列例子。特别地,图19显示了双标记以间隔子为侧翼并由间隔子间隔。特别地,在图19 中显示的所使用的间隔子都具有相同的核苷酸序列和12bp的大小。然而, 也可以使用具有互不相同的核苷酸序列的间隔子。在5,-3'方向上,图19显 示了载体部分(58bp),以第一间隔子为侧翼。第一间隔子为第一双标记 (38bp)上游的侧翼。第一双标记(38bp)和第二双标记(37bp)通过间隔 子间隔开。同样的情况直至右边的双标记。然后第八双标记(36bp)的下游 接着(为侧翼)最末间隔子,其下游以载体(52bp)部分为侧翼。对本领域 技术人员很明显,多联体可以包括数目可变的双标记,其并不限于在图19 中作为例子的8个双标记。而且,还可以使用一个或多个具有互不相同的核 苷酸序列的间隔子。如上述所解释的,所述间隔子的大小也可以变化。所述库可以包括任何类型核酸的双标记序列,例如单链和/或双链的 DNA和/或RNA。双标记可以由基因或外显子的转录本制备,或者它们可以 由基因组的部分(或部位)制备。优选地,双标记由全长cDNA的5'标记和 3'标记制备。对包括双标记的库的核酸序列进行测序。 一个或多个双标记库 的这些序列可以用作提取双标记序列以及建立双标记的数据库或文件的序列源。更特别地,本发明的方法包括-提供双标记库的核苷酸序列,其中,所述双标记的库的每一双标记序 列以间隔子核苷酸序列为侧翼;以及-通过输入所述间隔子核苷酸序列来提取双标记序列,建立双标记的数 据库或文件。更特别地,通过输入下列参数来提取所述双标记序列 -至少一种间隔子核苷酸序列;-最小的双标记碱基对(bp)数目,其中,所述数目为选自32-38范围内 的数;以及-最大的双标记碱基对(bp)数目,其中,所述数目为选自36-42范围内 的数。优选地,所述最小的双标记碱基对数目为34和/或最大的双标记碱基对 数目为40。特别地,根据本发明,所述双标记序列可以包括至少为16个碱基对的5' 末端标记和至少为14个碱基对的3'末端标记。进而,所述双标记序列可以 包括基因、外显子、部分基因组、或者它们的片段的转录本的5'末端标记和 3'末端标记。更特别地,所述双标记序列可以包括全长cDNA的5'末端标记 和3'末端标记。根据另一方面,本发明的方法还包括对所述数据库或文件的双标记序列 进行质量控制检査。所述质量控制检査可以在库、板、孔、序列和/或双标记 水平上进行。所述质量控制检查可以在将双标记序列定位于基因组之前执 行。通过控制检查,操作者可以经过考虑来决定除去导致错误并且与双标记 序列不相符的序列。根据任何已知的定位方法,可以进行包括将双标记定位于基因组的步骤。特别地,本发明的方法还包括在匹配的至少一个5'末端和至少一个3' 末端之间沿着基因组序列鉴定至少一个区段;以及鉴定至少一种染色体位置、 一个基因、它们的片段,或者外显子位置。根据具体方面,本发明提供了称为SAT2G(基于后缀数组的标记至基因 组)的定位步骤,其将在以下进行更加详细的描述。根据另一方面,本发明的方法还包括将双标记定位于基因组的步骤。特 别地,所述定位的步骤包括将至少一种双标记序列定位于基因组,包括将双 标记序列的5'和3'末端标记匹配到基因组的至少一部分。更具体地,本发明提供了一种用于将双标记核苷酸序列定位于基因组的 方法,所述方法包括-建立包括至少一种双标记序列的数据库或文件,所述双标记序列包括核酸分子或核酸分子片段的5'末端标记和3'末端标记;-选择性地,对所述数据库或文件的双标记序列进行质量控制检查;以及-将至少一种双标记序列定位于基因组,包括将双标记序列的5'和3' 末端标记匹配到基因组的至少一部分。特别地,所述双标记库的每个双标记序列以间隔子核苷酸序列为侧翼并 且通过输入所述间隔子核苷酸序列从所述库中提取双标记序列。因此,本发明提供了一种将双标记定位于基因组的方法,其中,在建立数据库和/或文件的步骤中,通过输入下列参数来提取所述双标记序列-至少一种间隔子核苷酸序列;-最小的双标记碱基对(bp)数目,其中,所述数目为选自32-38范围内 的数;以及-最大的双标记碱基对(bp)数目,其中,所述数目为选自36-42范围内 的数。优选地,所述最小双标记碱基对数目为34和/或最大双标记碱基对数目为40。所述定位步骤还可以包括在匹配的至少一个5'末端和至少一个3'末端 之间沿着基因组序列鉴定至少一个区段;以及鉴定至少一种染色体位置、基 因、外显子位置,或者它们的片段。被鉴定出来的基因位置可以导致发现新 的基因位置。因此,本发明还提供了一种用于发现新基因的方法,该方法包括 -建立包括至少一种双标记序列的数据库;-将至少一种双标记序列定位于基因组,包括将双标记序列的5'和3' 末端标记匹配到基因组的至少一部分;以及-将发现的位置或序列与现有的数据库或数据进行比较,以确定发现的 位置或序列是否是新的位置和/或新的基因。特别地,根据本发明的任一方面的方法中,双标记序列包括至少为16 个碱基对(bp)的5,末端标记和至少为14个碱基对(bp)的3'末端标记。 特别地,16-18 bp。优选18 bp的5'末端标记和16 bp的3'末端标记。根据本发明的任一方面的方法中,双标记序列的提取和/或基因组定位 可以通过因特网在计算机上执行和/或通过介质支持的因特网执行。根据另一方面,本发明提供了一种用于处理双标记序列的系统。根据另 一方面,本发明还提供了一种对双标记序列进行基因组定位的系统(双标记 至基因组的定位系统)。根据具体的方面,本发明任--方面的系统也被称为 GIS双标记工具(GISditagTool)。更特别地,所述GISditagTool为软件程序 系统。可以在介质支持上提供GISditagTool,安装到硬驱动盘上,或者通过 因特网获得。因此,本发明还提供了 GISditagTool软件程序包(工具包)。因此,本发明提供了用于对双标记核苷酸序列迸行处理的系统,该系统 包括用于建立包括至少一种双标记序列的数据库或文件的至少一个模块,所述双标记序列包括核酸分子或核酸分子的片段或者基因组的片段的5'末端才示记禾口 3 '$端木示记。特别地,双标记序列的数据库和文件是通过从至少一个包括双标记序列 的库的序列中提取双标记序列而建立的。特别地,所述双标记库的每个双标记序列以间隔子核苷酸序列为侧翼并 且通过输入间隔子核苷酸序列从所述库中提取双标记序列。如上所述并具体 如图19中所示,当所述双标记库包括至少一种两个或两个以上双标记的多 联体时,所述多联体在5,-3,方向上包括第一个双标记上游侧翼的间隔子、最 后一个双标记下游侧翼的间隔子,并且每两个相邻双标记被位于它们之间的 间隔子间隔开。特别地,本发明的系统中,操作者选择至少一种链接,该链接激活所述 模块,所述模块启动至少一个用户界面,并且其中所述操作者将以下参数输 入到该用户界面-至少一种间隔子核苷酸序列;-最小的双标记碱基对(bp)数目,其中,所述数目为选自32-38范围内 的数;以及-最大的双标记碱基对(bp)数目,其中,所述数目为选自36-42范围内 的数;以及由此产生被提取的双标记的数据库或文件。优选地,所述最小的双标记碱基对数目为34和/或最大的双标记碱基对 数目为40。所述用户界面可以为图形用户界面。特别地,本发明的系统中,所述双标记序列包括基因、外显子、基因组 的一部分、或者它们的片段的转录本的5'末端标记和3'末端标记。根据另一方面,本发明的系统还包括双标记序列的数据库或文件的质量 控制模块。用于质量控制的模块可以在库、板、孔、序列和/或双标记水平上使用。所述质量控制检查可以在将双标记序列定位于基因组之前执行。由于 控制检查,操作者可以通过考虑来决定去除导致错误并且与双标记序列不相 符的序列。根据另一方面,本发明的系统还包括用于将至少一种双标记序列定位于 基因组的模块,包括将双标记序列的5'和3'末端标记匹配到基因组的至 少一部分。因此,本发明还提供了用于对双标记序列进行基因组定位的系统(双标 记至基因组的定位系统),该系统包括-用于建立(产生)包括至少一种双标记序列的数据库和/或文件的模块, 所述双标记序列包括核酸分子或核酸分子的片段的5'末端标记和3'末端 标记;-选择性地包括的用于对双标记序列的数据库或文件进行质量控制的模 块;以及-另外的用于将至少一种双标记序列定位于基因组的模块,包括将双标 记序列的5'和3'末端标记匹配到基因组的至少一部分。 根据另一方面,本发明的系统至少包括-第一用户界面,该第一用户界面至少包括用于提取(提取器)双标记 序列的链接以及用于将双标记定位于基因组的链接;-第二用户界面,该第二用户界面由操作者通过选择或点击提取器而被 激活,第二用户界面包括用于输入最小的双标记碱基对(bp)数目、最大的 标记碱基对(bp)数目、以及至少一种间隔子序列的核苷酸序列的字段 (field);-第三用户界面,该第三用户界面用于将双标记序列定位于基因组或染 色体位置;以及-第四用户界面,该第四用户界面显示定位结果,其中,所述双标记与基因组比对。根据本发明任一方面的系统可以通过操作者在电脑上操作,并且所述操 作通过因特网在计算机和/或介质支持的计算机上执行。根据另一方面,本发明提供了一种包括计算机程序的计算机可读介质, 该计算机程序与计算机联合时是可操作的,并且其中所述计算机程序包括本 发明任一方面的系统。定位步骤将双标记定位于基因组类似于在基因组序列中检索模式的发生率(occurrence)。用于模式检索(pattern searching)的方法包括常规的局部比 对检索工具(basic local alignment search tool, BLAST)和类似BLAST的比 对工具(BLAST-like alignment tool, BLAT)的方法。BLAST禾卩BLAT方法都很慢,因为它们的每一个都需要通过扫描全部基因组检索到的模式。而且 如果要求具有小的错配容限的模式的确切发生率,通常应用常规的全文索引 (full-text indexing)。有效的全文索引的数据结构包括后缀树和后缀数组。如上所述,可以使用任何已知的定位方法。然而,根据具体实施方式
, 为了调整双标记数据,基于标记至基因组的后缀数组(SAT2G)算法可以用 于将双标记序列定位于基因组序列,所述基因组序列在高级数据结构压缩后 缀数组(Compressed Suffix Array, CSA)上建立并索引。图5中展示了使用 SAT2G将GIS双标记(PET)定位于基因组的示意性例子。所述SAT2G系 统在图6至图8中更详细地公开。因此,根据本发明的一个方面,本发明的方法或系统还提供了包括以下 步骤的定位方法和/或系统-建立包括至少一种双标记序列的数据库,所述双标记序列包括来自核 酸分子或其片段的5'末端标记和3'末端标记,例如来自基因转录本;-将5'末端标记匹配到基因组序列的至少一部分以由此从基因组序列中鉴定出至少一个5'位点,至少一个5'位点的每个都具有与5'末端标记匹配的序列;-将3'末端标记匹配到基因组序列的至少一部分以由此从基因组序列中 鉴定出至少一个3'位点,至少一个3'位点的每个都具有与3'末端标记匹配的 序列;-鉴别至少一段存在的区段,所述至少一段存在的区段的每段为沿着基 因组序列在所述至少一个5'位点之一和至少一个3'位点之一之间的序列 区段,所述至少一段存在的区段的每段都具有序列长度;以及-鉴别至少一个可行的基因位置,所述可行的基因位置的每个为所述至 少一种存在的区段之一,所述区段的序列长度不超过预定的基因长度。在核酸(例如转录本)定位方法中,所述将5'末端标记匹配到基因组 序列的至少一部分的步骤可以包括以下步骤-将5'末端标记匹配到染色体序列。在定位方法中,所述将3'末端标记匹配到基因组序列的至少一部分的 步骤可以包括以下步骤-将3'末端标记匹配到染色体序列。所述转录本定位方法还可以包括产生用于索引基因组序列的数据结构 的步骤。所述定位方法还可以包括产生用于索引基因组序列的树形结构和有序 数组中的至少一种的步骤。所述定位方法还可以包括产生用于索引基因组序列的后缀数组、后缀 树、二叉树和压缩后缀数组中的至少一种的步骤。在所述定位方法中,将5'末端标记匹配到基因组序列的至少一部分的 步骤可以包括以下步骤-正向通过(traversing)或反向通过基因组序列中的至少一种,用于将5'末端标记与基因组序列的至少一部分进行比较以得到至少一个5'位点。在所述转录本定位方法中,所述将3'末端标记匹配到基因组序列的至 少一部分的步骤可以包括以下步骤-正向通过(traversing)或反向通过基因组序列中的至少一种,用于将3' 末端标记与基因组序列的至少一部分进行比较以得到至少一个3'位点。在所述转录本定位方法中,鉴定至少一种可行的基因位置的步骤可以包 括将至少一段存在的区段的每段以及其相应的至少一个5'位点之一和至少 一个3'位点之一的序列顺序与基因组序列的至少一部分进行比较的步骤, 用于从中得到至少一个可行的基因位置。在转录本定位方法中,将至少一段存在的区段的每段以及其相应的至少 一个5'位点之一和至少一个3'位点之一的序列顺序进行比较的步骤,可 以包括比较至少一段存在的区段的每段以及其相应的至少一个5'位点之一 和至少一个3'位点之一的序列顺序,与5'-存在的区段-3'结构一致。在转录本定位方法中,所述鉴定至少一种可行的基因位置的步骤可以包 括鉴定至少一段存在的区段的每段的5,-3,方向的步骤,用于从它们中得到至少一个可行的基因位置。在转录本定位方法中,所述鉴定5'-3'方向的步骤可以包括鉴定残基AA 核苷酸(residual AA nucleotide)的步骤,所述残基AA核苷酸构成了 3'末端标记的一部分。在转录本定位方法中,所述鉴定至少一种可行的基因位置的步骤可以包 括以下步骤-鉴定染色体,其中将与存在的每个区段相对应的至少一个5'位点之一 和至少一个3'位点之一中的每一位点进行定位,用于从中鉴定至少一个可 行的基因位置。在转录本定位方法中,所述将5'末端标记匹配到基因组序列的至少一部分的步骤可以包括以下步骤-鉴定所述至少一个5'位点的量,以及将3'末端标记匹配到基因组序列的至少一部分的步骤包括以下步骤 -鉴定所述至少一个3'位点的量。在转录本定位方法中,所述鉴定至少一段存在的区段的步骤可以包括以 下步骤-从至少一个5'位点的每个朝向两个末端之一沿着基因组序列往返移动(traverse),用于鉴定至少一个3'位点的至少一个。在转录本定位方法中,所述鉴定至少一种可行的基因位置的步骤可以包 括以下步骤-作为对用于至少一个5'位点的每个鉴定到至少一个可行的基因位置之 一的回应,结束沿着基因组序列的往返移动(tmversal)。在转录本定位方法中,所述鉴定至少一段存在的区段的步骤可以包括以 下步骤-从至少一个3'位点的每个朝向两个末端之一沿着基因组序列往返移 动,用于鉴定至少一个5'位点的至少一个。在转录本定位方法中,所述鉴定至少一种可行的基因位置的步骤可以包括以下步骤-作为对用于至少一个3'位点的每个鉴定到至少一个可行的基因位置之 一的回应,结束沿着基因组序列的往返移动。根据本发明的另一方面,提供了一种定位系统,该系统包括 -用于通过提取至少一种双标记而建立数据库的装置,所述双标记包括来自核酸分子或核酸分子片段的5,末端标记和3'末端标记,例如来自基因的 转录本;-用于将5'末端标记匹配到基因组序列的至少一部分以由此从中鉴定至少一个5'位点的装置,所述至少一个5'位点的每个具有与5'末端标记相 匹配的序列;-用于将3'末端标记匹配到基因组序列的至少一部分以由此从中鉴定至 少一个3'位点的装置,所述至少一个3'位点的每个具有与3'末端标记相 匹配的序列;-用于鉴定至少一段存在的区段的装置,所述至少一段存在的区段的每 个为沿着基因组序列在至少一个5'位点之一和至少一个3'位点之一之间 的序列区段,所述至少一段存在的区段的每个具有序列长度;以及-用于鉴别至少一个可行的基因位置的装置,所述可行的基因位置为所 述至少一段存在的区段之一,所述区段的序列长度不超过预定的基因长度。在所述定位系统中,所述用于鉴别5'末端标记和3'末端标记的装置可以 包括-用于提供具有至少16个碱基对的核苷酸序列的装置,用于形成5'末端 标记;以及-用于提供具有至少16个碱基对的核苷酸序列的装置,用于形成3'末端标记。在所述定位系统中,用于将5'末端标记匹配到基因组序列的至少一部分的装置可以包括-用于将5'末端标记匹配到染色体序列的装置。在所述定位系统中,用于将3'末端标记匹配到基因组序列的至少一部分的装置可以包括-用于将3'末端标记匹配到染色体序列的装置。所述定位系统还可以包括-用于产生数据结构的装置,用于索引基因组序列。 所述定位系统还可以包括-用于产生树形结构和有序数组中的至少一种的装置,用于索引基因组 序列。所述定位系统还可以包括-用于产生后缀数组、后缀树、二叉树和压縮后缀数组至少一种的装置, 用于索引基因组序列。在所述定位系统中,用于将5'末端标记匹配到基因组序列的至少一部 分的装置可以包括-用于正向通过和反向通过基因组序列中的至少一种的装置,用于将5' 末端标记和基因组序列的至少一部分进行比较以得到至少一个5'位点。在所述定位系统中,用于将3'末端标记匹配到基因组序列的至少一部 分的装置可以包括-用于正向通过和反向通过基因组序列中的至少一种的装置,用于将3' 末端标记和基因组序列的至少一部分进行比较以得到至少一个3'位点。在所述定位系统中,用于鉴定至少一个可行的基因位置的装置可以包括-用于将至少一段存在的区段的每段以及其相应的至少一个5'位点之一 和至少一个3'位点之一的序列顺序与基因组序列的至少一部分进行比较的 装置,用于从中得到至少一个可行的基因位置。在所述定位系统中,用于将至少一段存在的区段的每段以及其相应的至少一个5'位点之一和至少一个3'位点之一的序列顺序进行比较的装置可 以包括至少一段存在的区段的每段以及与其相应的至少一个5'位点之一和 至少一个3'位点之一的序列顺序进行比较的装置,与5'-存在的区段-3'结构一致。在所述定位系统中,用于鉴定至少一个可行的基因位置的装置可以包括-用于鉴定至少一段存在的区段的每个的5'-3'方向的装置,用于从中得 到至少一种可行的基因位置。在所述定位系统中,用于鉴定至少一段存在的区段的每个的5'-3'方向的 装置可以包括-用于鉴定残基AA核苷酸(residual AA nucleotide)的装置,所述氨基 酸残基核苷酸构成了 3'末端标记的一部分。在所述定位系统中,用于鉴定至少一个可行的基因位置的装置可以包括-用于鉴定染色体的装置,其中与存在的区段的每个相对应的至少一个 5'位点之一和至少一个3'位点之一中的每一位点得到定位,用于从中鉴定 至少一个基因位置。在所述定位系统中,用于将5'末端标记匹配到基因组序列的至少一部 分的装置可以包括-用于鉴定至少一种5'位点的量的装置,以及用于将3'末端标记匹配到基因组序列的至少一部分的装置包括-用于鉴定至少一种3'位点的量的装置。在所述定位系统中,用于鉴定至少一段存在的区段的装置可以包括 -用于从至少一个5'位点的每个朝向两个末端之一沿着基因组序列往返 移动的装置,用于鉴定所述至少一个3'位点的至少一个。在所述定位系统中,所述鉴定至少一个可行的基因位置的装置可以包括-用于作为对用于至少一个5'位点的每个鉴定到至少一个可行的基因位置之一的回应,结束沿着基因组序列的往返移动的装置。在所述定位系统中,所述用于鉴定至少一段存在的区段的装置可以包括-用于从至少一个3'位点的每个朝向两个末端之一沿着基因组序列往返移动的装置,用于鉴定所述至少一个5'位点的至少一个。在所述定位系统中,所述用于鉴定至少一个可行的基因位置的装置可以 包括-用于作为对用于至少一个3'位点的每个鉴定到至少一个可行的基因位 置之一的回应,结束沿着基因组序列的往返移动的装置。根据本发明的另一方面,提供了一种定位方法,该方法包括下列步骤-建立双标记的数据库,包括提取至少一种双标记,例如来自双标记库 或来自现有的双标记数据库,所述双标记序列包括来自核酸分子或核酸分子 的片段的5'末端标记和3'末端标记,例如来自基因转录本;-将5'末端标记匹配到基因组序列的至少一部分以由此从基因组序列中 鉴定出至少一个5'位点,至少一个5,位点的每个都具有与5'末端标记匹配的 序列;-将3'末端标记匹配到基因组序列的至少一部分以由此从基因组序列中 鉴定出至少一个3'位点,至少一个3'位点的每个都具有与3'末端标记匹配的序列;-鉴别至少一段存在的区段,所述至少一段存在的区段的每段为在所述 至少一个5'位点之一和至少一个3'位点之一之间沿着基因组序列的序列 区段,所述至少一段存在的区段的每段都具有序列长度;以及-从至少一种存在的区段鉴定出至少一种可行的基因位置,每-一至少一 种所述可行的基因位置为至少一种序列长度不超过该区段预定的基因长度 的所述至少一种存在的区段之一,它的序列顺序以及其中对应的与5'-存在 的区段-3'结构一致的至少一个5'位点之一和至少一个3'位点之一跟基因组 序列相应部分的序列顺序相匹配,5'位点与其中对应的至少一个5'位点之一 以及至少一个3,位点之一具有5,-3'取向,并且与每一存在的区段相对应的至少一个5,位点之一以及至少一个3'位点之一被定位于同一染色体中。根据以上所述,有效全正文索引数据-结构包括后缀树和后缀数组。后 缀树为树样数据结构,具有起源于根的分枝,每个分枝结束于编码基因组序 列后缀的叶。所述后缀数组是根据字典编辑顺序对所有基因组的后缀分类的序列。所述后缀数组表示为数组SA[i],其中i^…n并且SA[i] =j表示j-后缀(j-SuffDC)(从字母j开始的后缀)在字典编辑顺序中为第i个最小后缀。后缀树和后缀数组都允许快速模式检索。给定长度X的模式(pattern), 对于后缀树和后缀数组,它在基因组G[l...n]中的存在可以分别在O(x)时间 和O(x log n)时间内得到报告。虽然询问时间很快,但建立后缀树和后缀数 组不总是可行的,因为它们需要很大空间。例如,对于小鼠基因组,所述后 缀数和后缀数组分别需要40千兆字节(Gigabytes, GB)禾卩13GB。所述存 储要求远远超过了普通电脑的存储能力。为了解决存储空间问题,我们使用 了空间有效的压縮后缀数组(compressed suffix array, CSA)索引数据结构。 CSA是后缀数组的压缩形式。其可以得到有效建立而没有了使用己知算法时 的巨大存储要求。同时,建立好的CSA非常小。例如鼠基因组(mm3)的 CSA只占大约1.3GB。此外,CSA也能够支持有效检索。长度X的检索方 式只需要O(x logn)时间。本发明的第一种实施方式,参考图3描述转录本定位方法20,图3显示 了转录本定位方法100的过程流程图。转录本定位方法100用于从基因获得 转录本。从图4中可以看出,在转录本定位方法100的步骤110中,从转录 本获得5'末端标记24和3'末端标记26。结合起来,5'末端标记24和3'末端标记26形成如上所述的GIS双标记 30并在图4中得到展示。GIS双标记30的双标记长度32为36 bp,具有来 自5,末端标记24的18bp核苷酸序列,以及来自3'末端标记26的另外18bp 核苷酸序列。由于在分子克隆过程中某些酶的变异,GIS双标记30的双标记长度32可以在34bp至38bp之间变化。变异经常发生在靠近5'末端标记24和3'末端标记26的末端,而内部的 核苷酸的结构保持不变。3'末端标记26中,两个残基核苷酸34 (AA)在从 其中除去聚合A尾的过程中被保留。该AA残基核苷酸34然后用作取向指 示子(orientation indicator)。因此在GIS双标记30中,只有16bp的3'末端 标记26可用于定位于基因组序列36。接着步骤110, 5,末端标记24和3'末端标记26的每一个在步骤112中 与基因组序列36匹配。在步骤112中,当5'末端标记24和3'末端标记26 分别与基因组序列36匹配时,5'位点38和3'位点40得到鉴定。每一 5'位 点38和每一 3'位点40是基因组序列36的一部分,具有基本上分别与5,末 端标记24和3'末端标记26匹配的序列。在步骤114中,至少一段存在的区段42从基因组序列36中鉴定出来。 每一至少一段存在的区段42是沿基因组序列36的位于一个5'位点38和一 个3'位点40之间的序列区段。每一至少一段存在的区段42具有序列长度 44。给定GIS双标记30 (P)用于转录本(R),在基因组序列36 (G)中定 位R的计算问题被称为转录本位置鉴定问题。因此给定G[l…n]和P[l…m], 鉴别存在的区段42作为P的可行性基因位置,当序列长度44 (j-i)小于 预定的基因长度(最大长度),对已知基因而言其长度通常小于1百万碱基 对;5'末端标记24和3'末端标记26分别长于预定的最小长度5和最小长度 3 (其中最小长度5 = 16 bp且最小长度3 = 14 bp);以及R的5'末端标记24 和3,末端标记26分别为?[1...必界5]和?[总界3..工]的子串(其中迈界产19 迈界尸18)。基因组序列36优选使用压缩的后缀数组(CSA)进行索引。优选通过 将二元检索(binary search)应用于压縮的后缀数组,5'末端标记24和3'末端标记26匹配于基因组序列36。用于匹配5'末端标记24和3'末端标记26 的二元检索取决于两个主题(lemmas),即主题1用于在压縮的后缀数组上 执行正向检索,主题2用于在压缩的后缀数组上执行反向检索。主题l (正向检索)给定用于基因组G[l..n]的CSA以及在G中一组 模式Q的出现,用于任何碱基ce(腺嘌呤(A)、胞嘧啶(C)、鸟嘌呤(G)、胸 腺嘧啶(T)},在0 (logn)时间内可得到一组模式Qc的出现。正向二元检 索通过改良常规的二元检索算法来完成,当与在二元检索中的模式Q比较 时,使用在压縮后缀数组和后缀数组中的值,取代用于基因组序列36内的 后缀的外在正文。主题2 (反向检索)给定用于基因组G[l..n]的CSA以及在G中一组 模式Q的出现,用于任何碱基ce(腺嘌呤(A)、胞嘧啶(C)、鸟嘌呤(G)、胸 腺嘧啶(T)},使用O (logn)时间,我们可以发现一组模式cQ的出现。图6中展示了用于正向和反向检索的伪代码(pseudo code)"Find_Sites"。 与在步骤114中先后应用正向检索和反向检索不同,可选的途径是只将主题 l的正向检索或者主题2的反向检索应用于基因组序列36以鉴定至少一段存 在的区段42。GIS双标记30可以正义或反义地出现在基因组序列36中。为说明这个 问题,对每一正义基因组序列和反义基因组序列创设了索引。可以创设反义 GIS双标记,而不是创设两个独立的索引数组。对于每一 5'末端标记24和3' 末端标记26,后缀数组在步骤110中被检索两次, 一次使用正义GIS双标 记30,第二次使用反义GIS双标记(未标识)。此外,基因组序列36可以被天然地分配到多条染色体中。这使得对于 每一染色体的序列区段创设出压縮的后缀数组。通过这样做,对于具体的染 色体而不是整个基因组序列36,可获得5'位点38和3'位点40。除了压缩的后缀数组、后缀数组、后缀树、二元的或者其它,索引数据结构可以用于索引如上所述的基因组序列36。接着步骤114, 5'位点38和3'位点40经历用于鉴定可行基因位置的系 列检査。所述检査包括长度、位置、方向以及顺序检查。在步骤116中,通过将每一至少一段存在的区段42的序列长度44与步 骤116中预定的基因长度进行比较,执行长度检查。起初,优选以升序对5' 位点38和3'位点40进行分类。然后,序列长度44不超过预先定义的基因 长度(最大长度)的每一至少一段存在的区段42被鉴定为潜在的可行基因 位置。图7中展示了用于步骤116的伪代码"Match—sites—1"。在步骤118中,进行定位检査,由此分析对应于每一至少一段存在的区 段42的5'位点38和3'位点40,以鉴定它们中的每一个定位于哪条染色体 内。只有当存在的区段42的5,位点38和3'位点40属于同一染色体时,存 在的区段42才鉴定潜在的可行基因位置。步骤120中,通过鉴定相对于每一存在的区段42的5'位点38和3'位点 40的方向,进行方向检査。5'位点38和3'位点的取向通过确定残基核苷酸 34的位置可以得到鉴定。优选地,5'位点38和3'位点40对于它们的存在的 区段42具有5,-3'的取向以鉴定潜在的可行基因位置。在步骤122中,通过将每一存在的区段42以及相应的5'位点38和3' 位点40与基因组序列36进行比较,进行顺序检査。优选地,每一存在的区 段42以及相应的5'位点38和3'位点40的排序应遵循用于成为潜在可行位 点的5'-存在的区段-3'结构。转录本定位方法的步骤116-122可以联合地或独立地发生在任何序列中。在没有从GIS双标记30发现可行的基因位置的情况下,当在步骤112 中将3'末端标记26匹配到基因序列36时,放宽限制以允许至少一个错配。 可选择地,在步骤112中5'位点38和3'位点40匹配到基因组序列36之前,可以首先获得5'位点38的量和3'位点40的量。这样能鉴定5'位点 38和3'位点40之间的量的差异,例如当只存在少于10个的5'位点38和多 于好几万的3'位点40时,或者反之亦然。当5'位点38和3'位点40之间存在巨大的量的差异时,所述转录本定位 方法20经历在基因组序列36中过剩定位的多重迭代。因此,当产生巨大的 量的差异时,转录本定位方法100需要改进的方法。为了鉴定该量的差异, 差异条件确定如下i^ iifis阈值。阈值5,3— 计数3 其中,计数5为5,位点38的量,计数3为3,位点40的量,并且阈值u为预定的阈值,例如阈值5,产10000,用于限定计数5和计数3之间的定量差异。无需枚举任何5'位点38或任何3'位点,CSA能够获得计数5和计数3二者。在满足上述差异条件时,应用图8的伪代码"Match—sites—2"中描述的 方法。在伪代码"Match—sites—2"中,在基因组序列36中定位所需要的迭代 的数目由计数5和计数3中较小的一个决定。例如,如果只存在两个5'位点 38,在基因组序列36中定位或沿着基因组序列36往返移动只迭代两次以获 得相应的3,位点40之一,对两个5'位点38的每一个迭代一次,用于从它 们中获得存在的区段42。然而,如果不满足上述差异条件,计数5和计数3之间量的差异不大, 因此转录本定位方法100复原成"Match—sites—l"所述的方法用于获得存在的 区段42。在上述的方式中,描述了根据本发明的一个实施方式的转录本定位方 法,用于阐明常规定位方法的前述缺点。虽然本发明只公幵了一种实施方式, 但是本领域技术人员能够在不背离本发明范围和精神的情况下很容易进行很多变化和/或改进。现已对本发明进行了一般描述,通过参考有关GISditagTool的具体实施 例,在下列以图解方式提供的附图的辅助下本发明将更容易被理解,并且所 述具体实施例和附图并不是为了限定本发明。GISditagTool-系统和方法1、 数据管理(Data Management)为了满足大规模数据分析的要求,数据和结果以项目、库、板和孔的分 级结构进行组织,附上作用(action)记录和它们对应的参数(图9)。基于 数据特征,可以使用平面文件系统和关系数据库管理系统(RDBMS)的杂 交体(hybrid)。上传的序列读数可以用记录在关系数据库管理系统中的位置 索引存储为平面文件以支持快速检索。剩余的信息和处理的结果可以保留在 RDBMS以便咨询。所述信息和结果包括各种统计结果、处理结果、追踪属 性以及定位结果。图10中展示了 GISditagTool模块和mySQL数据库。GISditagTool可以 包括一个或多个模块。特别地,GISditagTool可以包括两个或两个以上模块, 例如,四个模块即项目模块、提取器模块、检查器模块和定位模块。它们 中的每一个用于不同的目的项目用于组建数据和文件;提取器用于提取双 标记;检査器用于质量控制;以及定位用于标记至基因组的定位。mySQL 合理的数据库(DB)管理系统提供了用于那些模块之间的活动的从容运输 (trafficking);2、 GIS双标记(PET)分析工作流程、方法和系统完整的GIS双标记分析工作流程包括,例如,五个连续的步骤1)用 户创建项目,然后在项目中创建一个库或者多个库。输入具体的库信息包括 提取和定位的参数。2)从局域终端将单一或多个文件中的序列上传至相应 的库,并且使用事先定义的参数从所述序列中提取双标记。3)可以在项目、库、板、孔/序列、或者双标记水平上进行质量控制(QC)。 4)然后用UCSC基因组数据库对双标记对进行定位,例如通过使用SAT2G,并且定位结果以 UCSC图像形式展示。5)用定位结果对相应的数据库的双标记进行注释。步骤l-4分别由GISditagTool用项目模块、提取器模块、检査器模块和 定位模块进行。步骤5可以并入GISditagTool或者作为补充的独立的步骤执 行。GISditagTool模块的流程图如图11至图14所示。具体地,图11显示了 项目模块的流程图,图12显示了提取器模块的流程图,图13显示了检査器 模块的流程图,以及图14显示了定位模块的流程图。3、双标记提取提取器模块的流程图如图11所示。图15中展示了 GISditagTool的提取 及质量控制窗口和用户界面。序列读数可以通过提取器模块(B)(在图16 也有显示)被上传来用于提取双标记。提取参数可以在此阶段得到修改。QC 依次进行。图15最上面的面板(A)显示所有项目的统计(在图16也有显 示)。当激活检查器模块时,用于所有库的双标记统计得到展示(C)。点击 库、库中的板,以及接着板中的孔,用户能分别评估板(D)、孔(E)和序 列(F)的质量。输入序列(以fasta格式)用phredPhrap进行碱基命名和评测以保证质 量。所述fasta格式为科学团体在处理科学数据时使用的主要格式 (http:〃ngfnblast.gbf.de/docs/fasta.html)。 Phred禾口 Phrap由Phil Green's小组 在华盛顿大学制出,并不断提高或改良(http:〃www.phrap.org/phredphrap/ phrap.html)。序列ID —般包括库、板、孑L、测序引物等信息,以制成唯一 的组合;然而顺序和特性可以在不同机构中变化。为了调整不同联盟的命名 规则,系统为每个联盟存储了命名的Perl小片,用于合适的序列ID检索。 在双标记提取过程中,新的唯一双标记用增大的运行序号进行分配,以避免ID与在将来上传中可以被提取的双标记冲突。提取算法包括下列选择标准 或参数最小双标记长度,34bp;最大双标记长度,40bp;最大序列长度,1000bp;以及确定的5'、 3'和间隔所述双标记的内部间隔子序列(图15-B)。 所有合格的双标记在3'末端应该具有AA-尾。我们将以"TT"开始的双标 记倒转到它们各自的互补链,因为它们从相反的链进行测序。去除了在'或3' 标记区域内含有多聚腺苷酸(9 bp)或者多聚胸腺嘧啶(9bp)的双标记,因 为它们或者是污染的序列,或者是真实序列但具有潜在的定位难度。含有"N" 的双标记也被去除。最后去除AA-尾以防止在定位中的复杂化。4、 质量检査质量检査是为了在各种水平上对提取结果进行评估,以提供可以帮助在 湿实验室材料(wet-labmaterial)、实验设计或技术中精确地找到问题的线索。 其通过使用"检査器"模块执行。在项目水平上(图15A),其展示了每个 项目的项目开始时间、总的好的读数(total good read)和总双标记。在库水 平上(图15-C和图17-C),所述界面展示了有关好的读数(good read)的总 数、唯一双标记和每库己经被提取的总双标记的信息。快速浏览可以确定库 的状态和性能以及各种库之间的差异。为了更深层次的质量检査,允许用户 点击具体的库以显示该库中所有的板(图15-D和17-D)。这里,统计以板 为基准。如果用户对质量不满意,用户可以删除任何板并且系统将立即更新 变化。当选择了具体的板,GISditagTool显示所有384个孔的生动视图(代 表相应的序列),其上显示了被提取双标记的数目(图15-E和图18-E)。点 击孔,用户可以更近地观看5'和3'侧翼序列、间隔子以及合格及不合格两种 双标记的分布。5、 定位因SAT2G的速度和精度,本发明的发明人采用了 SAT2G用于定位。本 发明的发明人将5,标记的亚序列(subsequence)定义为第一18士lbp,并允许它们起始于位置1、 2或3。双标记其余的部分形成3'标记的亚序列。这些亚序列独立地定位于基因组数据库。然后5'比对与3,比对配对以鉴定可行 的基因组靶(图5)。成功的配对必须满足以下标准5'和3'比对必须在同一 染色体、同一链、同一方向上,在一百万bp距离内,并且在5,接着3,的顺 序中;5'和3'比对分别需要有至少16和14bp的完全匹配。没有成功配对的 双标记收集到PET0中,单一配对的在PET 1中,双重配对的在PET 2中等 (图20G)。如所期待的,上述参数设定将把非标准处理(例如反剪接)产 生的双标记推入PETO类别;然而所述双标记可以在以后从PETO中回收用 于进一步分析。定位出的位置可以链接到局域或遥远的用于基因注释和其他相关信息 的UCSC基因组浏览器(图20-H)。可选地,用户可以用其他数据库进行进 一步分析。在我们的情况下,这些双标记使用具有镜像UCSC注释数据库的 T2G流水线进一步与基因或转录本联合。这些联合可以使用局域化的UCSC 基因组浏览器从T2G网址获得。RDBMS中的双标记的提取和/或存储以及用SAT2G的基因组定位与 GISditagTool的功能相关。RDBMS提供了快速有效的数据运输。SAT2G对 GISditagTool的强大定位能力作出贡献。对于BLAST (不配对),用常规的 750兆赫的Solaris机器处理100K双标记将需要大约2个月,而CSA在相同 或详细的定位标准下运行只花几个小时。所述速度允许有效数据分析。除此 之外,GISditagTool允许和支持每个双标记库对不同基因组组合的定位。用 户可以使用新近可供的基因组组合,同时保留早期定位用于比较。直接的 PET至基因组的定位途径不仅绕开对病毒数据库的需要,它还允许发现新的 基因,因为染色体定位可以被连接到库中用于进一步挖掘数据。6、结果本发明的发明人具有如此开发的GISditagTool,其为用于大规模双标记(PET)加工以及基因组定位的多组件、基于网络、数据库支持(例如mySQL-支持)的应用程序。其包括两个或两个以上的模块,优选四个模块用于数 据组建的项目模块、用于双标记提取的提取器模块、用于质量检查的检査器 模块,以及使用定位系统例如SAT2G(基于标记对基因组的后缀数组)的用 于鉴定PET的染色体位置的定位模块。可以在库、板、孔、序列和双标记水 平上评估数据的质量。它有能力提取一百万个PET并在一天内完成基因定 位。定位结果可以展示在任何已知基因组浏览器中,例如,加州大学圣克鲁 兹分校(UC Santa Cruz, UCSC)基因浏览器。新型GISditagTool技术要求参数形式的用于PET提取的新算法。所述参 数至少包括最小双标记长度、最大双标记长度以及间隔子序列。提取后, 我们预期选择直接的PET至基因组的注释途径,并将该算法整合到软件程序 包中。GISditagTool已经被用于分析超过20个产生自各种生物体的库。使用小 鼠胚胎肝细胞系作为例子,从37,754个序列读数中提取总共248,234个双标 记,相当于135,328个唯一的双标记。不允许错配,71.90%的总双标记已经 成功定位于UCSC小鼠基因组组合(assembly) mm3的位置中,52.29%的总 双标记具有单一的定位位置。在实践中已证明,GISditagTool具有超常且可 信的性能,并且是非常用户友好的。
权利要求
1. 一种处理双标记核苷酸序列的方法,该双标记序列包括核酸分子、核酸分子片段、或者基因组片段的5’末端标记和3’末端标记,该方法包括建立包括至少一种双标记序列的数据库或文件。
2、 根据权利要求1所述的方法,其中,所述双标记序列的数据库或文 件是通过从至少一个包括双标记的库的序列中提取双标记序列而建立的。
3、 根据权利要求1或2所述的方法,其中,双标记库的每个双标记序 列以间隔子核苷酸序列为侧翼,并且通过输入所述间隔子核苷酸序列而从所 述库中提取双标记序列。
4、 根据权利要求1-3中任意一项所述的方法,其中,所述双标记库包 括至少一种两个或两个以上双标记的多联体,所述多联体在5,-3,方向上包括 第一个双标记上游侧翼的间隔子、最后一个双标记下游侧翼的间隔子,并且 其中每两个相邻双标记被位于它们之间的间隔子间隔开。
5、 根据权利要求3或4所述的方法,其中,所述双标记库包括一种或 多种间隔子序列,每个间隔子序列具有与其它间隔子序列不同的核苷酸序 列。
6、 根据权利要求1-5中任意一项所述的方法,该方法包括 -由双标记库提供核苷酸序列,其中,所述双标记库的每个双标记序列以间隔子核苷酸序列为侧翼;以及-通过输入所述间隔子核苷酸序列来提取所述双标记序列,以建立双标 记的数据库或文件。
7、 根据权利要求1-6中任意一项所述的方法,其中,通过输入下列参数来提取所述双标记序列-至少一种间隔子核苷酸序列;-最小的双标记碱基对数目,其中,该数目为选自32-38范围内的数;以及-最大的双标记碱基对数目,其中,该数目为选自36-42范围内的数。
8、 根据权利要求7所述的方法,其中,所述最小的双标记碱基对数目 为34和/或所述最大的双标记碱基对数目为40。
9、 根据权利要求1-8中任意一项所述的方法,其中,所述双标记序列 包括基因、外显子、部分基因组、或者它们的片段的转录本的5'末端标记和 3'末端标记。
10、 根据权利要求1-9中任意一项所述的方法,其中,所述双标记序列 包括全长cDNA的5'末端标记和3'末端标记。
11、 根据权利要求1-10中任意一项所述的方法,其中,所述双标记序 列包括至少为16个碱基对的5'末端标记和至少为14个碱基对的3'末端标 记。
12、 根据权利要求1-11中任意一项所述的方法,其中,该方法还包括 对所述数据库或文件的双标记序列进行质量控制检查。
13、 根据权利要求1-12中任意一项所述的方法,其中,该方法用于将 双标记核苷酸序列定位于基因组,该方法包括-建立包括至少一种双标记序列的数据库或文件;以及-将至少一种双标记序列定位于基因组,包括将双标记序列的5'和3'末端标记匹配到基因组的至少一部分。
14、 根据权利要求13所述的方法,其中,双标记库的每个双标记序列 以间隔子核苷酸序列为侧翼,并且通过输入所述间隔子核苷酸序列而从所述 库中提取所述双标记序列。
15、 根据权利要求1-14中任意一项所述的方法,其中,通过输入下列 参数来提取所述双标记序列-至少一种间隔子核苷酸序列;-最小的双标记碱基对数目,其中,该数目为选自32-38范围内的数;以及-最大的双标记碱基对数目,其中,该数目为选自36-42范围内的数。
16、 根据权利要求13所述的方法,其中,所述定位的步骤还包括在匹 配的至少一个5'末端和至少一个3'末端之间沿着基因组序列鉴定至少一个 区段;以及鉴定至少一种染色体位置、基因、外显子位置、或者它们的片段。
17、 根据权利要求16所述的方法,其中,鉴定出的基因位置为新发现 的基因位置。
18、 根据权利要求13所述的方法,其中,所述双标记序列的提取和/或 基因组定位通过因特网在计算机上执行和/或通过介质支持的因特网执行。
19、 一种用于处理双标记核苷酸序列的系统,该系统至少包括用于建立包括至少一种双标记序列的数据库或文件的模块,所述双标记序列包括核酸 分子、核酸分子的片段或基因组的片段的5'末端标记和3'末端标记。
20. 根据权利要求19所述的系统,其中,所述双标记序列的数据库或 文件是通过至少一个包括双标记的库的序列中提取双标记序列而建立的。
21. 根据权利要求20所述的系统,其中,双标记库的每个双标记序列 以间隔子核苷酸序列为侧翼,并且通过输入所述间隔子核苷酸序列而从所述 库中提取所述双标记序列。
22. 根据权利要求21所述的系统,其中,操作者选择至少一种链接, 该链接激活模块,所述模块启动至少一个用户界面,并且其中所述操作者将 以下参数输入该用户界面-至少一种间隔子核苷酸序列;-最小的双标记碱基对数目,其中,该数目为选自32-38范围内的数;以及-最大的双标记碱基对数目,其中,该数目为选自36-42范围内的数, 由此产生被提取的双标记的数据库或文件。
23. 根据权利要求22所述的系统,其中,所述最小的双标记碱基对数 目为34和/或所述最大的双标记碱基对数目为40。
24. 根据权利要求19-23中任意一项所述的系统,其中,所述双标记序 列包括基因、外显子、部分基因组、或者它们的片段的转录本的5'末端标记 和3'末端标记。
25、 根据权利要求19-24中任意一项所述的系统,其中,所述系统还包 括双标记序列的数据库或文件的质量控制模块。
26、 根据权利要求19-25中任意一项所述的系统,其中,所述系统还包 括用于将至少一种双标记序列定位于基因组的模块,包括将双标记的5'和 3'末端标记匹配到基因组的至少一部分。
27、 根据权利要求19-26中任意一项所述的系统,其中,所述系统至少 包括-第一用户界面,该第一用户界面包括至少一个用于提取(提取器)双 标记序列的链接、以及用于将双标记定位于基因组的链接;-第二用户界面,该第二用户界面由操作者通过选择或点击所述提取器 而被激活,该第二用户界面包括用于输入最小的双标记碱基对数目、最大的 标记碱基对数目、以及至少一种间隔子序列的核苷酸序列的字段;-第三用户界面,该第三用户界面用于将双标记序列定位于基因组;以及-第四用户界面,该第四用户界面显示所述定位的结果,其中,所述双 标记与基因组进行比对。
28、 根据权利要求19-27中任意一项所述的系统,其中,所述系统能够 由操作者在电脑上操作,并且所述操作通过因特网在计算机上执行和/或通过 介质支持的因特网执行。
29、 一种包括计算机程序的计算机可读介质,该计算机程序在与计算机 关联时是可操作的,并且其中所述计算机程序包括权利要求19所述的系统。
全文摘要
本发明提供了用于对双标记核苷酸序列进行处理和/或基因组定位的方法和系统,所述双标记序列包括核酸分子、核酸分子的片段或者基因组片段的5’末端标记和3’末端标记。所述处理方法包括建立包括至少一种双标记序列的数据库或文件。所述定位的方法包括建立双标记的数据库或文件,并将至少一种双标记序列定位于基因组,包括将双标记序列的5’和3’末端标记匹配到基因组的至少一部分。
文档编号G01N33/48GK101233509SQ200680027582
公开日2008年7月30日 申请日期2006年6月12日 优先权日2005年6月14日
发明者卫嘉玲, 邱国平, 阮一骏 申请人:新加坡科技研究局
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1