专利名称:一种基于聚合酶链式反应产物测序序列分型的实现方法和系统的利记博彩app
技术领域:
本发明涉及等位基因分型技术,尤其涉及一种基于聚合酶链式反应产物测序序列 分型(Polymerase Chain Reaction Seq uencing-basedTyping,PCR-SBT)的实现方法禾口系 统。
背景技术:
HLA(Human Leucocyte Antigen,人类白细胞抗原)是迄今为止发现的多态性最 高的基因系统之一,是调控人体特异性免疫应答和决定疾病易感性个体差异的主要基因系 统,HLA与同种异体器官移植的排斥反应密切相关。目前国际标准的 HLA 分型技术为 PCR-SSP (Polymerase ChainReaction Sequence-Specific Primers,序列特异引物聚合酶链式反应),PCR-SSO (Polymerase Chain Reaction equence—SpecificOligonucleotide Probe Hybridization, 聚合酶链式反应寡核苷酸探针杂交)和PCR-SBT (Polymerase Chain Reaction Sequencing-basedTyping,基于聚合酶链式反应产物测序序列分型)。PCR-SSO的原理是设计HLA型别特异的寡核苷酸序列作为探针,把PCR产物标记, 以PCR产物(待检测基因DNA)与探针杂交,通过检测荧光信号判断HLA基因型别。缺点是 不能检测新的等位基因,分辨率不够高;检测信号是模拟信号。PCR-SSP方法通过设计出一整套等位基因组特异性引物,借助PCR技术获得HLA型 别特异的扩增产物,通过电泳直接分析带型决定HLA型别。其缺点是不易自动化;不能检测 新的等位基因;试剂盒需不断升级;检测信号是模拟信号。PCR-SBT的原理是用引物对HLA基因多态性的区域进行PCR扩增,然后对扩增产物 进行DNA测序,在计算机辅助下确定HLA等位基因型别。对于基因结构的分析,SBT是比较 直观、准确的方法。用PCR-SSP或PCR-SSO方法鉴别出新的等位基因,通常通过测序加以证实。SBT技术中,利用扩增产物对DNA测序后,需要通过软件将测序所得结果与国际组 织IMGT数据库(http://WWW. ebi. ac. uk/imgt/)中公布的HLA分型中的标准序列进行比 对;通过比对得出样品序列与标准序列的匹配率;根据匹配率高低得出样品序列的分型结 论。但是,PCR-SBT方法的设备要求高,时间和费用的消耗大,现有技术进行大范围候 选型别筛查检索时,速度慢,效率低。此外,人工辅助分型阶段,分型人员进行峰图查看时, 序列无法同步和峰图对应,而且无法通过对峰图的调节来进行查看。同时,无法实现数据结 果的备份和恢复,容易造成数据的丢失。
发明内容
本发明要解决的一个技术问题是提供一种基于聚合酶链式反应产物测序序列分型的实现方法和系统,特别是一种HLA基于聚合酶链式反应产物测序序列分型的实现方法 和系统,可以提高分型速度和效率。本发明提供一种基于聚合酶链式反应产物测序序列分型的实现方法,包括步骤 通过计算机程序根据测序结果判读杂合子位点和待分型碱基序列;将含有杂合子的待分型 碱基序列比对到对应位点的分型数据库,识别待分型碱基序列和分型数据库的参考序列的 联配位置关系;根据待分型碱基序列和分型数据库的参考序列的联配位置关系检索分型数 据库中的等位基因型,根据定序策略获得分型数据库中的等位基因型的罚分值;根据分型 数据库中的等位基因型的罚分值获得候选型别组合集。进一步,根据所述待分型碱基序列和所述分型数据库的参考序列的联配位置关系 检索所述分型数据库中的等位基因型的步骤包括从待分型碱基序列中取出变异碱基对应位置上的碱基符号,顺序排列,然后遍历 预先建立的所述分型数据库中等位基因型中变异碱基的碱基符号形成的哈希数组,进行打 分,获得各个等位基因型的罚分值。根据本发明的方法的一个实施例,定序策略以DNA测序碱基质量为单位、按不同 错配类型加权后的分值累加和作为罚分值。根据本发明的分型方法的一个实施例,还包括步骤将测序结果文件的峰形 化显示输出,进行峰图形态缩放调节和/或序列峰图连动查看,以便于分型人员修改和/或 确认分型结果。本发明还提供一种基于聚合酶链式反应产物测序序列分型系统,包括碱基序列 判断子系统,用于接收测序结果,根据测序结果判读杂合子位点和待分型碱基序列;联配位 置识别子系统,用于接收来自碱基序列判断子系统的待分型碱基序列,将待分型碱基序列 比对到对应位点的分型数据库,识别待分型碱基序列和分型数据库的参考序列的联配位置 关系;罚分值确定子系统,用于根据待分型碱基序列和分型数据库的参考序列的联配位置 关系检索所述分型数据库中的等位基因型,根据定序策略获得分型数据库中的等位基因型 的罚分值;候选型别确定子系统,用于根据分型数据库中的等位基因型的罚分值获得候选 型别组合集。根据本发明的分析系统的一个实施例,还包括索引预处理子系统,用于预先建立 所述分型数据库的参考序列,以及所述参考序列和所述分型数据库的等位基因型序列之间 的位置对应关系;根据所述分型数据库的等位基因型中可变碱基位上的碱基符号序列形成 的哈希数组;罚分值确定子系统从待分型碱基序列中取出变异碱基对应位置上的碱基符号,顺 序排列,然后遍历该分型数据库的哈希数组,进行打分。根据本发明的分型系统的一个实施例,还包括图形化显示子系统,用于将测序结 果文件的峰形化显示输出,进行峰图形态缩放调节和/或序列峰图连动查看,以便于 分型人员修改和/或确认分型结果。本发明提供的基于聚合酶链式反应产物测序序列分型方法和系统,可以通过计算 机等设备实现候选基因型的自动识别,处理速度快,提高了分型效率。进一步,通过图形化显示界面等技术手段为分型人员的分型确认和修改提供方 便,提供了分型准确率以及分型效率。
图1示出本发明实施例的一种PCR-SBT分型的实现方法的流程图;图2示出本发明实施例的另一种PCR-SBT分型的实现方法的流程图;图3示出本发明的一个应用例的数据图形化输出界面的截图;图4示出本发明实施例的一种PCR-SBT分型系统的结构图;图5示出本发明实施例的另一种PCR-SBT分型系统的结构图。
具体实施例方式下面参照附图对本发明进行更全面的描述,其中说明本发明的示例性实施例。在 附图中,相同的标号表示相同或者相似的组件或者元素。图1示出本发明一种基于聚合酶链式反应产物测序序列分型的实现方法的一 个实施例的流程图,以下将基于聚合酶链式反应产物测序序列分型的实现方法简称为 PCR-SBT分型方法。如图1所示,在步骤102,通过计算机程序根据测序结果判读杂合子和待分型碱基 序列。例如,测序结果包括时域下定长间隔的荧光信号强度读数信息,根据荧光信号强度读 数确定信号峰值,从而确定碱基或杂合子。在步骤104,将含有杂合子的待分型碱基序列比对到对应位点的分型数据库, 识别待分型碱基序列和对应位点的分型数据库的参考序列的联配位置关系。PCR扩增 试验中靶位点是已知的,待分型碱基序列对应的目标位点也是已知的。根据待分型碱基 序列的目标位点信息比对到对应位点的分型数据库中。每个分型数据库包括参考序列 (ReferenceSequence)、以及参考序列和分型数据库中各个等位基因型的位置对应关系。例 如通过动态规划算法(Dynamic Programming)或点矩阵(Dot Matrix)方法实现待分型碱 基序列和对应位点的分型数据库的参考序列的联配位置关系的识别。在步骤106,结合待分型碱基序列和分型数据库的参考序列的联配位置关系,检索 分型数据库中的各个等位基因型,根据定序策略获得分型数据库中的各个等位基因型的罚 分值。遍历分型数据库中的等位基因型,根据待分型碱基序列和参考序列的联配位置关系、 参考序列和等位基因型的位置对应关系,获得待分型碱基序列和等位基因型序列的位置对 应关系,然后结合定序策略获得各个等位基因型的罚分值。定序策略可以按待分型碱基序 列与比较的等位基因型(标的等位基因型)之间的错配位置上的错配类型、待分型碱基序 列在该位置的质量值罚分的累加和作为定序依据在步骤108,根据分型数据库中的等位基因型的罚分值获得候选型别组合集。例 如,根据设定的罚分阈值选取TopN个候选型别组合集;或者选取第一个候选型别作为确定 的等位基因分型。本发明实施例的PCR-SBT分型的实现方法,通过计算设备等自动完成待分型基因 序列的分型,特别是对于大范围候选型别筛查搜索时,速度快,效率高。根据本发明的PCR-SBT分型的实现方法的一个实施例,预先对分型数据库中的等 位基因型序列信息进行预处理,将对应的等位基因型中的有变异的碱基(简称变异碱基) 对应的位置上的碱基符号取出,将变异碱基符号顺序排列、编码,形成哈希数组。例如,哈希
6数组的存储格式为键值_对数据库中各个型别在所有可变碱基位置上对应的碱基符号序 列按规则编码成2进制码后的值。对于待分型碱基序列,取出变异碱基对应位置上的碱基 符号,顺序排列,然后根据哈希数组的键值(key)遍历等位基因型的哈希数组,对待分型碱 基序列和分型数据库中的等位基因型序列进行打分,根据定序策略获得各个等位基因型的 罚分值,然后根据罚分阈值得到TopN个候选型。预先进行建库处理形成分型数据库的等位基因型的变异碱基的哈希数组,哈希数 组建好后可以驻留内存,可以多次重复对不同的待分型碱基序列进行处理,检索速度快,大 大提高了检索效率,从而提高了本发明整个分型方法的速度和效率。根据本发明的PCR-SBT分型的实现方法的一个实施例,在分型结果的筛选定序中 采用以DNA测序碱基质量为单位、按不同错配类型加权后的分值累加和作为罚分值,并以 该罚分由小到大的规则定序输出,获得候选基因型列表。例如,定序策略采用如下规则设 错配位点的质量值为q,待分型碱基序列Q与标的基因型T,则(1)缺失位,+1 ;(2)非缺失位错配,基础罚分为+q ;(3)非缺失位错配,如果Q为纯合子,且不为T中对应位置的简并碱基所包含,则 +2q;(4)非缺失位错配,如果Q为杂合子,且为T中对应位置的碱基所包含,则+2q ;(5)非缺失位错配,如果Q为杂合子,且不被T中对应位置的简并碱基所包含,则 +3q。本领域的技术人员根据本发明的上述例子,能够设计出多种相似或者等同的定序 策略,同样属于本发明的保护范围。通常碱基质量值代表该碱基Base Calling结果出错的概率,该值越高,出错的概 率越高,所以,以碱基质量作为罚分的基础值(或者参考值),可以提高分型的准确性。本发 明实施例的分型方法,相较于现有的仅以错配碱基数量为考量因子定序的方法,更加有效 地将最接近真实基因型的候选结果放置在候选列表的最优先位置,从而提高了分型效率。图2示出本发明一种PCR-SBT分型的实现方法的另一个实施例的流程图。如图2所示,在步骤202,输入测序结果文件。例如,测序结果文件的内容和格式可 以参见http//www.appliedbiοsystems, com/support/software_community/ABIF_ File_Format. pdf;在步骤204,根据测序结果文件自动判读杂合子位点和碱基序列。例如,通过 Reference-Based Base Calling (有参考序列的碱基识别)方法通过计算机自动进行碱基 及杂合子判读。在步骤206,待分型碱基序列和对应位点的分型数据库的参考序列的自动联配及 自动插入/删除识别。例如,在参考文献中“AlgorithmicBioinformatics,Daniel Huson, 25,0ktober,2005”中介绍了多种比对算法(Alignment Algorithm)。可以采用有界的全局 比对算法(BandedGlobal Alignment algorithm)进行自动联配。在步骤208,检索已经建立好索引的分型数据库,搜集候选等位基因型别组合集。在步骤210,根据罚分大小自动定序的候选等位基因型列表;
7
在步骤212,数据图形化显示输出。测序结果文件中记录时域下定长间隔的荧光信 号强度读数,与测序过程时域相对应;荧光信号有四种颜色,分别对应四种碱基,通过按特 定步长和曲线拟合公式,可以绘制出荧光信号在整个时域内的变化过程。这样的图由计算 机程序解析测序结果后绘制并显示。将测序结果中的峰图信号波形图与对应的碱基判读和 杂合子识别结果,以及由测序结果中通过自动判读得到的碱基序列,连同目标位点的选定 候选基因型序列按照联配位置关系整体显示在同一视图窗体中。在步骤214,峰图形态缩放调节及序列峰图连动查看。对峰图的显示支持单维度放 大缩小功能,提供更佳的可用性。通过待分型碱基序列和候选基因型序列比对,整理得到的 序列异同信息,将错配位置绘制成位点整体的概览视图,并支持在这些位置之间于各个窗 体视图上的同步跳转。具体实现如下序列峰图连动查看通过程序将多个测序结果文件对应的峰图在面板上显示出来 后,将根据每个测序结果文件获得的待分型的碱基序列和分型数据库中参考序列经过比对 得到的各个待分型碱基序列和参考序列的位置对应关系为基础,从而得到各个待分型碱基 序列之间的位置对应关系。不同待分型碱基序列上碱基之间的位置是相对的,每一次触发 一个碱基,程序首先会根据该碱基去查找它对应其他序列上对应的碱基位置,加上碱基的 偏移值,并且重新画出完整的峰图。每次触发后,确保本次触发的碱基是对齐的,其他位置 上的序列和峰图只保证大体上对齐即可。峰图形态缩放调节峰图的放大和缩小可以根据重绘图时修改峰图的参数每次来 设置峰图放大和缩小的比例以实现峰图的放大和缩小。峰图的拉升和挤压可以根据设置峰 图在横向的参数来实现峰图的拉升和挤压。在步骤216,获得分型结果及数据备份。分型人员的工作包括参考峰图排查假纯 合及确认或修改计算机自动识别出的杂合位点,并通过参考罕见型别列表,对当前待分型 序列做修改和最终确认。这部分目前需要受过专业培训的有经验的专业人员的人眼识别和 把握尺度。分型人员还需要在疑似新基因的结果(高质量位出现与当前数据库无匹配的 情况)出现时,做出确认;在模糊结果(可能是A基因型,也符合B基因型)出现时,给出 GSSP引物,以备应用SSP分型技术做附加确认。另外新基因的发现也是需要人去整理确认 的。对于数据备份,在分型人员保存文件的同时,软件会将该分型文件拷贝到软件指定的文 件夹下,保存分型文件的同时在该文件夹下产生一个临时文件,主要是记录分型人员分型 时的信息,如在某一个位置对某一个碱基做了修改,截取的峰图有效范围,分型的结果等。 这样当用户下次想再查看之前校正后的峰图文件时,可以直接打开分型历史记录面板,根 据日期来查看校正后的文件。多个测序结果对应的峰图序列文件打开后,软件可以根据算法实现特定碱基和序 列之间的对齐和联动,并且在选择峰图时,序列能保证同步和峰图对应。实现了序列的自动 对齐,不用人工进行矫正,缩短了用人眼去辨别序列位置的时间,大大的提高了分型工作者 的效率。通过实现峰图的放大,缩小以及峰值放大和缩小,当上下峰图对齐的效果不是很模 糊的时候,可以通过对峰图的放大和缩小来调整峰图的大小,便于分型人员查看峰图,提高 了分型效率。每一个峰图文件分型结果的备份和恢复机制。当分型人员通过修改碱基,屏蔽序 列分型完后,根据修改后的文件产生新分型的结果,将保存在一个临时文件夹里,主要是方
8便分型人员对已阅峰图的核对或是查看等。图3示出本发明的一个应用例的数据图形化输出界面的截图。如图3所示,该应 用例中SBT分型软件主界面分为四部分左上部分31,右上部分32,左下部分33,右下部分 34。其中,左上部分31为分型文件的选择部分。分型者选择的分型文件,都会在该部分以树 形结构的形式来展现,方便用户来选择分型文件。左下部分33根据选择的分型文件的文件 名称,识别该分型文件的比对位点,根据分型的位点选择比对的分型数据库,并根据候选型 别罚分由小到大的定序规则排序,即得出左下角的所有配型列表。右上部分32为选择分型 文件序列的显示部分。其中,第一行Consensus行为位点的比对库全序列;第二行Forward 行为选择分型文件的正向序列;Reverse为选择分型文件的反向序列;第三行Pattern行为 正反向序列的匹配序列结果;最下面的2条序列为从左下角得来的选择列表。右下部分34 为峰图和序列文件的显示部分。峰图上方为该峰图对应的序列。每个波峰都对应了一个碱 基,上下峰图的对应是根据分型文件和数据库的比对结果来对应的,峰图的上下的波峰和 波峰,峰图的上下的碱基和碱基,都是对应的。图4示出本发明实施例的一种PCR-SBT分型系统的结构图。如图4所示,该实施例 的分型系统包括碱基序列判断子系统41、联配位置识别子系统42、罚分值确定子系统43和 候选型别确定子系统44。其中,碱基序列判断子系统41用于接收测序结果,根据测序结果 判读杂合子位点和待分型碱基序列。联配位置识别子系统42用于接收来自碱基序列判断 子系统41的待分型碱基序列,将待分型碱基序列比对到对应位点的分型数据库中,识别待 分型碱基序列和对应位点的分型数据库的参考序列之间的联配位置关系。例如,联配位置 识别子系统42通过动态规划算法或者点矩阵方法识别待分型碱基序列和分型数据库的参 考序列的联配位置关系。罚分值确定子系统43用于根据所述联配位置识别子系统42识别 的待分型碱基序列和分型数据库的参考序列的联配位置关系检索分型数据库中的等位基 因型,根据定序策略获得分型数据库中的各个等位基因型的罚分值。例如,定序策略以DNA 测序碱基质量为单位、按不同错配类型加权后的分值累加和作为罚分。候选型别确定子系 统44,用于根据分型数据库中的各个等位基因型的罚分值获得候选型别组合集。根据本发明的一个实施例,分型系统还可选地包括索引预处理子系统45。索引预 处理子系统45用于预先建立分型数据库的参考序列,以及分型数据库的参考序列和分型 数据库的各个等位基因型序列之间的位置对应关系;此外,索引预处理子系统45还将分型 数据库中的等位基因型中的有变异的碱基(简称变异碱基)对应的位置上的碱基符号取 出,将变异碱基符号顺序排列、编码,形成哈希数组,即根据分型数据库的等位基因型中变 异碱基的碱基符号形成的哈希数组。罚分值确定子系统43从待分型碱基序列中取出变异 碱基对应位置上的碱基符号,顺序排列,然后遍历该分型数据库的哈希数组,进行联配。图5示出本发明实施例的另一种PCR-SBT分型系统的结构图。如图5所示,该实 施例的分型系统包括碱基序列判断子系统51、联配位置识别子系统52、罚分值确定子系统 53、候选型别确定子系统54、索引预处理子系统55、图形化显示子系统56和数据备份系统 57。其中,碱基序列判断子系统51、联配位置识别子系统52、罚分值确定子系统53、候选型 别确定子系统54和索引预处理子系统55可以参见上文实施例中对应子系统的描述,为简 洁起见在此不再详细描述。图形化显示子系统56用于将测序结果文件的峰形化显示 输出,进行峰图形态缩放调节和/或序列峰图连动查看,以便于分型人员修改和/或确认分
9型结果。图形化显示子系统56将测序结果中的峰图信号波形图与对应的碱基判读和杂合 子识别结果,以及由测序结果中通过自动判读得到的碱基序列,连同目标位点的选定候选 基因型序列按照联配位置关系整体显示在同一视图窗体中。数据备份系统57用于存储和 备份确认的分型结果,以及分型人员所作的修改等信息。对于数据备份,在分型人员保存文 件的同时,软件会将该分型文件拷贝到软件指定的文件夹下,保存分型文件的同时在该文 件夹下产生一个临时文件,主要是记录分型人员分型时的信息,如在某一个位置对某一个 碱基做了修改,截取的峰图有效范围,分型的结果等。需要指出,本发明实施例中的各个子系统,可以作为单独的设备或者装置存在,通 过相互配合和协作一起构成分型系统,例如各个子系统以分布式的方式存在;也可以多个 或者所有的子系统集成在同一设备上。现有软件分析速度一般为10个/小时,本发明的方案可以达到15个/小时,现有 软件准确率一般为90%,本发明的方案可以达到92%。与现有技术的其他厂家同类产品比 较,本发明的方法和系统在单位时间内分型速度可以提高50%,碱基识别的准确率可以提
尚2 % ο本发明提供的SBT分型方法和系统,可以通过计算机等设备实现候选基因型的自 动识别,从而提高了分型效率;通过图形化显示界面等技术手段为分型人员的分型确认和 修改提供方便,提供了分型准确率以及分型效率。需要指出,本发明的SBT分型方法和系统,不仅可以应用于HLA分型,同样可以应 用于 HPV(Human papillomavirus,人乳头瘤病毒)、HBV(h印atitis B virus,乙型肝炎病 毒)等其他分型的实现。理论上,在有分型数据库支持的条件下,本发明可以应用到任何有 分型需求的物种上的。本发明的描述是为了示例和描述起见而给出的,而并不是无遗漏的或者将本发明 限于所公开的形式。很多修改和变化对于本领域的普通技术人员而言是显然的。选择和描 述实施例是为了更好说明本发明的原理和实际应用,并且使本领域的普通技术人员能够理 解本发明从而设计适于特定用途的带有各种修改的各种实施例。
权利要求
一种基于聚合酶链式反应产物测序序列分型的实现方法,其特征在于,包括通过计算机程序根据测序结果判读杂合子位点和待分型碱基序列;将含有杂合子的所述待分型碱基序列比对到对应位点的分型数据库,识别所述待分型碱基序列和所述分型数据库的参考序列的联配位置关系;根据所述待分型碱基序列和所述分型数据库的参考序列的联配位置关系检索所述分型数据库中的等位基因型,根据定序策略获得所述分型数据库中的等位基因型的罚分值;根据所述分型数据库中的等位基因型的罚分值获得候选型别组合集。
2.根据权利要求1所述的实现方法,其特征在于,根据所述待分型碱基序列和所述分 型数据库的参考序列的联配位置关系检索所述分型数据库中的等位基因型的步骤包括从待分型碱基序列中取出变异碱基对应位置上的碱基符号,顺序排列,然后遍历预先 建立的所述分型数据库中等位基因型中变异碱基的碱基符号形成的哈希数组,进行打分。
3.根据权利要求1所述的实现方法,其特征在于,所述定序策略以DNA测序碱基质量为 单位、按不同错配类型加权后的分值累加和作为罚分。
4.根据权利要求1所述的实现方法,其特征在于,所述定序策略为 假定错配位点的质量值为q,待测序列Q与标的基因型T,则(1)缺失位,+1;(2)非缺失位错配,基础罚分为+q;(3)非缺失位错配,如果Q为纯合子,且不为T中对应位置的简并碱基所包含,则+2q;(4)非缺失位错配,如果Q为杂合子,且为T中对应位置的碱基所包含,则+2q;(5)非缺失位错配,如果Q为杂合子,且不被T中对应位置的简并碱基所包含,则+3q。
5.根据权利要求1所述的实现方法,其特征在于,通过动态规划算法或者点矩阵方法 识别所述待分型碱基序列和所述分型数据库的参考序列的联配位置关系。
6.根据权利要求1所述的实现方法,其特征在于,还包括步骤将测序结果文件的峰形化显示输出,进行峰图形态缩放调节和/或序列峰图连动 查看。
7.根据权利要求6所述的实现方法,其特征在于,还包括步骤 自动存储分型人员的修改和/或分型结果。
8.一种基于聚合酶链式反应产物测序序列分型系统,其特征在于,包括碱基序列判断子系统,用于接收测序结果,根据所述测序结果判读杂合子位点和待分 型碱基序列;联配位置识别子系统,用于接收来自所述碱基序列判断子系统的待分型碱基序列,将 所述待分型碱基序列比对到对应位点的分型数据库,识别所述待分型碱基序列和所述分型 数据库的参考序列的联配位置关系;罚分值确定子系统,用于根据所述待分型碱基序列和所述分型数据库的参考序列的联 配位置关系检索所述分型数据库中的等位基因型,根据定序策略获得所述分型数据库中的 等位基因型的罚分值;候选型别确定子系统,用于根据所述分型数据库中的等位基因型的罚分值获得候选型 别组合集。
9.根据权利要求8所述的分型系统,其特征在于,还包括索引预处理子系统,用于预先建立所述分型数据库的参考序列,以及所述参考序列和 所述分型数据库的等位基因型序列之间的位置对应关系;根据所述分型数据库的等位基因 型中变异碱基的碱基符号形成的哈希数组;所述罚分值确定子系统从待分型碱基序列中取出变异碱基对应位置上的碱基符号,顺 序排列,然后遍历所述分型数据库的哈希数组,进行打分。
10.根据权利要求8或9所述的分型系统,其特征在于,所述定序策略以DNA测序碱基 质量为单位、按不同错配类型加权后的分值累加和作为罚分值。
11.根据权利要求8所述的分型系统,其特征在于,联配位置识别子系统通过动态规划 算法或者点矩阵方法识别所述待分型碱基序列和所述分型数据库的参考序列的联配位置 关系。
12.根据权利要求8所述的分型系统,其特征在于,还包括图形化显示子系统,用于将测序结果文件的峰形化显示输出,进行峰图形态缩放 调节和/或序列峰图连动查看。
全文摘要
本发明公开一种PCR-SBT分型方法和系统,该方法包括通过计算机程序根据测序结果判读杂合子位点和待分型碱基序列;将待分型碱基序列比对到对应位点的分型数据库,识别待分型碱基序列和分型数据库的参考序列的联配位置关系;检索分型数据库中的等位基因型,根据定序策略获得分型数据库中的等位基因型的罚分值;根据分型数据库中的等位基因型的罚分值获得候选型别组合集。本发明提供的SBT分型方法和系统,可以通过计算机等设备实现候选基因型的自动识别,从而提高了分型效率;通过图形化显示界面等技术手段为分型人员的分型确认和修改提供方便,提供了分型准确率以及分型效率。
文档编号G06F19/00GK101984445SQ20101011770
公开日2011年3月9日 申请日期2010年3月4日 优先权日2010年3月4日
发明者刘涛, 樊清华 申请人:深圳华大基因科技有限公司