一种用于生物信息序列分析的加速平台的利记博彩app
【技术领域】
[0001]本发明属于生物信息计算与高性能计算领域,特别涉及一种用于生物信息序列分析的加速平台。
【背景技术】
[0002]生物信息序列通常是包含遗传信息的DNA、RNA序列等。这些带有遗传信息的序列在一些因素的影响下会发生突变,而突变往往对应着各种疾病,如癌症等。因此,对生物信息序列进行分析处理,找出其中的突变位点具有重要意义。当前,生物信息序列主要是通过基因测序得到。
[0003]近年来,随着基因测序技术的高速发展,测序数据吞吐量有了极大的提升。在2014年初,基因测序仪龙头企业Illumina发布了 HiSeq X Ten测序仪,其不间断测序能力已达到每年18,000个全人类基因组。这令人惊叹的数据生成速度对数据处理和分析的能力提出了极高的要求。具体来说,HiSeq XTen系统的一个运行周期为三天,一个运行周期内测序150个基因组。这也就意味着在三天之内,这些数据必须得到处理,否则便会产生数据阻塞,待数据处理越积越多。简单计算可知,要满足数据处理的要求,就必须在28分钟内完成基因分析的整个流水线过程。如果采用通用云计算以及现今产业界标准的BWA+GATK等分析工具,在高端服务器(12核心双路Intel至强处理器,96GB动态内存)上需要24小时才能完成一个基因组的分析。为了达到HiSeq X Ten三天150个基因组数据的处理需求,至少需要50台这样的高端服务器。考虑到能耗,IT维护等因素,该计算平台的成本将难以接受。
[0004]可以看到,即便是高端服务器也远远不能满足生物信息序列分析对速度的需求,并且其分析处理的成本很高。基因数据的处理如此费时的原因是其数据量极大,通常可以达到数百GB。为了找出突变,通常需要将基因序列与基因库中的海量数据进行比对,这一过程包括了质量评估、对准、变体识别、标记等处理。当前,该流程中的各处理步骤都可由运行在CPU上的软件来实现。发展到今天,这些软件实现已经显得较为成熟,据统计,目前已经有数百套软件分别支持该流程中的各处理步骤。然而,由于基因数据极大并且计算过程较为复杂,因此运行在CPU上的软件对各个步骤的计算十分缓慢。
[0005]综上所述,基因数据的产生较快并且其数据量极大。对基因数据的处理需要耗费大量计算资源,同时消耗大量时间。为了提高基因数据的处理速度,以匹配基因数据的产生速度,专用、高速、高效的生物信息序列分析平台有着广泛和根本的需求。
[0006]当前,用以进行生物信息序列处理的计算平台主要包括ASIC(applicat1nspecific integrated circuits), FPGA(Field programmable gate arrays),GPU (Graphics Processor Units),以及 CPU (Central Processing Unit)等。在这些数据计算平台上,ASIC无疑拥有最高的性能和最好的能耗效率。然而,ASIC的实现需要极大的研发投入和时间成本,实现难度最大。通常,实现一款ASIC需要对设计进行充分细致的验证,测试并多次试产,这个过程往往耗时数年且通常花费数百万美元以上。常规的CPU计算平台通过软件程序实现对数据的处理,实现起来较其他平台容易,但性能也最低。而对GPU平台而言,其拥有高速的1/0,但受限于有限的存储资源。尽管实现起来相对FPGA和ASIC更为容易,其性能却较FPGA和ASIC都低。FPGA的时钟频率虽然较CPU低一个数量级,但其提供了大量可利用的并行计算资源。此外,FPGA具有高速双向1/0,较大的共享内存,以及高度并行化的特点。这些特点使得FPGA十分适合用于计算加速。
【发明内容】
[0007]为了克服上述现有技术的缺点,本发明的目的在于提供一种用于生物信息序列分析的加速平台,基于FPGA和ASIC,将生物序列分析流程以硬件的方式来实现,在实现过程中通过高效的硬件架构、高度并行化的计算来大大降低计算和分析所需的时间,其特点包括高效,可重构,可进化,易于与现有平台整合,高精度,高速,可扩展,界面友好等。
[0008]为了实现上述目的,本发明采用的技术方案是:
[0009]—种用于生物信息序列分析的加速平台,包括:
[0010]一个或者多个通用的云计算平台1-1;
[0011]—个或者多个用于生物信息序列分析的硬件加速器平台1-2 ;
[0012]若干与每个硬件加速平台1-2--对应的本地任务调度与重构管控接口 1-3 ;
[0013]—个或者多个生物信息序列参考数据库1-5,用于和被分析目标序列进行生物学对照分析从而获得分析结果;
[0014]—个或者多个目标任务数据库1-6,用于存储目标任务;
[0015]其特征在于:所述云计算平台1-1接收压缩或者非压缩的目标生物信息序列任务,并将目标任务存储在目标任务数据库1-6,等待云计算平台1-1单独或者与硬件加速器平台1-2协同分析处理。
[0016]当协同分析处理时,协同方式包括但不限于以完整任务、个别分析算法粒度为边界的目标任务划分处理。此时,通过本地任务调度与重构管控接口 1-3实现硬件加速器平台1-2的本地分配与全局均衡,由云计算平台1-1提供重构配置数据流通过本地任务调度与重构管控接口 1-3对参与协同的硬件加速器平台1-2进行重构。
[0017]本发明设置用于访问硬件加速平台资源的底层驱动1-4,任何双向流动于云计算平台1-1与硬件加速器平台1-2之间的数据与控制流均通过底层驱动1-4来提供访问手段。
[0018]所述分析处理是通过将目标生物信息序列任务中的被分析目标序列与生物信息序列参考数据库1-5中的信息进行生物学对照分析获得分析结果。
[0019]所述生物信息序列包括但不限于生物基因组序列、生物RNA序列、蛋白质序列等;所述生物学对照分析包括并不限于:基于参考序列生物基因组序列的映射、对齐、序列对比、变异分析与病理关联分析;基于参考序列的生物RNA序列的映射、对齐、序列对比、变异分析与病理关联分析;蛋白质序列的映射、对齐、序列对比或变异分析与病理关联分析。
[0020]当所述硬件加速器平台1-2为多个时,相互之间通过高速互连结构7实现互联通信,以实现局部负载均衡。
[0021]所述的硬件加速器平台1-2,作为云计算平台1-1的辅助计算节点,能够但不必需地将生物信息序列分析流程的一部分或者全部步骤卸载在硬件加速器平台1-2上并予以加速分析。硬件加速器平台1-2基于专用集成电路(ASIC)或者现场可编程门阵列(FPGA),为一个可重构、可进化、可扩展的生物信息序列分析硬件加速平台。其包括:
[0022]序列分析处理器簇2-1,由一个或者多个异质结构的序列分析处理器组成簇状聚合;
[0023]可重构簇间互连结构2-2 ;
[0024]可重构外周互连结构2-3 ;
[0025]分析核心控制单元2-4 ;
[0026]高速数据接口 2-5;
[0027]重构配置接口 2-6;
[0028]高速加速器芯片间/平台电路板间/服务器机架间的互连结构2-7 ;
[0029]上位机接口 2-8;
[0030]内存控制器2-9;
[0031]以及基于非挥发存储器的分析平台重构配置数据库2-10。
[0032]所述高速数据接口 2-5为DMA控制器与PC